Русский

Трансформируем ваши данные в прибыль

Офис Москва

Пн — Пт: с 10:00 до 19:00

+7 (495) 215-10-97

Главная › Блог › Автоматическая проверка аналитики

Автоматическая проверка аналитики

196

8 минут(ы)

Александр Савинов

Специалист в области анализа данных и машинного обучения с опытом аналитики продаж как в онлайн, так и в оффлайн торговле. Занимался созданием ML-моделей для категоризации товаров и сегментации клиентов, а также разработкой моделей предиктивной аналитики с использованием методов анализа временных рядов.

Опыт работы: 3 года.

Публикаций: 14

Введение

Цена ошибки в аналитике очень высока. Неверно рассчитанные показатели могут привести к ряду ошибочных решений и, как следствие, к неэффективному расходованию ресурсов. Хуже того, один сбой может навсегда подорвать доверие к отчетам. После этого бизнес возвращается к ручным выгрузкам из кабинетов и сведению отчетов в Excel. Однако есть способ сделать вашу аналитику надежной без значительного увеличения трудозатрат специалистов — автоматическая проверка.

Может показаться, что автоматические проверки потребуют внедрения сложных систем или значительного усложнения архитектуры проекта. На практике автоматическая проверка аналитики сводится к нескольким ключевым компонентам:

Мониторинг потоков данных — наблюдаемость процессов загрузки в ETL/DWH

Контроль качества данных SQL — автоматические data quality checks на уровне таблиц и витрин

Хранение результатов проверок — сохранение истории проверок в базу данных для анализа и аудита

Алерты в аналитике — уведомления ответственным, если что-то пошло не так

В этой статье — практичный подход к построению такой системы: какие проверки качества данных строить, как организовать их выполнение и хранить результаты, как настроить отправку алертов.

Дорогие читатели и пользователи платформы StreamMyData! Хотим пригласить вас в наш телеграм канал, в котором публикуются важные новости, обновления, статьи и кейсы.

1. Мониторинг потоков данных

Мониторинг потоков данных — это наблюдение за процессами извлечения, преобразования и загрузки данных: отслеживание статусов, времени выполнения, ошибок и объёмов данных. Правильно настроенный мониторинг позволяет не просто обнаружить проблему, но и выявить ее причину. Вы сможете понять не только из какого источника не пришли данные, но и почему: кончился срок действия токена, превышен лимит выгрузок API, не отвечает внешний сервер и т.д.

Практически полезно разделять два слоя контроля:

Мониторинг процесса (операционный уровень): что происходит с запуском и выполнением ETL

Мониторинг данных в потоке (data-level): что происходит с объёмами и «сигнатурами» данных на входе/выходе этапов

Оба слоя нужны: процесс может формально «успешно завершиться», но принести неполные данные; и наоборот — данные могут быть корректными, но обновление опаздывает, нарушая SLA.

Что мониторить в потоках ETL/DWH

Чтобы автоматическая проверка ETL реально помогала, достаточно покрыть несколько типов сигналов:

Статусы выполнения и ошибки. Успех/сбой запусков и этапов, коды ошибок, типичные причины (доступы, квоты, schema mismatch). Количество повторных попыток, «нестабильные» этапы, повторяющиеся падения.

Время выполнения и задержки. Длительность этапов и отклонение от «нормы». Время от появления данных в источнике до появления в DWH/витрине (end-to-end latency). Контроль SLA обновлений по слоям: источник → ingestion → staging → DWH → витрина.

Объёмы данных на ключевых этапах. Количество строк/событий на входе и выходе этапа. Просадки/скачки объёмов, «обнуления», частичные загрузки. Доли отфильтрованных записей, если есть валидация.

Схема и «контракт» данных. Появление/исчезновение колонок, смена типов, неожиданные форматы. Сигналы об изменениях, которые ломают downstream-таблицы и витрины.

По сути, мониторинг потоков данных — это возможность быстро ответить на два вопроса: «где именно началась проблема?» и «это задержка, сбой процесса или деградация данных?».

StreamMyData мониторинг

Важный практический момент: в StreamMyData для ETL-потоков уже встроен удобный мониторинг. В интерфейсе вы сможете видеть статус загрузки или перезагрузки данных за каждый отдельный день. Также вы сможете увидеть объем выгруженных данных и количество строк. Визуализация количества выгруженных строк в виде графика позволит вовремя обнаружить проблемы с источником.

Кроме того имеется возможность настроить отправку алертов в телеграм бот. Для этого зайдите на страницу нужного потока в раздел параметры и в пункте Уведомления скопируйте токен. Затем в Telegram найдите бот @smd_alerts_bot, в нем выполните команду /subscribe и вставьте скопированный токен.

2. Контроль качества данных с помощью SQL-чеков

Data quality checks на SQL — это регулярные проверки, оформленные в виде SQL-запросов. Их задача — автоматически подсветить ситуации, когда данные в витрине или таблице выглядят подозрительно: что-то не загрузилось, обновление задержалось, значения стали некорректными или метрики резко «поехали» относительно привычного уровня.

Подход универсальный: примеры ниже приведены на синтаксисе ClickHouse, но та же логика переносится на любую СУБД (обычно отличаются только функции дат и некоторые агрегаты).

Все приведённые примеры следуют единому правилу: запрос возвращает 0 строк, если всё нормально, и возвращает строки (описание проблемы), если есть отклонение. Такой результат легко сохранить в таблицу истории проверок и использовать для алертов.

2.1. Проверка наличия и полноты данных

Есть ли данные за каждый день за последнюю неделю (ловит пропуски дат):

WITH
    toDate(now()) AS today,
    7 AS days_back
SELECT d AS missing_date
FROM (
    SELECT today - number AS d
    FROM numbers(days_back)
) calendar
LEFT JOIN (
    SELECT toDate(event_time) AS d
    FROM analytics.events
    WHERE event_time >= today - days_back
    GROUP BY d
) fact USING d
WHERE fact.d IS NULL;

Не просел ли объём данных (сегодня меньше 60% среднего за последние 14 дней):

WITH
    toDate(now()) AS today,
    today - 14 AS from_date
SELECT
    today_cnt,
    avg_cnt,
    round(today_cnt / avg_cnt, 3) AS ratio
FROM (
    SELECT count() AS today_cnt
    FROM analytics.events
    WHERE toDate(event_time) = today
) t
CROSS JOIN (
    SELECT avg(cnt) AS avg_cnt
    FROM (
        SELECT toDate(event_time) AS d, count() AS cnt
        FROM analytics.events
        WHERE toDate(event_time) BETWEEN from_date AND (today - 1)
        GROUP BY d
    )
) h
WHERE avg_cnt > 0 AND today_cnt < avg_cnt * 0.6;

2.2. Проверка свежести

Витрина обновлялась не позже SLA (например, не старше 60 минут):

WITH 60 AS sla_minutes
SELECT
    max(updated_at) AS last_update,
    dateDiff('minute', last_update, now()) AS lag_minutes
FROM mart.sales_daily
HAVING lag_minutes > sla_minutes;

2.3. Проверки корректности значений

Невозможные значения (отрицательные суммы и даты из будущего):

SELECT order_id, amount, created_at
FROM mart.orders
WHERE amount < 0 OR created_at > now()
LIMIT 100;
Доля пустых значений в важном поле (если превышает 1%):
WITH 0.01 AS max_null_rate
SELECT
    count() AS total_rows,
    countIf(isNull(user_id)) AS null_rows,
    null_rows / total_rows AS null_rate
FROM analytics.events
WHERE toDate(event_time) = toDate(now())
HAVING null_rate > max_null_rate;

2.4. Поиск аномалий

Аномалии — это резкие и нетипичные отклонения метрик относительно их обычного поведения. На практике полезны два простых подхода:

Сравнение с «нормой» по недавней истории (например, z-score или коридор от среднего)

Week-over-week — сравнение с тем же днём недели. Для метрик с выраженной недельной сезонностью такой вариант часто даёт меньше ложных срабатываний

Z-score по дневному объёму относительно последних 14 дней:

WITH
    toDate(now()) AS today,
    today - 14 AS from_date
SELECT
    today_value,
    mean_value,
    std_value,
    (today_value - mean_value) / nullIf(std_value, 0) AS z
FROM (
    SELECT count() AS today_value
    FROM analytics.events
    WHERE toDate(event_time) = today
) t
CROSS JOIN (
    SELECT
        avg(cnt) AS mean_value,
        stddevPop(cnt) AS std_value
    FROM (
        SELECT toDate(event_time) AS d, count() AS cnt
        FROM analytics.events
        WHERE toDate(event_time) BETWEEN from_date AND (today - 1)
        GROUP BY d
    )
) h
WHERE abs(z) >= 3;

Week-over-week (сравнить с тем же днём недели неделю назад):

WITH
    toDate(now()) AS today,
    today - 7 AS prev_week
SELECT
    today_cnt,
    prev_week_cnt,
    round((today_cnt - prev_week_cnt) / nullIf(prev_week_cnt, 0), 3) AS wow_change
FROM (
    SELECT count() AS today_cnt
    FROM analytics.events
    WHERE toDate(event_time) = today
) t
CROSS JOIN (
    SELECT count() AS prev_week_cnt
    FROM analytics.events
    WHERE toDate(event_time) = prev_week
) w
WHERE prev_week_cnt > 0 AND abs(wow_change) >= 0.3;

Такой набор data quality checks обычно закрывает самые частые классы проблем: пропуски/неполные загрузки, задержки обновления, явные ошибки в значениях и резкие «скачки» метрик.

3. Хранение результатов проверок

Без истории результатов после алерта непонятно: это разовое падение или проблема тянется уже неделю. Поэтому результаты всех проверок нужно сохранять в базу данных.

3.1. Структура таблиц

Таблица запусков (dq_runs) фиксирует каждый запуск набора проверок:

run_id — идентификатор запуска

run_ts — время запуска

window_start, window_end — окно проверки

status — успешно/частично/ошибка выполнения

Таблица результатов (dq_results) хранит итог каждой проверки:

run_id, check_id — связь с запуском и идентификатор чека

checked_object — таблица/витрина

status — OK/WARN/FAIL

value, threshold — измеренное значение и порог

details — JSON с диагностикой: период, величина отклонения, примеры ключей

owner — ответственный за проверку

3.2. Зачем хранить измеренные значения

Полезно хранить не только статус «упал/не упал», но и само измеренное значение. Тогда можно строить тренды и замечать деградацию заранее — до того, как сработает порог. Например, если доля NULL постепенно растёт от 0.1% до 0.8%, это сигнал к разбору, даже если порог в 1% еще не пробит.

Чтобы после получения алерта можно было понять причину его срабатывания, в поле details стоит сохранять:

период, на котором обнаружена проблема

величину отклонения (например, today_cnt=1200, avg=3100, ratio=0.39)

разрез/сегмент, если проблема локальная

несколько примеров ключей (order_id, event_id)

Это снижает время на ручные запросы при разборе инцидента.

4. Настройка алертов

Автоматическая проверка выявила ошибку, теперь нужно уведомить специалиста, чтобы он ее исправил. Для этого используются алерты — сообщения о проблеме, отправляемые на почту или в мессенджер, такой как Telegram.

4.1. Когда алертить

Уровни: WARN (есть отклонение) и CRITICAL (нарушен SLA/данные явно некорректны)

Дедупликация: не повторять одно и то же уведомление каждый запуск, если проблема все еще активна

Эскалация: если проблема не устранена X часов — расширять список получателей

4.2. Что писать в алерте

Название проверки + объект (витрина/таблица)

Окно проверки (за какой день/час)

Факт vs порог (что нашли и почему это отклонение)

Ссылка на детали (dq_results, дашборд, runbook)

Владелец (кто отвечает)

4.3. Примеры отправки алертов из Airflow в Telegram

Сначала создайте новый Telegram бот с помощью @BotFather и получите токен:

Откройте @BotFather в Telegram
Команда /newbot → задайте имя
Получите токен вида 123456789:AA…

Так же вам понадобиться chat_id. Получить его можно с помощью небольшого python скрипта:

import telebot
bot = telebot.TeleBot("YOUR_TELEGRAM_BOT_TOKEN")
@bot.message_handler(commands=["chatid"])
def handle_chatid(message):
    bot.send_message(message.chat.id, f"ID этого чата: {message.chat.id}")
bot.polling()

Как использовать:

Вставьте в код скрипта токен вашего бота
Если нужен ID личного чата — откройте личный чат с ботом и отправьте /chatid.

Если нужен ID группы/рабочего чата — добавьте бота в группу и отправьте там /chatid.

Сохраните полученное число — это TELEGRAM_CHAT_ID.

После получения ID остановите скрипт: он работает в режиме прослушивания (polling) и больше не нужен.

Для выполнения скрипта понадобится установить пакет pyTelegramBotAPI.

Сценарий A: алерт в Telegram, если упала задача Airflow

from datetime import datetime


from airflow import DAG
from airflow.models import Variable
from airflow.operators.python import PythonOperator


from telegram import Bot
from telegram.constants import ParseMode




def send_telegram(text: str) -> None:
    token = Variable.get("TELEGRAM_BOT_TOKEN")
    chat_id = Variable.get("TELEGRAM_CHAT_ID")


    bot = Bot(token=token)
    bot.send_message(
        chat_id=chat_id,
        text=text,
        parse_mode=ParseMode.MARKDOWN,
        disable_web_page_preview=True,
    )




def on_failure_callback(context):
    dag_id = context["dag"].dag_id
    task_id = context["task_instance"].task_id
    run_id = context["run_id"]
    log_url = context["task_instance"].log_url


    text = (
        f"*AIRFLOW ALERT*\n"
        f"*DAG*: `{dag_id}`\n"
        f"*Task*: `{task_id}`\n"
        f"*Run*: `{run_id}`\n"
        f"*Log*: {log_url}"
    )
    send_telegram(text)




def example():
    raise RuntimeError("fail")




with DAG(
    dag_id="dq_checks_daily",
    start_date=datetime(2025, 1, 1),
    schedule="0 8 * * *",
    catchup=False,
    default_args={"on_failure_callback": on_failure_callback},
) as dag:


    run_checks = PythonOperator(
        task_id="run_sql_checks",
        python_callable=example,
    )

Чтобы код работал, в окружении Airflow должен быть установлен пакет python-telegram-bot.

Сценарий B: алерт в Telegram со списком упавших SQL‑чеков (а не падение задачи)

Этот вариант используют, когда выполнение “технически успешно”, но часть проверок вернула WARN/FAIL. Воспользуемся функцией send_telegram из предыдущего примера.

Что нужно заранее:

таблица истории результатов (например, dq_results) с полями вроде run_ts, check_id, status, checked_object, details

задача, которая читает из нее только новые проблемные проверки

Пример “задачи‑уведомителя” (псевдологика чтения из таблицы результатов):

from airflow.operators.python import PythonOperator
def notify_failed_checks():
    # Здесь должна быть ваша логика: выбрать из dq_results новые WARN/FAIL за окно.
    failed = [
        {"check_id": "freshness_sales_daily", "object": "mart.sales_daily", "status": "CRITICAL"},
        {"check_id": "events_volume_drop", "object": "analytics.events", "status": "WARN"},
    ]
    if not failed:
        return
    lines = ["*DATA QUALITY ALERT* - найдены отклонения:"]
    for x in failed:
        lines.append(f"- `{x['status']}` `{x['check_id']}` → `{x['object']}`")
    send_telegram("\n".join(lines))
notify_failed_checks_task = PythonOperator(
    task_id="notify_failed_checks",
    python_callable=notify_failed_checks,
)

В данном кейсе вы можете прочитать о том, как мы создали автоматические оповещения в Telegram об аномалиях в Яндекс Вебмастере и Метрике

5. Архитектура автоматических проверок и настройка алертов

Теперь соберём всё вместе: мониторинг потоков данных, SQL-чеки витрин и алерты в аналитике — в единую систему автоматической проверки.

5.1. Компоненты системы

Автоматическая проверка аналитики должна содержать следующие компоненты:

ETL-потоки со встроенным мониторингом. StreamMyData обеспечивает мониторинг потоков данных и автоматическую отправку алертов в Telegram при сбоях или аномалиях. Это первый уровень защиты — проблемы в загрузке данных ловятся сразу.
Оркестратор для SQL-чеков. Подойдет любой инструмент, способный запускать SQL запросы по расписанию. Лучше использовать то, что уже есть в архитектуре вашего проекта, например Airflow. Проверки выполняются после завершения ETL-процессов и фиксируют качество данных на уровне витрин.
База данных для хранения результатов. Таблицы dq_runs и dq_results для истории всех проверок. Без этого непонятно: проблема разовая или тянется уже неделю.
Система алертов. Отправка уведомлений в Telegram или на почту при обнаружении WARN/FAIL статусов.

5.2. Последовательность проверок

Правильный порядок проверок позволяет быстро локализовать проблему:

Автоматическая проверка ETL — если ETL упал или принёс неполные данные, алерт уходит сразу, и нет смысла проверять витрины.
SQL-чеки staging/DWH — наличие данных за нужный период, свежесть обновления, объёмы. Отвечают на вопрос: «данные дошли?».
SQL-чеки витрин — корректность значений, аномалии, бизнес-правила. Работают с готовыми данными и ловят проблемы бизнес-логики.

Вывод

Автоматическая проверка аналитики — это важный элемент вашего проекта. Не смотря на кажущуюся сложность, все сводится к четырем основным компонентам:

Мониторинг потоков данных показывает, что происходит в цепочке загрузок: задержки, сбои этапов, просадки объемов.
SQL-чеки фиксируют состояние данных на уровне таблиц и витрин: наличие, свежесть, корректность значений и аномалии.
Хранение результатов проверок в базе данных позволяет отличить случайные ошибки от системных, а также выявить деградацию показателей прежде чем они преодолеют критическую отметку.
Алерты в аналитике превращают результаты проверок в действия: уведомления приходят нужным людям с контекстом и не создают лишнего шума.

Если собрать эти элементы вместе получается устойчивый подход: проблемы в данных ловятся раньше, разбор занимает меньше времени, а доверие к отчётам поддерживается системно.

5 февраля 2026

Статьи

Как выбрать BI‑систему под ваш DWH: Superset, Power BI, Looker Studio, Yandex DataLens

Как выбрать BI‑систему под ваш DWH для маркетинга: Superset, Power BI, Looker Studio и DataLens. Критерии пилота и чек‑лист выбора.

2 февраля 2026

#CDP
Без категории

Единый клиентский профиль: как объединить CRM, коллтрекинг, мессенджеры и веб-аналитику

Как создать единый клиентский профиль на основе данных из разных источников: идентификаторы, архитектура хранения и алгоритмы матчинга.

28 января 2026

#StreamMyData
Статьи

Ключевые метрики маркетплейсов: что реально важно продавцу Ozon, Wildberries и Яндекс.Маркет

Ключевые метрики маркетплейсов Ozon, Wildberries и Яндекс.Маркета: воронка карточки, выкуп/возвраты, комиссия, логистика, маржа и реклама.

24 января 2026

#Предиктивная аналитика
Аналитика

Предиктивная аналитика в маркетинге: дорожная карта внедрения для среднего бизнеса

Рассказываем о том, что нужно для внедрения предиктов в ваши процессы интернет-маркетинга, как их использовать и оценивать эффективность

22 января 2026

Статьи

Данные из Telegram и VK: как собирать статистику и диалоги в хранилище данных

Выгрузка данных Telegram и VK в DWH: сбор переписки, связка с CRM, контроль кликов. Готовые коннекторы и архитектура интеграции

19 января 2026

#Data Mart
Статьи

Единая витрина маркетинга: от сырых логов до таблиц для BI

Единая витрина маркетинга значительно экономит время специалистов. Разберем архитектуру маркетингового хранилища данных с примерами.

14 января 2026

#ML
Статьи

Грабли ML-атрибуции: где ломаются реальные бизнесы и как этого избежать

ML-атрибуция часто не работает из-за ошибок в данных и верификации. Разбираем 6 типичных провалов и даём чек-лист для успешного внедрения.

11 января 2026

#B2B/B2C
Аналитика

Метрики маркетинга для B2B и e-commerce: почему отчёты должны отличаться

Рассказываем о различиях в подходах к анализу эффективности маркетинга в сегментах B2B и E-commerce

25 декабря 2025

#DWH
Аналитика

Атрибуция офлайн-продаж: как связать звонки, визиты и онлайн-рекламу

Атрибуция оффлайн-продаж: как связать Яндекс Директ, Метрику, коллтрекинг, CRM системы и вернуть оффлайн-конверсии в вашу аналитику.

4 сентября 2025

Статьи

Уравнение внимания: как победить в борьбе за аудиторию

31 августа 2025

Статьи

Метрика Про: новый уровень аналитики для бизнеса

26 сентября 2024

#accuracy
Статьи

Метрики классификации в машинном обучении

Для оценки моделей классификации используют разные метрики от accuracy до ROC-AUC. Узнайте о преимуществах и недостатках каждой из них.

17 сентября 2024

#Поиск
Аналитика

Метрики поиска на сайте: как их отслеживать и интерпретировать

Рассказываем о том, почему важно оценивать эффективность внутреннего поиска на вашем сайте, какие метрики и способы для этого существуют

11 сентября 2024

Статьи

Как когортный анализ помогает бизнесу расти быстрее

В этой статье мы разберемся, что такое когортный анализ, почему он важен, и как он может способствовать росту вашего бизнеса.

10 сентября 2024

#StreamMyData
Статьи

Один счетчик Яндекс Метрики для нескольких сайтов: зачем и как настроить

В данной статье мы обсудим, почему иногда удобно использовать один счетчик Яндекс Метрики для нескольких сайтов.

2 сентября 2024

Статьи

Объем данных в базе данных: как его измерить и почему это критично?

В данной статье мы рассмотрим методы вычисления объема данных на примере различных БД, а также вы узнаете для чего это нужно.

30 августа 2024

Статьи

Улучшение монотонного моделирования с учетом пространственно-временной адаптивной осведомленности в различных маркетинговых стратегиях

28 августа 2024

#Python
Статьи

Retentioneering: Анализ данных для удержания клиентов

Подробная инструкция по Retentioneering — библиотеки Python для анализа поведения пользователей и повышения эффективности бизнеса.

18 августа 2024

#Callibri
Аналитика

Коробочное решение vs. Ручная настройка: Что лучше для сквозной аналитики?

10 августа 2024

#Cookie
Аналитика

Закат cookies в 2024: что это значит для аналитики и маркетинга?

Отказ от сторонних cookies в 2024 году: как адаптировать аналитику и маркетинг с помощью новых технологий и решений StreamMyData

9 августа 2024

Статьи

Что такое SaaS: Понимание через примеры популярных веб-инструментов

В данной статье вы ознакомитесь с понятием SaaS-системы, узнаете их основные характеристики и с чем придется столкнуться при подключении.

11 июля 2024

Статьи

Усиление бренда с помощью музыкальных рекламных игр

Узнайте, как музыка в рекламных играх усиливает вовлеченность, улучшает впечатление и узнаваемость бренда, делая маркетинг более эффективным.

10 июля 2024

Статьи

Больше продаж с CausalMMM: Улучшите стратегию онлайн-рекламы

Увеличьте выручку и оптимизируйте рекламный бюджет с CausalMMM: точное прогнозирование и эффективное управление рекламными расходами.

8 июля 2024

Статьи

Автоматизация выгрузки данных из CRM в базу данных

В данной статье вы узнаете, какие данные возможно получить из вашей CRM системы благодаря StreamMyData и как с ними можно работать.

2 июля 2024

#RFM
Статьи

Как настроить таргетинг на «горячих» клиентов?

Узнайте, как настроить точный таргетинг на «горячих» клиентов с помощью предиктивной аналитики и RFM сегментации

1 июля 2024

#RFM
Статьи

Использование RFM сегментов в Яндекс.Директ

Как сегментировать покупателей с помощью RFM анализа. Как использовать полученные сегменты в Яндекс.Директ.

22 июня 2024

Статьи

18 июня 2024

Статьи

Моделирование атрибуции, основанной на доходах, для онлайн рекламы

17 июня 2024

Статьи

Как преобразовать дату в формате NUMERIC в привычный вид в Superset

17 июня 2024

Статьи

Методы значений Шепли для моделирования атрибуции в интернет-рекламе

17 июня 2024

Статьи

Как Prophet обеспечивает прогнозирование временных рядов в Apache Superset

12 июня 2024

#AirFlow
Статьи

Как ускорить процесс принятия решений и сделать его более обоснованным?

Автоматизация и использование дашбордов позволит вам значительно ускорить процесс принятия решений и сделать его более обоснованным

4 июня 2024

Статьи

Как обеспечить единство и надежность хранения данных?

%%title%% Узнайте о DWH и ETL, которые помогают повысить эффективность анализа и принятия решений.

3 июня 2024

#StreamMyData
Инструкции

Автоматизация выгрузки из Яндекс.Метрики в базу данных

Автоматизируйте выгрузку данных из Яндекс.Метрики в вашу Базу Данных для последующего использования с AI в рекламе

30 мая 2024

Статьи

ROPO эффект и ROPO аналитика: что это такое и как помогает бизнесу

Узнайте, как ROPO влияет на офлайн-продажи, и настройте веб-аналитику и CRM для оптимизации маркетинга и увеличения продаж.

22 мая 2024

#Apache Superset
Инструкции

Определяем эффективность рекламы

Узнайте как с помощью сервиса StreamMyData провести эффективный анализ ваших рекламных каналов и определить их результативность

21 мая 2024

Статьи

Передача данных из Logs API в Yandex ClickHouse

Эффективная передача данных из LogsAPI в Yandex ClickHouse для точного анализа трафика и улучшения бизнес-процессов.

28 февраля 2024

#Apache Superset
Статьи

Почему нельзя так просто создать дашборд

Узнайте почему нельзя так просто создать дашборд. Какие процессы входят в создание BI-аналитики, и почему это не легкий процесс

21 февраля 2024

#StreamMyData
Инструкции

Интеграция Яндекс.Метрики и Яндекс.Директа с Apache Superset

Узнайте как с помощью сервиса StreamMyData интегрировать данные Яндекс.Метрики и Яндекс.Директа с Apache Superset.

20 февраля 2024

#ClickHouse
Инструкции

Как начать использовать StreamMyData

4 февраля 2024

#GBQ
Статьи

Превосходство предиктивного анализа: как мы с командой создаем системы предиктивной аналитики

Узнайте, как предиктивный анализ меняет игру в маркетинге. От обработки данных до инновационных моделей прогнозирования/

18 января 2024

#amoCRM
Без категории

Интеграция CRM-системы с Яндекс Метрикой

Интеграция CRM-системы с Яндекс Метрикой на примере amoCRM. Узнайте, как передавать в Метрику данные о клиентах, сделках и реальном доходе

11 января 2024

#NumPy
Инструкции

Введение в NumPy: Простые примеры для аналитиков

Введение в библиотеку NumPy для аналитиков данных, а также её применение в маркетинге и поведенческой аналитике.

30 декабря 2023

#Автоматизация бизнеса
Статьи

Сквозная аналитика: панацея или головная боль?

Узнайте, является ли сквозная аналитика ключом к успеху вашего бизнеса или просто добавляет сложностей. От авторов сквозной для Литреса.

29 декабря 2023

#Pandas
Статьи

Pandas: Революционный Инструмент для Анализа Данных

Pandas – это ключевая библиотека языка программирования Python, специализирующаяся на обработке и анализе данных.

27 декабря 2023

#Python
Инструкции

Автоматизация выгрузки с StreamMyData

В данной статье мы разберем, как при помощи StreamMyData, Python и SQL можно автоматизировать выгрузку целей, достигаемых пользователем во время взаимодействия с сайтом.

25 декабря 2023

#GTM
Инструкции

Передача скопированного текста в Яндекс.Метрику с помощью Google Tag Manager

4 октября 2023

#RFM
Статьи

Как повысить эффективность рекламных кампаний Яндекс.Директ и продавать дорогие украшения за 1 800 руб. с помощью RFM-сегментации

Сегментация клиентов — это важный инструмент, который может помочь компаниям повысить эффективность своих маркетинговых кампаний и улучшить взаимодействие с клиентами.

29 августа 2023

Статьи

Как использовать Big Data для оптимизации бизнес-процессов

Использование Big Data для оптимизации бизнес-процессов является мощным инструментом, который позволяет компаниям принимать информированные решения, предсказывать будущие тенденции и улучшать эффективность.

29 августа 2023

Статьи

Роль и преимущества облачных хранилищ данных

Облачные хранилища данных играют важную роль и имеют большие преимущества в современном мире, предоставляя пользователем и организациям гибкое, надежное и удобное решение для хранения и управления данными.

29 августа 2023

Статьи

Исследование путешествия клиента: Ключевые шаги для создания Customer Journey Map

Карта путешествия клиента — это мощный инструмент, который помогает компаниям лучше понять своих клиентов и улучшить их опыт. Customer Journey Map требует сбора и анализа данных, определения этапов путешествия клиента, выделения проблемных зон и разработки конкретных решений

29 августа 2023

Статьи

Использование стриминга данных в маркетинговых и рекламных кампаниях

Использование стриминга данных в маркетинговых и рекламных кампаниях становится все более популярным и важным в современном цифровом мире. Этот подход позволяет компаниям получать актуальную информацию в режиме реального времени

29 августа 2023

Статьи

Интеграция данных и создание единой платформы: Ключевые шаги к успешной сквозной аналитике

Интеграция данных и создание единой платформы для сквозной аналитики является сложным и многоэтапным процессом. Однако, следуя вышеописанным ключевым шагам, вы сможете создать устойчивую и эффективную систему аналитики

28 августа 2023

Статьи

Использование машинного обучения для анализа потоков данных: Ключевой инструмент для эффективного принятия решений

Используемые алгоритмы машинного обучения позволяют обнаруживать скрытые паттерны и аномалии, что помогает компаниям и организациям получить ценную информацию и принимать обоснованные решения на основе данных.

28 августа 2023

Статьи

Защита данных и конфиденциальность в стриминговых приложениях: Гарантия безопасности вашей информации

Безопасность и конфиденциальность данных в стриминговых приложениях являются ключевыми аспектами, которые требуют особого внимания. Шифрование данных, многофакторная аутентификация, регулярные обновления и политика конфиденциальности — все это важные меры.

7 августа 2023

#RetailCRM
Статьи

От RetailCRM до Яндекс.Аудиторий: новый путь RFM-сегментации

Новый подход к работе с CRM данными — создание Яндекс.Аудиторий на основе RFM сегментов из RetailCRM.

26 мая 2023

#Атрибуция
Статьи

Открывая мир Цепей Маркова: понимание и применение в атрибуции

Покажем как математические модели могут быть применены в сфере маркетинга для атрибуции. Мы пройдем все этапы от понимания основных концепций и принципов работы Цепей Маркова до применения их на практике в реальных датасетах.

25 мая 2023

#SQL
Статьи

Проектирование системы сквозной аналитики благодаря StreamMyData

Построение системы сквозной аналитики и BI — это задача, успех которой зависит от вовлеченности как заказчика, так и исполнителя.

14 марта 2023

#Аналитика
Статьи

Зачем нужны Domain Rank, Trust Rank и Link Rank

14 марта 2023

#Google BigQuery
Инструкции

Как построить график BoxPlot в LookerStudio с использованием BigQuery

BoxPlot, позволяет создавать графики BoxPlot (ящик с усами) в инструменте LookerStudio с использованием BigQuery в качестве источника данных. Тем самым визуализирует статистическую информацию о распределении данных, которая помогает анализировать и сравнивать различные группы данных.

10 марта 2023

#Universal Analytics
Статьи

Модель атрибуции в маркетинге: что это и какую модель выбрать для бизнеса

Модели атрибуции в интернет-маркетинге — это методы определения того, какие каналы маркетинга и рекламы приводят к конверсиям и продажам. Они помогают определить, какой канал заслуживает большей части заслуг за конверсию, а также какие каналы могут быть улучшены для увеличения эффективности маркетинговых кампаний.

10 марта 2023

#Аналитика
Статьи

Что такое ML-атрибуция и как создать ML-атрибуцию для своего бизнеса

30 января 2023

#Google BigQuery
Статьи

Когортный анализ. Автоматизация и визуализация с помощью StreamMyData, BigQuery и Looker Studio

Узнайте, что такое когортный анализ. Как обработать данные и визуализировать их с помощью StreamMyData, BigQuery и Looker Studio

20 января 2023

#SQL
Статьи

Что такое MAU, WAU, DAU, Sticky Factor, PCCU, ACU, ARPU, ARPPU и LTV и зачем они нужны?

Это ключевые метрики, используемые в аналитике и маркетинге для измерения активности пользователей, доходности и стоимости клиентов.

17 января 2023

#Google BigQuery
Статьи

Объединение данных из рекламных кабинетов с данными аналитики с помощью SQL в BigQuery

21 декабря 2022

#SQL
Статьи

Использование регулярных выражений в SQL для получения более подробной сводной статистики рекламных данных

Регулярные выражения в SQL помогают выполнить сложные поисковые запросы, фильтрацию и преобразование данных, что позволяет получить более детальную статистику и понять эффективность рекламных усилий.

Автоматическая проверка аналитики

Введение

ETL потоки StreamMyData со встроенным мониторингом

1. Мониторинг потоков данных

Что мониторить в потоках ETL/DWH

StreamMyData мониторинг

2. Контроль качества данных с помощью SQL-чеков

2.1. Проверка наличия и полноты данных

2.2. Проверка свежести

2.3. Проверки корректности значений

2.4. Поиск аномалий

3. Хранение результатов проверок

3.1. Структура таблиц

3.2. Зачем хранить измеренные значения

4. Настройка алертов

4.1. Когда алертить

4.2. Что писать в алерте

4.3. Примеры отправки алертов из Airflow в Telegram

5. Архитектура автоматических проверок и настройка алертов

5.1. Компоненты системы

5.2. Последовательность проверок

Надежная аналитика со StreamMyData — это просто

Вывод