Русский

Трансформируем ваши данные в прибыль

Офис Москва

Пн — Пт: с 10:00 до 19:00

Русский

+7 (495) 215-10-97

Главная › Блог › Когортный анализ. Автоматизация и визуализация с помощью StreamMyData, BigQuery и Looker Studio

Когортный анализ. Автоматизация и визуализация с помощью StreamMyData, BigQuery и Looker Studio

1 753

6 минут(ы)

Дмитрий Сергеев

Образование: ННГУ им. Лобачевского механико-математический ф-т, ПМИ

Опыт работы: 4,5 года

Краткая биография: Занимался настройкой и ведением контекстной рекламы для клиентов с бюджетами до 15 млн. рублей в месяц. Имеет опыт в настройке веб-аналитики и сквозной аналитики, опыт в работе с базами данных Google BigQuery и Clickhouse.

Сертифицированный специалист Яндекс.Директ, Яндекс.Метрика, Google Ads, Google Analytics, К50: генератор, SQL

Публикаций: 14

Постановка задачи

Когортный анализ — один из самых важных типов анализа пользователей вашего сайта, который часто недооценивают или пропускают ввиду сложности построения или плохой читаемости.

С помощью него можно сравнивать разные группы (когорты) пользователей. Чаще всего группы формируются по дню, неделе или месяцу, в котором пользователь начал пользоваться вашим сайтом. Таким образом мы можем, например, посчитать сколько одних и тех же пользователей вернулось к вам на сайт или совершили на нем целевые действия спустя время после первого их взаимодействия с сайтом.

В этой статье мы покажем вам, как можно очень просто построить и визуализировать данные на примере расчета количества пользователей, совершающих повторные покупки после их первой покупки на сайте.

Отбор и настройка передачи данных

Для начала определимся, какие данные нам нужны:

Дата совершения покупки.
Дата первой покупки.
Уникальный номер или идентификатор пользователя.
Столбец с единицами — количеством покупок — или идентификатором транзакции.

В нашем случае мы будем использовать данные из Яндекс.Метрики, которые выгрузили в Google BigQuery с помощью коннектора StreamMyData.

Почему Метрика — в ней автоматически системой присваивается уникальный client_id для каждого посетителя на основе файлов cookie из его браузера. Тогда как в том же Google Analytics этот параметр нужно настраивать вручную, и если у вас этого не было сделано, вы не сможете получить исторические данные. Этот client_id мы и будем использовать.

Вы можете также использовать данные из вашей CRM-системы и разливать уникальных пользователей по их номерам телефона, email-адресам или User ID, но нужно чтобы процент пропущенных данных был минимальным для наиболее достоверной картины.

Итак, мы создали поток данных в StreamMyData, выбрав поля:

ym_s_visitID — идентификатор визита
ym_s_date — дата визита
ym_s_clientID — уникальный идентификатор пользователя
ym_s_goalsID — массив идентификаторов достигнутых целей
ym_s_purchaseID — идентификатор транзакции

давайте взглянем на полученные данные:

Отбор и настройка передачи данных

Список выгружаемых полей можно настроить по вашему желанию. Для нашей задачи нам отсюда потребуются дата, client_id и purchase_id

Написание SQL-запроса

Финальный код SQL-запроса выглядит следующим образом:

WITH


  prepared_data AS (
    SELECT * FROM (
        SELECT
          ym_s_date AS date,
          ym_s_clientID AS client_id,
          purchase_id
        FROM `dataupload-230410.smd_test_data.metrika_test_client_id`
        CROSS JOIN UNNEST (ym_s_purchaseID) AS purchase_id)
    WHERE purchase_id IS NOT NULL),


  first_transactions AS (
    SELECT 
      MIN(date) AS first_transaction_date,
      client_id
    FROM prepared_data
    GROUP BY
      client_id
  ),


  all_transactions AS (
    SELECT 
      date,
      client_id,
      COUNT(purchase_id) AS transactions
    FROM prepared_data
    GROUP BY
      date,
      client_id
  ),


  merged_table AS (
    SELECT 
      first_transaction_date,
      date AS dayly_transaction,
      client_id,
      SUM(transactions) AS transactions
    FROM first_transactions
    LEFT JOIN all_transactions
    USING (client_id)
    GROUP BY
      first_transaction_date,
      dayly_transaction,
      client_id
  )


SELECT * FROM merged_table

Разбор SQL-запроса

С помощью конструкции WITH … AS мы как-бы создаем временные переменные-таблицы с предобработанными данными

prepared_data AS (
    SELECT * FROM (
        SELECT
          ym_s_date AS date,
          ym_s_clientID AS client_id,
          purchase_id
        FROM `dataupload-230410.smd_test_data.metrika_test_client_id`
        CROSS JOIN UNNEST (ym_s_purchaseID) AS purchase_id)
    WHERE purchase_id IS NOT NULL)

В этом блоке мы “причесываем” данные нашей исходной выгрузки. Во внутреннем подзапросе SELECT … Выбираем столбцы, которые хотим отобрать — дата, client_id и purchase_id, а также назначаем им так называемые алиасы — псевдонимы, для более удобной читаемости.

Самый важный момент на данном этапе кроется в строке CROSS JOIN UNNEST (ym_s_purchaseID) AS purchase_id:

Если мы еще раз взглянем на данные из исходной выгрузке, то заметим, что идентификаторы транзакций на уровне даты и пользователя (пользователь может совершить несколько покупок за день или визит) находятся не в отдельных строках, а внутри массива. Для корректного подсчета общего количества покупок необходимо эти массивы раскрыть. Это и делает функция UNNEST — превращает массивы идентификаторов в отдельные строки, а с помощью CROSS JOIN получившиеся строки мы определяем к исходным датам и клиентам.

Таким образом получаем из этого:

Разбор SQL-запроса4

это:

Разбор SQL-запроса12

Далее, во внешнем SELECT с помощью условия WHERE purchase_id IS NOT NULL отфильтровываем получившуюся таблицу, забирая только те строки, в которых транзакция была совершена, то есть избавляемся от пустых значений.

Идем дальше:

first_transactions AS (
    SELECT 
      MIN(date) AS first_transaction_date,
      client_id
    FROM prepared_data
    GROUP BY
      client_id
  )

В этом блоке нам нужно найти дату самой первой зарегистрированной транзакции по каждому пользователю. В SELECT выводим столбцы с получившейся датой и идентификатор клиента.

Затем:

all_transactions AS (
    SELECT 
      date,
      client_id,
      COUNT(purchase_id) AS transactions
    FROM prepared_data
    GROUP BY
      date,
      client_id
  )

Еще один блок, в котором мы уже считаем количество покупок по каждому пользователю за каждый отдельный день и даты этих покупок. Так как в выгрузке нам доступно поле с идентификаторами транзакций, то мы просто применяем функцию COUNT(purchase_id) — количество, и в GROUP BY указываем поля, в рамках которых нужно его сосчитать.

Переходим к финальному блоку, который объединяет предыдущие:

merged_table AS (
    SELECT 
      first_transaction_date,
      date AS dayly_transaction,
      client_id,
      SUM(transactions) AS transactions
    FROM first_transactions
    LEFT JOIN all_transactions
    USING (client_id)
    GROUP BY
      first_transaction_date,
      dayly_transaction,
      client_id
  )

Здесь мы соединяем данные по первым датам покупок с данными об их количестве. В SELECT указываем, что в итоге нам нужно вывести из обеих таблиц и назначаем для удобства алиасы.

С помощью оператора LEFT JOIN указываем вторую таблицу, с которой выполнится объединение, а в операторе USING — общий ключ объединения, который присутствует в обеих таблицах — client_id.

Всё, теперь остается только вывести на печать всё содержимое получившейся объединенной финальной таблица merged_table:

SELECT * FROM merged_table
И давайте взглянем на получившиеся данные:

Разбор SQL-запроса13

Первый столбец — дата первой транзакции в рамках пользователя
Второй столбец — дата каждой транзакции пользователя
Третий столбец — ID пользователя
Четвертый столбец — количество транзакций

Для того, чтобы по этим данным можно было что-то понять, нужно их правильно визуализировать.

Визуализация полученных данных

Перед тем, как перейти к визуализации, нам необходимо сохранить наш SQL-запрос. Нажимаем на save и выбираем тип view:

Визуализация полученных данных14

Теперь переходим в Google Looker Studio, выбираем “Пустой отчет”

Визуализация полученных данных11

Нам сразу же предлагают выбрать источник данных. Выбираем BigQuery, затем нашу сохраненную view, жмем “Добавить”

Визуализация полученных данных3

Визуализация полученных данных7

Далее, строим нашу визуализацию. Выбираем тип диаграммы “Сводная таблица”. Добавляем параметры:

Диапазон дат — дата каждой транзакции
Параметр строки — дата первой транзакции
Параметр столбца — дата каждой транзакции
Показатель — сумма транзакций

Визуализация полученных данных10

Ставим галочки на “Показывать итоговую сумму”, выбираем сортировку по возрастанию, как по строкам, так и по столбцам, а также указываем максимальное количество отображаемых столбцов и строк. Так как у нас данные разбиты по дням, то я указываю 15.:

Визуализация полученных данных15

Визуализация полученных данных6

Почти всё готово. Для лучшего визуального восприятия добавляем тепловую карту — переходим на вкладку “Стиль” и выбираем в выпадающем списке Показателя:

Визуализация полученных данных1

И последнее, чтобы можно было выбирать диапазон дат, нужно настроить соответствующий селектор. Для этого просто открываем вкладку “Вставка” в основном меню страницы и выбираем “Диапазон дат”, размещаем его в удобном месте листа:

Визуализация полученных данных8

Итог

И вот, что у нас получилось.

Итог5

На этом графике видим, что, например, 2 января было совершено 560 покупок, из которых 40 покупок — пользователями, совершавшими их 1 января, или, иными словами, что 40 из 350 пользователей, совершивших покупку 1 января, повторили ее 2 января.. Или то, что retention rate за представленный период довольно высокий и стабильный, нету явной тенденции оттока покупателей.

Конечно, это лишь пример. Подобный анализ можно строить в рамках недель или месяцев. Можно выявить отток пользователей просто по посещению сайта, или по достижениям определенных целевых действий, а не по покупкам, как мы показали. Можно узнать как часто пользователи возвращаются на сайт после регистрации и так далее, вариантов очень много.

11 июля 2024

Статьи

Усиление бренда с помощью музыкальных рекламных игр

Узнайте, как музыка в рекламных играх усиливает вовлеченность, улучшает впечатление и узнаваемость бренда, делая маркетинг более эффективным….

10 июля 2024

Статьи

Больше продаж с CausalMMM: Улучшите стратегию онлайн-рекламы

Увеличьте выручку и оптимизируйте рекламный бюджет с CausalMMM: точное прогнозирование и эффективное управление рекламными расходами….

8 июля 2024

Статьи

Автоматизация выгрузки данных из CRM в базу данных

В данной статье вы узнаете, какие данные возможно получить из вашей CRM системы благодаря StreamMyData и как с ними можно работать….

2 июля 2024

#RFM
Статьи

Как настроить таргетинг на «горячих» клиентов?

Узнайте, как настроить точный таргетинг на «горячих» клиентов с помощью предиктивной аналитики и RFM сегментации…

1 июля 2024

#RFM
Статьи

Использование RFM сегментов в Яндекс.Директ

Как сегментировать покупателей с помощью RFM анализа. Как использовать полученные сегменты в Яндекс.Директ….

22 июня 2024

Статьи

Советы и рекомендации для работы с Postgres

…

18 июня 2024

Статьи

Моделирование атрибуции, основанной на доходах, для онлайн рекламы

…

17 июня 2024

Статьи

Как преобразовать дату в формате NUMERIC в привычный вид в Superset

…

17 июня 2024

Статьи

Методы значений Шепли для моделирования атрибуции в интернет-рекламе

…

17 июня 2024

Статьи

Как Prophet обеспечивает прогнозирование временных рядов в Apache Superset

…

12 июня 2024

#AirFlow
Статьи

Как ускорить процесс принятия решений и сделать его более обоснованным?

Автоматизация и использование дашбордов позволит вам значительно ускорить процесс принятия решений и сделать его более обоснованным…

4 июня 2024

Статьи

Как обеспечить единство и надежность хранения данных?

%%title%% Узнайте о DWH и ETL, которые помогают повысить эффективность анализа и принятия решений….

3 июня 2024

#StreamMyData
Инструкции

Автоматизация выгрузки из Яндекс.Метрики в базу данных

В данной статье вы узнаете как автоматизировать процесс выгрузки данных из Яндекс.Метрики в СУБД с помощью StreamMyData…

30 мая 2024

Статьи

ROPO эффект и ROPO аналитика: что это такое и как помогает бизнесу

Узнайте, как ROPO влияет на офлайн-продажи, и настройте веб-аналитику и CRM для оптимизации маркетинга и увеличения продаж….

22 мая 2024

#Apache Superset
Инструкции

Определяем эффективность рекламы

Узнайте как с помощью сервиса StreamMyData провести эффективный анализ ваших рекламных каналов и определить их результативность…

21 мая 2024

Статьи

Передача данных из Logs API в Yandex ClickHouse

Эффективная передача данных из LogsAPI в Yandex ClickHouse для точного анализа трафика и улучшения бизнес-процессов….

28 февраля 2024

#Apache Superset
Статьи

Почему нельзя так просто создать дашборд

Узнайте почему нельзя так просто создать дашборд. Какие процессы входят в создание BI-аналитики, и почему это не легкий процесс…

21 февраля 2024

#StreamMyData
Инструкции

Интеграция Яндекс.Метрики и Яндекс.Директа с Apache Superset

Узнайте как с помощью сервиса StreamMyData интегрировать данные Яндекс.Метрики и Яндекс.Директа с Apache Superset….

20 февраля 2024

#ClickHouse
Инструкции

Как начать использовать StreamMyData

…

4 февраля 2024

#GBQ
Статьи

Превосходство предиктивного анализа: как мы с командой создаем системы предиктивной аналитики

Узнайте, как предиктивный анализ меняет игру в маркетинге. От обработки данных до инновационных моделей прогнозирования/…

18 января 2024

#amoCRM
Без категории

Интеграция CRM-системы с Яндекс Метрикой

Интеграция CRM-системы с Яндекс Метрикой на примере amoCRM. Узнайте, как передавать в Метрику данные о клиентах, сделках и реальном доходе…

11 января 2024

#NumPy
Инструкции

Введение в NumPy: Простые примеры для аналитиков

Введение в библиотеку NumPy для аналитиков данных, а также её применение в маркетинге и поведенческой аналитике….

30 декабря 2023

#Автоматизация бизнеса
Статьи

Сквозная аналитика: панацея или головная боль?

Узнайте, является ли сквозная аналитика ключом к успеху вашего бизнеса или просто добавляет сложностей. От авторов сквозной для Литреса….

29 декабря 2023

#Pandas
Статьи

Pandas: Революционный Инструмент для Анализа Данных

Pandas – это ключевая библиотека языка программирования Python, специализирующаяся на обработке и анализе данных….

27 декабря 2023

#Python
Инструкции

Автоматизация выгрузки с StreamMyData

В данной статье мы разберем, как при помощи StreamMyData, Python и SQL можно автоматизировать выгрузку целей, достигаемых пользователем во время взаимодействия с сайтом….

25 декабря 2023

#GTM
Инструкции

Передача скопированного текста в Яндекс.Метрику с помощью Google Tag Manager

…

4 октября 2023

#RFM
Статьи

Как повысить эффективность рекламных кампаний Яндекс.Директ и продавать дорогие украшения за 1 800 руб. с помощью RFM-сегментации

Сегментация клиентов — это важный инструмент, который может помочь компаниям повысить эффективность своих маркетинговых кампаний и улучшить взаимодействие с клиентами….

29 августа 2023

Статьи

Как использовать Big Data для оптимизации бизнес-процессов

Использование Big Data для оптимизации бизнес-процессов является мощным инструментом, который позволяет компаниям принимать информированные решения, предсказывать будущие тенденции и улучшать эффективность….

29 августа 2023

Статьи

Роль и преимущества облачных хранилищ данных

Облачные хранилища данных играют важную роль и имеют большие преимущества в современном мире, предоставляя пользователем и организациям гибкое, надежное и удобное решение для хранения и управления данными….

29 августа 2023

Статьи

Исследование путешествия клиента: Ключевые шаги для создания Customer Journey Map

Карта путешествия клиента — это мощный инструмент, который помогает компаниям лучше понять своих клиентов и улучшить их опыт. Customer Journey Map требует сбора и анализа данных, определения этапов путешествия клиента, выделения проблемных зон и разработки конкретных решений…

29 августа 2023

Статьи

Использование стриминга данных в маркетинговых и рекламных кампаниях

Использование стриминга данных в маркетинговых и рекламных кампаниях становится все более популярным и важным в современном цифровом мире. Этот подход позволяет компаниям получать актуальную информацию в режиме реального времени…

29 августа 2023

Статьи

Интеграция данных и создание единой платформы: Ключевые шаги к успешной сквозной аналитике

Интеграция данных и создание единой платформы для сквозной аналитики является сложным и многоэтапным процессом. Однако, следуя вышеописанным ключевым шагам, вы сможете создать устойчивую и эффективную систему аналитики…

28 августа 2023

Статьи

Использование машинного обучения для анализа потоков данных: Ключевой инструмент для эффективного принятия решений

Используемые алгоритмы машинного обучения позволяют обнаруживать скрытые паттерны и аномалии, что помогает компаниям и организациям получить ценную информацию и принимать обоснованные решения на основе данных….

28 августа 2023

Статьи

Защита данных и конфиденциальность в стриминговых приложениях: Гарантия безопасности вашей информации

Безопасность и конфиденциальность данных в стриминговых приложениях являются ключевыми аспектами, которые требуют особого внимания. Шифрование данных, многофакторная аутентификация, регулярные обновления и политика конфиденциальности — все это важные меры….

7 августа 2023

#RetailCRM
Статьи

От RetailCRM до Яндекс.Аудиторий: новый путь RFM-сегментации

Новый подход к работе с CRM данными — создание Яндекс.Аудиторий на основе RFM сегментов из RetailCRM….

26 мая 2023

#Атрибуция
Статьи

Открывая мир Цепей Маркова: понимание и применение в атрибуции

Покажем как математические модели могут быть применены в сфере маркетинга для атрибуции. Мы пройдем все этапы от понимания основных концепций и принципов работы Цепей Маркова до применения их на практике в реальных датасетах….

25 мая 2023

#SQL
Статьи

Проектирование системы сквозной аналитики благодаря StreamMyData

Построение системы сквозной аналитики и BI — это задача, успех которой зависит от вовлеченности как заказчика, так и исполнителя….

14 марта 2023

#Аналитика
Статьи

Зачем нужны Domain Rank, Trust Rank и Link Rank

…

14 марта 2023

#Google BigQuery
Инструкции

Как построить график BoxPlot в LookerStudio с использованием BigQuery

BoxPlot, позволяет создавать графики BoxPlot (ящик с усами) в инструменте LookerStudio с использованием BigQuery в качестве источника данных. Тем самым визуализирует статистическую информацию о распределении данных, которая помогает анализировать и сравнивать различные группы данных….

10 марта 2023

#Universal Analytics
Статьи

Модель атрибуции в маркетинге: что это и какую модель выбрать для бизнеса

Модели атрибуции в интернет-маркетинге — это методы определения того, какие каналы маркетинга и рекламы приводят к конверсиям и продажам. Они помогают определить, какой канал заслуживает большей части заслуг за конверсию, а также какие каналы могут быть улучшены для увеличения эффективности маркетинговых кампаний….

10 марта 2023

#Аналитика
Статьи

Что такое ML-атрибуция и как создать ML-атрибуцию для своего бизнеса

…

30 января 2023

#Google BigQuery
Статьи

Когортный анализ. Автоматизация и визуализация с помощью StreamMyData, BigQuery и Looker Studio

Узнайте, что такое когортный анализ. Как обработать данные и визуализировать их с помощью StreamMyData, BigQuery и Looker Studio…

20 января 2023

#SQL
Статьи

Что такое MAU, WAU, DAU, Sticky Factor, PCCU, ACU, ARPU, ARPPU и LTV и зачем они нужны?

Это ключевые метрики, используемые в аналитике и маркетинге для измерения активности пользователей, доходности и стоимости клиентов….

17 января 2023

#Google BigQuery
Статьи

Объединение данных из рекламных кабинетов с данными аналитики с помощью SQL в BigQuery

…

21 декабря 2022

#SQL
Статьи

Использование регулярных выражений в SQL для получения более подробной сводной статистики рекламных данных

Регулярные выражения в SQL помогают выполнить сложные поисковые запросы, фильтрацию и преобразование данных, что позволяет получить более детальную статистику и понять эффективность рекламных усилий….

Когортный анализ. Автоматизация и визуализация с помощью StreamMyData, BigQuery и Looker Studio

Постановка задачи

Отбор и настройка передачи данных

Улучшите свой анализ данных уже сегодня

Написание SQL-запроса

Разбор SQL-запроса

Визуализация полученных данных

Итог

Когортный анализ с нашими экспертами