Русский

Трансформируем ваши данные в прибыль

Офис Москва

Пн — Пт: с 10:00 до 19:00

Русский

+7 (495) 215-10-97

Главная › Блог › Как построить график BoxPlot в LookerStudio с использованием BigQuery

Как построить график BoxPlot в LookerStudio с использованием BigQuery

1 305

5 минут(ы)

Дмитрий Сергеев

Образование: ННГУ им. Лобачевского механико-математический ф-т, ПМИ

Опыт работы: 4,5 года

Краткая биография: Занимался настройкой и ведением контекстной рекламы для клиентов с бюджетами до 15 млн. рублей в месяц. Имеет опыт в настройке веб-аналитики и сквозной аналитики, опыт в работе с базами данных Google BigQuery и Clickhouse.

Сертифицированный специалист Яндекс.Директ, Яндекс.Метрика, Google Ads, Google Analytics, К50: генератор, SQL

Публикаций: 17

Вступление

BoxPlot, диаграмма размаха, ящик с усами, усиковая диаграмма и многие другие вариации названия — это удобный и наглядный способ визуализации размаха ваших данных через так называемые квантили.

Чем он может помочь при анализе данных? На основе такой диаграммы можно сделать такие наблюдения, как:

каковы ключевые значения, например: средний показатель, медиана, процентили и так далее;
существуют ли выбросы (аномальные значения) и каковы они;
симметричны ли данные;
насколько плотно сгруппированы данные;
смещены ли данные и, если да, то в каком направлении;

На рисунке ниже пример наиболее привычного внешнего вида такой диаграммы.

общий вид графика BoxPlot

Каждый “ящик” представляет собой распределение какой-либо числовой величины.

Горизонтальная линия внутри прямоугольника — медиана — это значение, находящееся строго посередине всех наблюдений вашего распределения, если бы эти наблюдения были отсортированы по-возрастанию.
Например, если мы возьмем данные по среднему чеку какого-либо интернет магазина, отсортируем их по-возрастанию, то медианой будет являться такое значение чека, ровно половина которых из выборки меньше его, а другая половина больше.

Вы возможно спросите, чем медиана отличается от среднего? Среднее арифметическое больше подвергнуто влиянию аномальных значений в вашей выборке. Например у вас средний чек составляет примерно от 3 до 5 тысяч рублей. Если в вашу систему аналитики или CRM каким-то образом, возможно из-за ошибки или из-за тестовой заявки, попадет покупка намного превышающая эти значения, скажем, 500 тысяч, то среднее арифметическое значительно сдвинется в бОльшую сторону. Медиана же практически не изменится, а может и вовсе остаться прежней.

Визуальный пример выглядел бы как-то так. Допустим мы имеем простейшую выборку данных о среднем чеке:

150, 150, 153, 160, 200, 202, 223, 240, 252, 7000

Среднее значение по этой выборке составит 873, а медиана — 201.

Только из-за одного аномального значения. Поэтому многие придерживаются мнения, что этот показатель намного надежнее среднего и используют в анализе данных его.

Возвращаемся к рисунку. Сами прямоугольники представляют собой межквартильный размах — значения, находящиеся между нижним и верхним квартилями. Квартили — это значения, делящие ряд данных на 4 четверти. Соответственно нижний квартиль расположен на позиции 25%, а верхний квартиль на позиции 75%.

Начало работы

Итак, мы кратко разобрались с понятиями и признали полезность такой диаграммы, но есть плохая новость — в BigQuery отсутствует нативная возможность её построения.
В этой статье мы покажем, как все-таки можно построить график, очень похожий на boxplot.

Для начала нам нужны данные. В нашем примере они искусственные и представляют собой таблицу с полями:

Дата визита
Client ID
Пол пользователя
Возраст пользователя
ID транзакции
Доход с транзакции

Рис.2. Пример данных

Давайте построим графики распределения размера среднего чека в разрезе пола клиентов.

Импортируем нашу таблицу в BigQuery или создаем поток данных через StreamMyData.

Написание SQL-запроса

С помощью следующего SQL-запроса предобрабатываем данные:

SELECT * FROM (


  SELECT
    'female_revenue' AS parameter,
    PERCENTILE_CONT(revenue, 0) OVER() AS minimum,
    PERCENTILE_CONT(revenue, 0.25) OVER() AS lower_quartille,
    PERCENTILE_CONT(revenue, 0.5) OVER() AS median,
    PERCENTILE_CONT(revenue, 0.75) OVER() AS upper_quartille,
    PERCENTILE_CONT(revenue, 1) OVER() AS maximum,
  FROM
  (SELECT revenue FROM `dataupload-230410.dima_tasks_sql.boxplot_test_data_2`
    WHERE revenue > 0 AND sex = 'female')
  LIMIT 1)


UNION ALL


SELECT * FROM (


  SELECT
    'male_revenue' AS parameter,
    PERCENTILE_CONT(revenue, 0) OVER() AS minimum,
    PERCENTILE_CONT(revenue, 0.25) OVER() AS lower_quartille,
    PERCENTILE_CONT(revenue, 0.5) OVER() AS median,
    PERCENTILE_CONT(revenue, 0.75) OVER() AS upper_quartille,
    PERCENTILE_CONT(revenue, 1) OVER() AS maximum,
  FROM
  (SELECT revenue FROM `dataupload-230410.dima_tasks_sql.boxplot_test_data_2`
    WHERE revenue > 1208 AND sex = 'male')
  LIMIT 1)

Данный запрос в нашем случае состоит из 2 блоков, вычисляющих Медиану, Квартили, а также максимальное и минимальное значения по стоимости транзакции сначала для женщин, затем для мужчин. Эти 2 блока “складываются” по-вертикали в одну табличку с помощью оператора UNION ALL.

Внутри каждого из блоков происходит отбор необходимых столбцов по заданному фильтру из исходной выгрузки данных:

(SELECT revenue FROM `dataupload-230410.dima_tasks_sql.boxplot_test_data_2`
    WHERE revenue > 0 AND sex = 'female')

Здесь мы говорим, “дай нам все значения из столбца доход, у которых пол пользователя женский”.

Затем из получившихся данных вычисляем минимальное значение, квартили, медиану и максимальное значение, а также даем название ‘female_revenue’ отобранным строкам.

Проставляем LIMIT 1 для того, чтобы по каждому полу вывелась только одна строчка

Результат всего SQL-запроса выглядит так:

Результат всего SQL-запроса

Построение графика в Looker

Сохраняем наш SQL-запрос в качестве “представления” (view) в BigQuery и импортируем это представление в Looker Studio:

Рис.3. Данные в Looker Studio

Затем выбираем тип диаграммы “Столбчатая комбинированная диаграмма”:

Рис.4. Типы графиков

И располагаем показатели из таблицы следующим образом. Параметр — “parameter”, Показатель — показатели по-возрастанию от минимального значения до максимального:

Рис.5. Параметры и показатели

Затем нужно проставить некоторые настройки во вкладке “Стиль”:

Ряд данных 1 — тип “Гистограмма”, заливка цвета фона листа. В нашем случае белый:

Рис.6. Ряд данных 1
Ряд данных 2 — тип “Гистограмма”, заливка светло-зеленая. Это наш верхний “ус”:

Рис.7. Ряд данных 2
Ряд данных 3 — тип “Линейная диаграмма”, цвет контрастирующий с цветом графика, отмечаем галочки “Показывать точки” и “Метки данных”, толщину линии ставим “Не выбрано”. Это наша медиана:

Рис.8. Ряд данных 3
Ряд данных 4 — тип “Гистограмма”, заливка темно-зеленая. Это наш межквартильный размах:

Рис.9. Ряд данных 4
Ряд данных 5 — тип “Гистограмма”, заливка светло-зеленая. Это наш верхний “ус”:

Рис.10. Ряд данных 5
В блоке “Общие” обязательно отмечаем галочкой “Многоуровневые столбцы”:

Рис.11. Общие настройки стиля
В блоке “обозначения” убираем легенду:

Рис.12. Легенда

Результат

Посмотрим, что у нас получилось:

Рис.13. Результат.

Темно-зеленый — межквартильный размах, нижняя и верхняя границы которого соответственно — 25% квартиль и 75% квартиль. Белые точки — медиана. Светло-зеленая заливка — “усы”.

Выводы

Какие выводы мы можем составить по этой диаграмме:

медианный чек у у мужчин примерно на 10-15% выше, чем у женщин;
распределение чеков у женщин более плотное и с меньшим количеством выбросов;
мужчины совершают больше дорогих покупок, чем женщины;
минимальный чек у мужчин выше, чем у женщин;

Подобные графики можно построить на совершенно любых значимых для вас данных. Например посмотреть такое же распределение чеков в разрезе возраста, пола + возраста, регионов, рекламных кампаний, рекламных систем и так далее.

Главное, чтобы были данные, удобно собранные в одном месте, а с этим, как всегда, вам поможет StreamMyData.

26 сентября 2024

#accuracy
Статьи

Метрики классификации в машинном обучении

Для оценки моделей классификации используют разные метрики от accuracy до ROC-AUC. Узнайте о преимуществах и недостатках каждой из них.

17 сентября 2024

#Поиск
Аналитика

Метрики поиска на сайте: как их отслеживать и интерпретировать

Рассказываем о том, почему важно оценивать эффективность внутреннего поиска на вашем сайте, какие метрики и способы для этого существуют

11 сентября 2024

Статьи

Как когортный анализ помогает бизнесу расти быстрее

В этой статье мы разберемся, что такое когортный анализ, почему он важен, и как он может способствовать росту вашего бизнеса.

10 сентября 2024

#StreamMyData
Статьи

Один счетчик Яндекс Метрики для нескольких сайтов: зачем и как настроить

В данной статье мы обсудим, почему иногда удобно использовать один счетчик Яндекс Метрики для нескольких сайтов.

2 сентября 2024

Статьи

Объем данных в базе данных: как его измерить и почему это критично?

В данной статье мы рассмотрим методы вычисления объема данных на примере различных БД, а также вы узнаете для чего это нужно.

30 августа 2024

Статьи

Улучшение монотонного моделирования с учетом пространственно-временной адаптивной осведомленности в различных маркетинговых стратегиях

28 августа 2024

#Python
Статьи

Retentioneering: Анализ данных для удержания клиентов

Подробная инструкция по Retentioneering — библиотеки Python для анализа поведения пользователей и повышения эффективности бизнеса.

18 августа 2024

#Callibri
Аналитика

Коробочное решение vs. Ручная настройка: Что лучше для сквозной аналитики?

10 августа 2024

#Cookie
Аналитика

Закат cookies в 2024: что это значит для аналитики и маркетинга?

Отказ от сторонних cookies в 2024 году: как адаптировать аналитику и маркетинг с помощью новых технологий и решений StreamMyData

9 августа 2024

Статьи

Что такое SaaS: Понимание через примеры популярных веб-инструментов

В данной статье вы ознакомитесь с понятием SaaS-системы, узнаете их основные характеристики и с чем придется столкнуться при подключении.

11 июля 2024

Статьи

Усиление бренда с помощью музыкальных рекламных игр

Узнайте, как музыка в рекламных играх усиливает вовлеченность, улучшает впечатление и узнаваемость бренда, делая маркетинг более эффективным.

10 июля 2024

Статьи

Больше продаж с CausalMMM: Улучшите стратегию онлайн-рекламы

Увеличьте выручку и оптимизируйте рекламный бюджет с CausalMMM: точное прогнозирование и эффективное управление рекламными расходами.

10 июля 2024

Инструкции

Автоматизация выгрузки из Яндекс.Вебмастер в базу данных

В данной статье вы найдете пошаговую инструкцию для автоматизации выгрузки ваших данных из Яндекс.Вебмастер в вашу БД на примере BigQuery

8 июля 2024

Статьи

Автоматизация выгрузки данных из CRM в базу данных

В данной статье вы узнаете, какие данные возможно получить из вашей CRM системы благодаря StreamMyData и как с ними можно работать.

4 июля 2024

#Я.Метрика
Аналитика

Пользовательские параметры Яндекс Метрики — что это и зачем они нужны

В этой статье вы узнаете, что такое пользовательские параметры Яндекс Метрики и увидите некоторые кейсы их использования

4 июля 2024

#GA4
Аналитика

Работа с сырыми данными Google Analytics 4 в BigQuery

Как настроить интеграцию Google Analytics 4 с Google Bigquery и работать с сырыми данными с помощью языка SQL

3 июля 2024

Инструкции

Как в Яндекс.Директ запустить динамический ремаркетинг по брошенной корзине?

В данной статье вы сможете узнать, как в Яндекс.Директ настроить динамический ремаркетинг по брошенной корзине.

2 июля 2024

#RFM
Статьи

Как настроить таргетинг на «горячих» клиентов?

Узнайте, как настроить точный таргетинг на «горячих» клиентов с помощью предиктивной аналитики и RFM сегментации

1 июля 2024

#RFM
Статьи

Использование RFM сегментов в Яндекс.Директ

Как сегментировать покупателей с помощью RFM анализа. Как использовать полученные сегменты в Яндекс.Директ.

28 июня 2024

Инструкции

Автоматизация выгрузки из Google Analytics 4 в базу данных

В данной статье вы узнаете, как с помощью StreamMyData автоматизировать выгрузку необходимых вам данных из Google Analytics 4

22 июня 2024

Статьи

18 июня 2024

Статьи

Моделирование атрибуции, основанной на доходах, для онлайн рекламы

18 июня 2024

Инструкции

Автоматизация выгрузки из Google Search Console в базу данных

В данной статье вы сможете узнать, как, благодаря сервису Stream My Data автоматизировать выгрузку данных из Google Search Console в BigQuery

17 июня 2024

Статьи

Как преобразовать дату в формате NUMERIC в привычный вид в Superset

17 июня 2024

Статьи

Методы значений Шепли для моделирования атрибуции в интернет-рекламе

17 июня 2024

Статьи

Как Prophet обеспечивает прогнозирование временных рядов в Apache Superset

12 июня 2024

#AirFlow
Статьи

Как ускорить процесс принятия решений и сделать его более обоснованным?

Автоматизация и использование дашбордов позволит вам значительно ускорить процесс принятия решений и сделать его более обоснованным

4 июня 2024

Статьи

Как обеспечить единство и надежность хранения данных?

%%title%% Узнайте о DWH и ETL, которые помогают повысить эффективность анализа и принятия решений.

3 июня 2024

#StreamMyData
Инструкции

Автоматизация выгрузки из Яндекс.Метрики в базу данных

В данной статье вы узнаете как автоматизировать процесс выгрузки данных из Яндекс.Метрики в СУБД с помощью StreamMyData

30 мая 2024

Статьи

ROPO эффект и ROPO аналитика: что это такое и как помогает бизнесу

Узнайте, как ROPO влияет на офлайн-продажи, и настройте веб-аналитику и CRM для оптимизации маркетинга и увеличения продаж.

22 мая 2024

#Apache Superset
Инструкции

Определяем эффективность рекламы

Узнайте как с помощью сервиса StreamMyData провести эффективный анализ ваших рекламных каналов и определить их результативность

21 мая 2024

Статьи

Передача данных из Logs API в Yandex ClickHouse

Эффективная передача данных из LogsAPI в Yandex ClickHouse для точного анализа трафика и улучшения бизнес-процессов.

13 мая 2024

#CRM
Инструкции

Синхронизация онлайн и оффлайн данных в маркетинге

Офлайн-конверсии. Что это такое и почему нужно их использовать. Узнайте, как вы можете начать их использовать уже сейчас

28 февраля 2024

#Apache Superset
Статьи

Почему нельзя так просто создать дашборд

Узнайте почему нельзя так просто создать дашборд. Какие процессы входят в создание BI-аналитики, и почему это не легкий процесс

21 февраля 2024

#StreamMyData
Инструкции

Интеграция Яндекс.Метрики и Яндекс.Директа с Apache Superset

Узнайте как с помощью сервиса StreamMyData интегрировать данные Яндекс.Метрики и Яндекс.Директа с Apache Superset.

20 февраля 2024

#ClickHouse
Инструкции

Как начать использовать StreamMyData

20 февраля 2024

#MRQZ
Инструкции

Как выгрузить ответы из Marquiz в базы данных Clickhouse и BigQuery

Узнайте как автоматизировать сбор и хранение статистики о результатах квизов Marquiz в вашей базе данных с помощью StreamMyData

4 февраля 2024

#GBQ
Статьи

Превосходство предиктивного анализа: как мы с командой создаем системы предиктивной аналитики

Узнайте, как предиктивный анализ меняет игру в маркетинге. От обработки данных до инновационных моделей прогнозирования/

18 января 2024

#amoCRM
Без категории

Интеграция CRM-системы с Яндекс Метрикой

Интеграция CRM-системы с Яндекс Метрикой на примере amoCRM. Узнайте, как передавать в Метрику данные о клиентах, сделках и реальном доходе

11 января 2024

#NumPy
Инструкции

Введение в NumPy: Простые примеры для аналитиков

Введение в библиотеку NumPy для аналитиков данных, а также её применение в маркетинге и поведенческой аналитике.

30 декабря 2023

#Автоматизация бизнеса
Статьи

Сквозная аналитика: панацея или головная боль?

Узнайте, является ли сквозная аналитика ключом к успеху вашего бизнеса или просто добавляет сложностей. От авторов сквозной для Литреса.

29 декабря 2023

#Pandas
Статьи

Pandas: Революционный Инструмент для Анализа Данных

Pandas – это ключевая библиотека языка программирования Python, специализирующаяся на обработке и анализе данных.

27 декабря 2023

#Python
Инструкции

Автоматизация выгрузки с StreamMyData

В данной статье мы разберем, как при помощи StreamMyData, Python и SQL можно автоматизировать выгрузку целей, достигаемых пользователем во время взаимодействия с сайтом.

25 декабря 2023

#GTM
Инструкции

Передача скопированного текста в Яндекс.Метрику с помощью Google Tag Manager

4 октября 2023

#RFM
Статьи

Как повысить эффективность рекламных кампаний Яндекс.Директ и продавать дорогие украшения за 1 800 руб. с помощью RFM-сегментации

Сегментация клиентов — это важный инструмент, который может помочь компаниям повысить эффективность своих маркетинговых кампаний и улучшить взаимодействие с клиентами.

29 августа 2023

Статьи

Как использовать Big Data для оптимизации бизнес-процессов

Использование Big Data для оптимизации бизнес-процессов является мощным инструментом, который позволяет компаниям принимать информированные решения, предсказывать будущие тенденции и улучшать эффективность.

29 августа 2023

Статьи

Роль и преимущества облачных хранилищ данных

Облачные хранилища данных играют важную роль и имеют большие преимущества в современном мире, предоставляя пользователем и организациям гибкое, надежное и удобное решение для хранения и управления данными.

29 августа 2023

Статьи

Исследование путешествия клиента: Ключевые шаги для создания Customer Journey Map

Карта путешествия клиента — это мощный инструмент, который помогает компаниям лучше понять своих клиентов и улучшить их опыт. Customer Journey Map требует сбора и анализа данных, определения этапов путешествия клиента, выделения проблемных зон и разработки конкретных решений

29 августа 2023

Статьи

Использование стриминга данных в маркетинговых и рекламных кампаниях

Использование стриминга данных в маркетинговых и рекламных кампаниях становится все более популярным и важным в современном цифровом мире. Этот подход позволяет компаниям получать актуальную информацию в режиме реального времени

29 августа 2023

Статьи

Интеграция данных и создание единой платформы: Ключевые шаги к успешной сквозной аналитике

Интеграция данных и создание единой платформы для сквозной аналитики является сложным и многоэтапным процессом. Однако, следуя вышеописанным ключевым шагам, вы сможете создать устойчивую и эффективную систему аналитики

28 августа 2023

Статьи

Использование машинного обучения для анализа потоков данных: Ключевой инструмент для эффективного принятия решений

Используемые алгоритмы машинного обучения позволяют обнаруживать скрытые паттерны и аномалии, что помогает компаниям и организациям получить ценную информацию и принимать обоснованные решения на основе данных.

28 августа 2023

Статьи

Защита данных и конфиденциальность в стриминговых приложениях: Гарантия безопасности вашей информации

Безопасность и конфиденциальность данных в стриминговых приложениях являются ключевыми аспектами, которые требуют особого внимания. Шифрование данных, многофакторная аутентификация, регулярные обновления и политика конфиденциальности — все это важные меры.

28 августа 2023

Инструкции

Введение в сквозную аналитику: Как объединить данные для полного понимания клиентского пути

Сквозная аналитика играет важную роль в понимании клиентского пути и оптимизации маркетинговых усилий. Объединение данных из различных источников помогает компаниям получить полную картину взаимодействий клиентов и принять информированные решения.

7 августа 2023

#RetailCRM
Статьи

От RetailCRM до Яндекс.Аудиторий: новый путь RFM-сегментации

Новый подход к работе с CRM данными — создание Яндекс.Аудиторий на основе RFM сегментов из RetailCRM.

26 мая 2023

#Атрибуция
Статьи

Открывая мир Цепей Маркова: понимание и применение в атрибуции

Покажем как математические модели могут быть применены в сфере маркетинга для атрибуции. Мы пройдем все этапы от понимания основных концепций и принципов работы Цепей Маркова до применения их на практике в реальных датасетах.

26 мая 2023

#Python
Инструкции

Загрузка файлов в группу Вконтакте при помощи Python

26 мая 2023

#Python
Инструкции

Загрузка видео в группу в Вконтакте при помощи Python

25 мая 2023

#SQL
Статьи

Проектирование системы сквозной аналитики благодаря StreamMyData

Построение системы сквозной аналитики и BI — это задача, успех которой зависит от вовлеченности как заказчика, так и исполнителя.

28 апреля 2023

#Python
Инструкции

Выгрузка видео из YouTube при помощи Python

14 марта 2023

#Аналитика
Статьи

Зачем нужны Domain Rank, Trust Rank и Link Rank

10 марта 2023

#Universal Analytics
Статьи

Модель атрибуции в маркетинге: что это и какую модель выбрать для бизнеса

Модели атрибуции в интернет-маркетинге — это методы определения того, какие каналы маркетинга и рекламы приводят к конверсиям и продажам. Они помогают определить, какой канал заслуживает большей части заслуг за конверсию, а также какие каналы могут быть улучшены для увеличения эффективности маркетинговых кампаний.

10 марта 2023

#Аналитика
Статьи

Что такое ML-атрибуция и как создать ML-атрибуцию для своего бизнеса

30 января 2023

#Google BigQuery
Статьи

Когортный анализ. Автоматизация и визуализация с помощью StreamMyData, BigQuery и Looker Studio

Узнайте, что такое когортный анализ. Как обработать данные и визуализировать их с помощью StreamMyData, BigQuery и Looker Studio

20 января 2023

#SQL
Статьи

Что такое MAU, WAU, DAU, Sticky Factor, PCCU, ACU, ARPU, ARPPU и LTV и зачем они нужны?

Это ключевые метрики, используемые в аналитике и маркетинге для измерения активности пользователей, доходности и стоимости клиентов.

17 января 2023

#Google BigQuery
Статьи

Объединение данных из рекламных кабинетов с данными аналитики с помощью SQL в BigQuery

21 декабря 2022

#SQL
Статьи

Использование регулярных выражений в SQL для получения более подробной сводной статистики рекламных данных

Регулярные выражения в SQL помогают выполнить сложные поисковые запросы, фильтрацию и преобразование данных, что позволяет получить более детальную статистику и понять эффективность рекламных усилий.