Быть аналитиком. Задавать вопросы

Люди учатся на аналитиков данных несколько лет, однако все знания, которые они получают, нам не нужны — достаточно основ.

Как в целом устроен процесс изучения ваших данных? Он обычно состоит из двух основных подходов:
— Статистического и
— Визуального.

Статистические методы обычно используются для того, чтобы узнать:
— Количество значений внутри каждой категории
— Распределение значений внутри категории, т. е. какие значения встречаются чаще, какие реже
— Суммирующие показатели: сумма всех значений, сумма за периоды, суммы по категориям, среднее и медиана
— Максимальные и минимальные значения и т. д.

Визуальный анализ позволяет находить значительно более тонкие взаимоотношения внутри данных. Например то, что мы делали в первой главе, про сыр — мы смогли выяснить, что доля продаж на рынке одних сыров выросла, а других уменьшилась, — именно в результате визуального анализа.

Визуальный анализ позволяет быстро понять тренды, тенденции, паттерны, характер распределения и взаимосвязи между значениями внутри набора данных.

К сожалению, не существует какого-то общепринятого алгоритма статистического и визуального анализа. Очевидно, что если пытаться перебирать все возможные виды переменных, срезов, фильтров, и их сочетаний друг с другом, то число комбинаций при достаточно большом датасете будет стремиться к бесконечности. Создание и анализ всех этих визуальных форм будет занимать слишком много времени. Поэтому проверяют обычно сначала важное, а потом ищут интересное.

Поэтому же до сих пор не существует автоматического инструмента для аналитиков, хотя логику статистического и визуального анализа можно понять, загрузив свою таблицу в Google Spreadsheet и нажав в правом нижнем углу кнопку «Анализ данных». Там будут сначала ключевые числа, описывающие датасет, а затем сводные таблицы и графики на основе комбинации ваших колонок. Давайте загрузим в Гугл Таблицы данные о зарплате тренеров и результатах команд прошедшего в 18 году чемпионата мира по футболу:

В правом нижнем углу рабочей области есть зеленая кнопка Анализ данных, нажмем на неё, предварительно выделив колонку с зарплатами.

Сверху мы получаем результаты статического анализа — ключевые значения, описывающие колонку с числами.

Теперь расширим диапазон на всю таблицу. Мы получим гораздо больше результатов автоматизированного анализа. Листайте галерею скриншотов:

Как видите весьма неплохо! Мы узнали многое об этих данных. Это и ключевые значения, описывающие весь датасет, и сводные таблицы, и поисковые визуализации, которые мы скорее всего бы сделали сами, начиная изучать этот набор данных.
Конечно, они далеки от оптимальных: и по выбору, и по оформлению. В гистограмме, скажем, хочется поменять диапазоны интервалов на кратные «круглым» значениям:

Однако работа функции Анализ данных хорошо показывает процесс анализа данных и основные компоненты этого процесса. В том числе создание сводных таблиц, необходимых для получения аггрегированных, «обобщенных» данных. Что это такое и зачем нужно, мы обсудим немного позже.

Основные показатели, которые обычно включаются в анализ:
— Макс/мин/сред
— Количество значений/количество разных значений
— Процент к целому
— Разница (со средним/с прошлым годом и т. д.)/разница в процентах
— Распределение внутри категории
— Динамика
— Топ-5, Топ-10

В целом, оба этапа строятся на том, что вы задаете вопросы и проверяете определенные гипотезы, пытаясь найти важное и интересное в вашем датасете. И ваша цель в процессе получения ответов — понять какие значения в вашем наборе данных встречаются чаще или реже, выявить тенденции и тренды, понять, что из них выбивается и т. д. Грубо говоря, вы «общаетесь» со своим набором данным, так как бы вы общались с человеком. Вы задаете вопросы, в процессе у вас появляются новые, вы проверяете гипотезы.

Вопросы могут быть такими:
— Кто лидеры рынка? Отстающие?
— В каком регионе максимальные продажи?
— Какой средний чек?
— Кто лидер по KPI?
— Как изменился уровень продаж за последние полгода?

Или гипотезы:
— Действительно ли есть зависимость между рекламной кампанией и ростом конверсии?
— Правда ли, что на конверсию в большей степени влияет канал продажи?

Вы можете задавать датасету все вопросы, которые вам кажутся важными. Возможно, в процессе визуального анализа вы зацепитесь за что-то или у вас возникнут новые мысли, которые вы захотите проверить. Вы продолжаете этот процесс, пока не почувствуете или поймете, что узнали, всё, что вам было нужно.

##

Я планирую закончить эту книгу к июлю-августу 2019 года, публикуя по главе или ее части в 1-2 недели. Обо всех обновлениях в книге вы можете узнавать в моем канале, посвященном визуализации данных — «Чартомойка» (если ссылка не открывается, попробуйте просто в поиске Телеграма набрать «Чартомойка»)

##

Оглавление

Поделиться
Отправить
Запинить
10 апреля   анализ   статистика
Популярное