2 заметки с тегом

статистика

Быть аналитиком. Задавать вопросы

Люди учатся на аналитиков данных несколько лет, однако все знания, которые они получают, нам не нужны — достаточно основ.

Как в целом устроен процесс изучения ваших данных? Он обычно состоит из двух основных подходов:
— Статистического и
— Визуального.

Статистические методы обычно используются для того, чтобы узнать:
— Количество значений внутри каждой категории
— Распределение значений внутри категории, т. е. какие значения встречаются чаще, какие реже
— Суммирующие показатели: сумма всех значений, сумма за периоды, суммы по категориям, среднее и медиана
— Максимальные и минимальные значения и т. д.

Визуальный анализ позволяет находить значительно более тонкие взаимоотношения внутри данных. Например то, что мы делали в первой главе, про сыр — мы смогли выяснить, что доля продаж на рынке одних сыров выросла, а других уменьшилась, — именно в результате визуального анализа.

Визуальный анализ позволяет быстро понять тренды, тенденции, паттерны, характер распределения и взаимосвязи между значениями внутри набора данных.

К сожалению, не существует какого-то общепринятого алгоритма статистического и визуального анализа. Очевидно, что если пытаться перебирать все возможные виды переменных, срезов, фильтров, и их сочетаний друг с другом, то число комбинаций при достаточно большом датасете будет стремиться к бесконечности. Создание и анализ всех этих визуальных форм будет занимать слишком много времени. Поэтому проверяют обычно сначала важное, а потом ищут интересное.

Поэтому же до сих пор не существует автоматического инструмента для аналитиков, хотя логику статистического и визуального анализа можно понять, загрузив свою таблицу в Google Spreadsheet и нажав в правом нижнем углу кнопку «Анализ данных». Там будут сначала ключевые числа, описывающие датасет, а затем сводные таблицы и графики на основе комбинации ваших колонок. Давайте загрузим в Гугл Таблицы данные о зарплате тренеров и результатах команд прошедшего в 18 году чемпионата мира по футболу:

В правом нижнем углу рабочей области есть зеленая кнопка Анализ данных, нажмем на неё, предварительно выделив колонку с зарплатами.

Сверху мы получаем результаты статического анализа — ключевые значения, описывающие колонку с числами.

Теперь расширим диапазон на всю таблицу. Мы получим гораздо больше результатов автоматизированного анализа. Листайте галерею скриншотов:

Как видите весьма неплохо! Мы узнали многое об этих данных. Это и ключевые значения, описывающие весь датасет, и сводные таблицы, и поисковые визуализации, которые мы скорее всего бы сделали сами, начиная изучать этот набор данных.
Конечно, они далеки от оптимальных: и по выбору, и по оформлению. В гистограмме, скажем, хочется поменять диапазоны интервалов на кратные «круглым» значениям:

Однако работа функции Анализ данных хорошо показывает процесс анализа данных и основные компоненты этого процесса. В том числе создание сводных таблиц, необходимых для получения аггрегированных, «обобщенных» данных. Что это такое и зачем нужно, мы обсудим немного позже.

Основные показатели, которые обычно включаются в анализ:
— Макс/мин/сред
— Количество значений/количество разных значений
— Процент к целому
— Разница (со средним/с прошлым годом и т. д.)/разница в процентах
— Распределение внутри категории
— Динамика
— Топ-5, Топ-10

В целом, оба этапа строятся на том, что вы задаете вопросы и проверяете определенные гипотезы, пытаясь найти важное и интересное в вашем датасете. И ваша цель в процессе получения ответов — понять какие значения в вашем наборе данных встречаются чаще или реже, выявить тенденции и тренды, понять, что из них выбивается и т. д. Грубо говоря, вы «общаетесь» со своим набором данным, так как бы вы общались с человеком. Вы задаете вопросы, в процессе у вас появляются новые, вы проверяете гипотезы.

Вопросы могут быть такими:
— Кто лидеры рынка? Отстающие?
— В каком регионе максимальные продажи?
— Какой средний чек?
— Кто лидер по KPI?
— Как изменился уровень продаж за последние полгода?

Или гипотезы:
— Действительно ли есть зависимость между рекламной кампанией и ростом конверсии?
— Правда ли, что на конверсию в большей степени влияет канал продажи?

Вы можете задавать датасету все вопросы, которые вам кажутся важными. Возможно, в процессе визуального анализа вы зацепитесь за что-то или у вас возникнут новые мысли, которые вы захотите проверить. Вы продолжаете этот процесс, пока не почувствуете или поймете, что узнали, всё, что вам было нужно.

##

Я планирую закончить эту книгу к июлю-августу 2019 года, публикуя по главе или ее части в 1-2 недели. Обо всех обновлениях в книге вы можете узнавать в моем канале, посвященном визуализации данных — «Чартомойка» (если ссылка не открывается, попробуйте просто в поиске Телеграма набрать «Чартомойка»)

##

Оглавление

2019   анализ   статистика

Об основах статистики

Для того, чтобы уверенно чувствовать себя с данными, желательно ознакомиться хотя бы с азами статистики или воскресить в памяти институтский курс статистики, если он у вас был. (Выборки, среднее, медиана, вот это всё). Это нужно для того, чтобы избежать бессмысленных вычислений и бессмысленных визуализаций данных.
Вот, например, карта России, угадайте, какой показатель здесь закодирован оттенками цвета?

Картограммы с сайта http://russia.duck.consulting/ на основе данных Росстата

Это население субъектов РФ. Естественно, темнее всего Москва, Московская область, Санкт-Петербург и Краснодарский край. И если любые статистические данные по регионам России не приводить к количеству населения, то вы почти всегда будете получать подобную карту. Иными словами, важно понять, не сколько именно было жертв ДТП в каждом регионе за год, а сколько этих жертв было на каждую тысячу проживающих в регионе.

Вот карта количества чиновников по регионам в абсолютных числах. То есть сколько в каждом регионе чиновников. И она почти идентична карте, показывающей население:

А это количество чиновников на 1000 человек трудоспособного возраста:

Картина меняется радикально. Теперь напротив, самыми темными оказались регионы с наименьшим количество жителей. Данные по регионам почти всегда нужно нормировать, т. е. приводить к количеству населения или площади.

Или, например, нельзя вольно обращаться с производными из абсолютных значений, например, долями в процентах от целого. В большинстве случаев нельзя их просто так складывать, или высчитывать из них среднее.

Допустим, нам известно, что в России аллергией страдает 18% взрослых и 21% детей. Из этого, разумеется, не следует, что всего аллергией страдает 39% населения, как сделано в показанной выше картинке. Но из этого и не следует, что всего среди населения процент аллергии равен 19% ((18+21%)/2). Чтобы точно узнать ответ на этот вопрос, нужно знать сколько всего взрослых и детей среди общего количества населения. Допустим, детей 10%, а взрослых — 90%. Значит, чтобы рассчитать средний процент, нужно провести следующие вычисления (90*0,18 + 10*0,21)/100 = (16,2 + 2,1)/100 = 18,3%.

Всем рекомендую пройти курс по основам статистики (там есть еще вторая и третья часть). Без понимания основ статистики вероятность того, что вы будете делать некорректные графики, очень высока.

##

Я планирую закончить эту книгу к июлю-августу 2019 года, публикуя по главе или ее части в 1-2 недели. Обо всех обновлениях в книге вы можете узнавать в моем канале, посвященном визуализации данных — «Чартомойка» (если ссылка не открывается, попробуйте просто в поиске Телеграма набрать «Чартомойка»)

##

Оглавление

2019   анализ   статистика