Процесс анализа. Создание новых данных и новых групп
Чаще всего, чтобы найти что-то действительно важное и значимое в датасете, вам придется создавать сводные таблицы или новые данные внутри набора.
Уровень аггрегированности («обобщенности») данных может быть разным. Скажем, в таблице с зарплатами тренеров данные представлены в неаггрегированной форме, для каждого тренера — отдельная строка с уровнем годовой зарплаты в абсолютных числах. Как вы помните, инструмент Гугл Таблиц для анализа самостоятельно догадался провести аггрегацию по результату команд, и посчитал среднюю для команд, не вышедших из группы и прошедших до соответствующей стадии турнира на выбывание.
Иногда же таблицы к вам поступают (например, от аналитиков) уже аггрегированными. Это удобно, так как вам не нужно проводить эту работу, но в зависимости от самих исходных данных, их аггрегация может приводить к существенному искажению понимания того, что на самом деле содержится в данных.
Возьмем таблицу со статистикой посещаемости первого сезона программы «Вдудь»
Сначала проведем статистический анализ, а затем приступим к визуальному, в ходе которого будем создавать поисковые визуализации данных. Для них оформление не имеет существенного значения, как для финальных графиков, которые готовятся к размещению в презентации или для публикации, так что мы просто оставим стандартные настройки нашей программы для визуального анализа (в данном случае работа проведена в Tableau).
Прежде всего получим ключевые числа, описывающие датасет. Общее количество просмотров всех роликов: чуть более 124 млн, всего роликов за период — 34, среднее количество просмотров каждого ролика — 3,64 млн, минимальное (режиссер Хлебников) — 1,6 млн, максимальное (Слава КПСС) — 6,6 млн. Первый ролик вышел 7 февраля, последний — 18 октября 2017 года.
#Создание новых данных внутри датасета
Первым делом посмотрим динамику просмотров по датам:
Очень удачная визуализация, которая дает представление о взлетах и падениях в популярности выпусков, позволяет увидеть наиболее и наименее популярные ролики. Для того, чтобы нагляднее увидеть распределение выпусков по датам и обнаружить значительный по времени перерыв, заменим в этой визуализации линейный график на столбиковую диаграмму.
Становится интересно, в какие дни чаще всего выходили интервью, смотрим.
Выпусков в среду было меньше, чем во вторник, но медианное количество просмотров у них больше.
Чтобы понять почему, посмотрим, какие именно интервью пришлись на среду. Это БэдКомедиан, Гнойный, Фейс и Познер.
Однако, разумеется, вторничные просмотры принесли гораздо больше трафика, чем какие-либо другие.
Самое время более наглядно изучить, какие ролики самые популярные, а какие наоборот.
Сделаем сноску и укажем, что по-хорошему, конечно, надо было вводить поправки — на то, насколько долго ролик находится «в ротации» и на количество подписчиков в момент выхода программы (особенно это актуально для последних роликов, так ролик Познера добавлен ровно в день составления датасета и он, конечно, не совсем репрезентативен) — но для упрощения сейчас эти моменты опустим.
Что еще может нас заинтересовать, это распределение роликов по месяцам и количеству просмотров.
Мы, разумеется, не охватили и половины того, что могли бы проанализировать. Однако, в процессе даже этого, беглого анализа, мы уже аггрегировали и создавали новые данные в наборе! Мы аггрегировали, когда считали распределение количества роликов по дням недели и месяцам, распределение по просмотрам. Мы создавали новые данные, когда считали процент просмотров, пришедшихся на разные дни недели.
Новые данные в набор мы можем добавить и из других датасетов (скажем, даты рождения участников) или определить самостоятельно. Давайте, например, добавим новую колонку — в которой укажем основную область деятельности участников интервью.
Теперь мы можем не только посчитать, кого Дудь зовет чаще всего, но и узнать, персонажи из каких сфер людям интересны больше.
Или даже посмотреть, когда именно и как часто гости из разных областей приходили к Дудю и сколько людей посмотрело ролики с их участием.
Как видите, чтобы находить в датасетах интересное, вам наверняка придется аггрегировать данные, и создавать новые данные (количественные и качественные).
И вы можете, например, обнаружить следующее:
##
Я планирую закончить эту книгу к июлю-августу 2019 года, публикуя по главе или ее части в 1-2 недели. Обо всех обновлениях в книге вы можете узнавать в моем канале, посвященном визуализации данных — «Чартомойка» (если ссылка не открывается, попробуйте просто в поиске Телеграма набрать «Чартомойка»)
##