2 заметки с тегом

данные

Процесс анализа. Создание новых данных и новых групп

Чаще всего, чтобы найти что-то действительно важное и значимое в датасете, вам придется создавать сводные таблицы или новые данные внутри набора.

Уровень аггрегированности («обобщенности») данных может быть разным. Скажем, в таблице с зарплатами тренеров данные представлены в неаггрегированной форме, для каждого тренера — отдельная строка с уровнем годовой зарплаты в абсолютных числах. Как вы помните, инструмент Гугл Таблиц для анализа самостоятельно догадался провести аггрегацию по результату команд, и посчитал среднюю для команд, не вышедших из группы и прошедших до соответствующей стадии турнира на выбывание.

Иногда же таблицы к вам поступают (например, от аналитиков) уже аггрегированными. Это удобно, так как вам не нужно проводить эту работу, но в зависимости от самих исходных данных, их аггрегация может приводить к существенному искажению понимания того, что на самом деле содержится в данных.

Возьмем таблицу со статистикой посещаемости первого сезона программы «Вдудь»

Сначала проведем статистический анализ, а затем приступим к визуальному, в ходе которого будем создавать поисковые визуализации данных. Для них оформление не имеет существенного значения, как для финальных графиков, которые готовятся к размещению в презентации или для публикации, так что мы просто оставим стандартные настройки нашей программы для визуального анализа (в данном случае работа проведена в Tableau).

Прежде всего получим ключевые числа, описывающие датасет. Общее количество просмотров всех роликов: чуть более 124 млн, всего роликов за период — 34, среднее количество просмотров каждого ролика — 3,64 млн, минимальное (режиссер Хлебников) — 1,6 млн, максимальное (Слава КПСС) — 6,6 млн. Первый ролик вышел 7 февраля, последний — 18 октября 2017 года.

#Создание новых данных внутри датасета
Первым делом посмотрим динамику просмотров по датам:

Очень удачная визуализация, которая дает представление о взлетах и падениях в популярности выпусков, позволяет увидеть наиболее и наименее популярные ролики. Для того, чтобы нагляднее увидеть распределение выпусков по датам и обнаружить значительный по времени перерыв, заменим в этой визуализации линейный график на столбиковую диаграмму.

Становится интересно, в какие дни чаще всего выходили интервью, смотрим.

Выпусков в среду было меньше, чем во вторник, но медианное количество просмотров у них больше.

Чтобы понять почему, посмотрим, какие именно интервью пришлись на среду. Это БэдКомедиан, Гнойный, Фейс и Познер.

Однако, разумеется, вторничные просмотры принесли гораздо больше трафика, чем какие-либо другие.

Самое время более наглядно изучить, какие ролики самые популярные, а какие наоборот.

Сделаем сноску и укажем, что по-хорошему, конечно, надо было вводить поправки — на то, насколько долго ролик находится «в ротации» и на количество подписчиков в момент выхода программы (особенно это актуально для последних роликов, так ролик Познера добавлен ровно в день составления датасета и он, конечно, не совсем репрезентативен) — но для упрощения сейчас эти моменты опустим.

Что еще может нас заинтересовать, это распределение роликов по месяцам и количеству просмотров.

Мы, разумеется, не охватили и половины того, что могли бы проанализировать. Однако, в процессе даже этого, беглого анализа, мы уже аггрегировали и создавали новые данные в наборе! Мы аггрегировали, когда считали распределение количества роликов по дням недели и месяцам, распределение по просмотрам. Мы создавали новые данные, когда считали процент просмотров, пришедшихся на разные дни недели.

Новые данные в набор мы можем добавить и из других датасетов (скажем, даты рождения участников) или определить самостоятельно. Давайте, например, добавим новую колонку — в которой укажем основную область деятельности участников интервью.

Теперь мы можем не только посчитать, кого Дудь зовет чаще всего, но и узнать, персонажи из каких сфер людям интересны больше.

Или даже посмотреть, когда именно и как часто гости из разных областей приходили к Дудю и сколько людей посмотрело ролики с их участием.

Как видите, чтобы находить в датасетах интересное, вам наверняка придется аггрегировать данные, и создавать новые данные (количественные и качественные).

И вы можете, например, обнаружить следующее:

##

Я планирую закончить эту книгу к июлю-августу 2019 года, публикуя по главе или ее части в 1-2 недели. Обо всех обновлениях в книге вы можете узнавать в моем канале, посвященном визуализации данных — «Чартомойка» (если ссылка не открывается, попробуйте просто в поиске Телеграма набрать «Чартомойка»)

##

Оглавление

2019   анализ   данные

Качество данных

К данным, к тому как они собраны, как они организованы и подготовлены, предъявляются определенные требования. В конечном итоге, визуализация данных — это уже следующий за их подготовкой и анализом этапом. И если на подготовительном этапе возникли были ошибки, то их представление, как бы грамотно сделано не было, будет не многого стоить.

Данные должны быть по возможности:
— максимально свежими
— целостными, полными, консистентными
— сравнимыми (собранными по одной методологии на сопоставимых выборках)
— из вызывающих доверие источников

Например, этот график, построенный на базе данных террористических актов Мэрилендского университета который показывает количество терактов, совершенных в мире с 1970 по 2014 год. На графике сразу видно, что датасет не полон — данных за 1993 год нет.

Данные нужно готовить таким образом, чтобы в каждой колонке данные находились в одном формате (даты, значит только даты), все значения (и количественные и качественные) были в одном единообразном формате, т. е. если в колонке есть ошибки в написании слов Массква, Москва, г. Москва, все должно быть приведено к одному значению. Какие-то колонки при необходимости нужно разбить, какие-то, напротив, свести в одну.

Скажем, таблицы, представленные на сайте Росстата непригодны для автоматизированной работы с ними. Они не консистентны, то есть строки могут содержать значения разного уровня вложенности: «итого», «в том числе», «из них от». Такую таблицу можно только изучать взглядом, но не проводить по ней анализ и строить графики. Ту же таблицу про причины смертности можно было бы переделать, например, так:

Мы оставили только данные одного уровня вложенности, категории перенесли в отдельную колонку, для под категорий сделали еще одну.

Подготовительная работа крайне важна. От нее зависит не только насколько удобно вам будет работать в аналитической программе или программе для визуализации данных, но и то, насколько корректными будут ваши выводы и графики в итоге.

Иногда, подготовительная работа (поиск, сбор, подготовка, очистка данных) занимает до 80-90% от всего времени работы над проектом. И это нормально.

##

Я планирую закончить эту книгу к июлю-августу 2019 года, публикуя по главе или ее части в 1-2 недели. Обо всех обновлениях в книге вы можете узнавать в моем канале, посвященном визуализации данных — «Чартомойка» (если ссылка не открывается, попробуйте просто в поиске Телеграма набрать «Чартомойка»)

##

Оглавление

2019   анализ   данные   подготовка