1 заметка с тегом

подготовка

Качество данных

К данным, к тому как они собраны, как они организованы и подготовлены, предъявляются определенные требования. В конечном итоге, визуализация данных — это уже следующий за их подготовкой и анализом этапом. И если на подготовительном этапе возникли были ошибки, то их представление, как бы грамотно сделано не было, будет не многого стоить.

Данные должны быть по возможности:
— максимально свежими
— целостными, полными, консистентными
— сравнимыми (собранными по одной методологии на сопоставимых выборках)
— из вызывающих доверие источников

Например, этот график, построенный на базе данных террористических актов Мэрилендского университета который показывает количество терактов, совершенных в мире с 1970 по 2014 год. На графике сразу видно, что датасет не полон — данных за 1993 год нет.

Данные нужно готовить таким образом, чтобы в каждой колонке данные находились в одном формате (даты, значит только даты), все значения (и количественные и качественные) были в одном единообразном формате, т. е. если в колонке есть ошибки в написании слов Массква, Москва, г. Москва, все должно быть приведено к одному значению. Какие-то колонки при необходимости нужно разбить, какие-то, напротив, свести в одну.

Скажем, таблицы, представленные на сайте Росстата непригодны для автоматизированной работы с ними. Они не консистентны, то есть строки могут содержать значения разного уровня вложенности: «итого», «в том числе», «из них от». Такую таблицу можно только изучать взглядом, но не проводить по ней анализ и строить графики. Ту же таблицу про причины смертности можно было бы переделать, например, так:

Мы оставили только данные одного уровня вложенности, категории перенесли в отдельную колонку, для под категорий сделали еще одну.

Подготовительная работа крайне важна. От нее зависит не только насколько удобно вам будет работать в аналитической программе или программе для визуализации данных, но и то, насколько корректными будут ваши выводы и графики в итоге.

Иногда, подготовительная работа (поиск, сбор, подготовка, очистка данных) занимает до 80-90% от всего времени работы над проектом. И это нормально.

##

Я планирую закончить эту книгу к июлю-августу 2019 года, публикуя по главе или ее части в 1-2 недели. Обо всех обновлениях в книге вы можете узнавать в моем канале, посвященном визуализации данных — «Чартомойка» (если ссылка не открывается, попробуйте просто в поиске Телеграма набрать «Чартомойка»)

##

Оглавление

2019   анализ   данные   подготовка