Книга «Графики, которые убеждают всех»

Автор: Александр Богачев
Об авторе | Канал в Телеграме | Фейсбук

Что такое инфографика и визуализация данных

В кулуарах датавиз-сообщества последние пару недель обсуждается вопрос терминов. Что такое визуализация данных? Что такое инфографика? Как они соотносятся? Это смежные области? Или одно часть другого? Споры не останавливаются.

Лет 8-9 назад мне было очень интересно тоже в этом разобраться. Я потратил достаточно много времени на это, но всё уложил у себя в голове. Понятно и непротиворечиво. Через мои лекции я думаю прошли сотни, может быть тысячи человек, там я про это рассказывал. Но нигде не публиковал. А то, что не опубликовано в интернете (а лучше в книге) вообще не существует.

Исправляю этот пробел сейчас, хотя бы кратко.

Итак, проблема возникла со стороны дизайнеров крупных форм инфографики в конце 1980-х и в 10-х закрепилась со стороны маркетологов. Дизайнеры в газетах начали делать не только небольшие графики, типа таких:

Но и создавать всё более и более масштабные полотна, занимая целую полосу и иногда разворот. Естественно, там в рамках одной композиции объединялись разные графики, карты, блоки с текстом и так далее.

USA Today, 1982 год

Со временем эти композиции начали превращаться в особый жанр. И авторы из разных изданий начали соревноваться, кто это сделает круче. (Хотя это не означает, что до этого такого формата не было. У меня есть книга c инфографикой от National Geographic’s за 130 лет, она вся из таких картинок и состоит). Кому-то пришло в голову подписывать это Information Graphics (информационная графика), что позднее сократилось просто до Infographics (инфографика).

На графике мы видим, что information graphics раньше использовалось шире.

Данные Google NGRAM Viewer

А вот с конца нулевых и десятых началось:

А началось то, что термин взяли на вооружение маркетологи. В их представлении инфографика — это было яркое, красивое, привлекающее внимание, с векторными иконочками человечков, крупными цифрами, в идеале что-то понятно объясняющее. Причем часто там могло никакой инфографики и вовсе не быть)

Рандомная картинка из гугла по запросу «инфографика». Надеюсь вы так не делаете

Картинки подобные этой засорили тогда весь интернет. И многие до сих пор считают, что это инфографика и есть. Более того, от Роберта Косары и других авторов подобное определение перекочевало в тысячи статей, и даже в энциклопедии. Но от этого оно не стало верным. Более того, это «определение» всё запутало. Есть целые статьи, их сотни, где описаны различия между инфографикой и визуализацией данных, что по моему мнению просто абсурд. Как отличия между транспортным средством и автомобилем.

===

Что же такое инфографика и визуализация данных? Давайте прочитаем википедию.

«Инфографика — визуализация данных или идей, целью которой является донесение сложной информации до аудитории быстрым и понятным образом. Средства инфографики помимо изображений могут включать в себя графики, диаграммы, блок-схемы, таблицы, карты, списки».

В целом это не худшее определение, по крайней мере оно явно дает понять, что графики, диаграммы и карты — это «средства инфографики», а не что-то смежное. Но откуда в определении взялась «цель» и «сложная» информация? А если информация не очень сложная, а если цель какая-то другая? И что там делают таблицы и списки?

В английской версии «Infographics (a clipped compound of „information“ and „graphics“) are graphic visual representations of information, data, or knowledge intended to present information quickly and clearly». В целом тоже неплохо, написано что это своеобразное сокращение от «информационная графика», и там уже указано про представление информации, данных или знаний. Но зачем-то опять созданное, чтобы представить информацию быстро и ясно.

На мой взгляд определение должно быть более общим.

Инфографика — графическое представление данных, информации, знаний в форме графиков, карт, схем и подобного. Сюда можно добавлять еще какие-то слова, но это определение исчерпывающе описывает то, что инфографика делает — показывает информацию или знания в графической форме. Добавляя про графики, карты и схемы мы с одной стороны отстраиваемся от маркированных списков и таблиц (которые в общем виде инфографикой не являются), с другой — от чисто пиктографики, не образующей какую-то композицию или схему.

Таким образом, УЖЕ ОЧЕВИДНО, что визуализация данных — это ОСНОВНОЙ элемент инфографики. Любое графическое представление данных в форме геометрических примитивов, чем и является визуализация данных — это уже по умолчанию инфографика. Но не всякая инфографика сводится разумеется к визуализации данных.

Это всё инфографика. И визуализация данных)

На схеме сборки шкафа от Икеи никаких данных нет, но это инфографика. На взрыв-схеме велосипеда — тоже, но это тоже инфографика. По ощущениям, особенно сейчас, после взлета популярности бизнес-аналитики, дэшбордов и подобного визуализации данных НАМНОГО БОЛЬШЕ, чем других видов инфографики (95%, а может и больше).

Разберем более редкие и сложные случаи.

Что есть в таком случае схемка для презентации, нарисованная на салфетке?

Это пограничная зона. Если в этом есть хоть какой-то смысл связи одних частей с другими, то это инфографика. Если это чисто декоративное изображение, то это скорее просто иллюстрация.

Является ли инфографикой атлас анатомии? Если там нарисован человек или одна кость, но больше ничего не подписано, то нет. Это просто иллюстрация. Если там появляются дополнительные слои информации, например выноски, объясняющие какая часть кости как называется, это уже такая прото-инфографика. Если там тело в разрезе, то безусловно инфографика.

Бесспорная инфографика

Является ли любой чертеж инфографикой? Да, конечно. Это графическое представление объекта в схематичной форме.

Является ли дата-арт инфографикой? Очевидно, причем он еще и является при этом разновидностью визуализации данных.

===

Как же в таком случае разделить простейший график и огромные композиции на целый разворот? Разве эти композиции не заслужили отдельного слова?

National Geographic как раз)

На мой взгляд нет, но можно их называть комплексной инфографикой. И тогда туда может входить и то, что само по себе инфографикой не является — иллюстрации, крупные цифры, иконки, таблицы, маркированные списки и т. д.

Вот так всё просто, пользуйтесь.

Графики, которые убеждают всех

Пособие для менеджеров, аналитиков, предпринимателей, маркетологов и всех, кто делает презентации и графики

Книга публикуется постепенно, частями и главами. Первая глава опубликована 22 февраля 2019 года. Текст в оглавлении по мере готовности глав будет заменяться ссылками. За обновлениями можно следить на этой странице или в канале «Чартомойка»

Обновление от 27 марта 2020 года. Книга полностью готова! И в ближайшее время будет опубликована на сайте litres.ru издательством АСТ. Следите за дальнейшими анонсами в канале и на этой странице.

Обновление от 8 апреля 2020 года. Книга вышла!! Доступна для скачивания по ссылке: https://www.litres.ru/aleksandr-bogachev/grafiki-kotorye-ubezhdaut-vseh/

Обновление от 21 августа 2020 года. Печатная версия доступна для предзаказа! https://planeta.ru/campaigns/142321

Печатную версию книги отныне можно купить в популярных книжных магазинах:

Покупаем, читаем, пишем отзывы, если понравилась — советуем друзьям и коллегам.

Лабиринт: https://www.labirint.ru/books/772379/
Буквоед: https://www.bookvoed.ru/book?id=10497909
Озон: https://www.ozon.ru/context/detail/id/200373285
Читай-Город: https://www.chitai-gorod.ru/catalog/book/1273187/
Бук24: https://book24.ru/product/grafiki-kotorye-ubezhdayut-vsekh-5873820/
My-shop: https://my-shop.ru/shop/product/4243329.html

В дополнение к книге для скачивания доступен постер бесплатно: https://www.notion.so/6c5ae8ceb8b5411e907c93c9b5e6a44e

ОГЛАВЛЕНИЕ

Введение

Первая глава. Общее понимание о процессе

Вторая глава. Понимать свою задачу и аудиторию

Третья глава. Формулируем сообщение

Четвертая глава. Выбор визуализации

  • Просто число
  • Слово о таблицах
  • Как образуется визуализация
  • Типа взаимоотношений внутри данных
  • Какие задачи у визуализации
  • Какие графики люди считывают лучше
  • Выбор визуализации — ключевой этап
  • Ошибки в датавиз

Пятая глава. Основные виды данных, как их визуализировать и чем заменять в сложных случаях.

  • Общая таблица
  • Основные трудности и пути их решения
  • Как показывать результаты опросов
  • Как можно визуализировать бюджет нагляднее

Шестая и седьмая. Убрать лишнее. Оформление/Дизайн/Акценты

  • Когнитивная нагрузка
  • Теория близости
  • Предвнимательные атрибуты
  • Стандартные настройки Экселя и что с ними делать
  • Фон
  • Спецэффекты
  • Компоновка
  • Заголовок
  • Отступы
  • О шрифтах
  • Микротипографика
  • Цвет. Основы.
  • Легенды и подписи
  • Акценты

Восьмая глава. Тексты и аннотации

  • Аннотации
  • Источники
  • Важные пояснения

Девятая глава. Сборка презентации

  • Общие соображения
  • Анимация
  • Логическая структура
  • Дизайн презентаций
  • Ритм

В качестве завершения

Главное в третьей главе

  • Убеждает не график, а данные
  • Чтобы график был убедительным, нужно хорошо разбираться в теме
  • Основа аналитики: вопросы и проверка гипотез.
  • Ищите интерпретацию находок, сделанных в результате анализа
  • Не подгоняйте презентацию и графики под заранее придуманные выводы
  • Старайтесь быть честным с вашей аудиторией.

##

Я планирую закончить эту книгу к июлю-августу 2019 года, публикуя по главе или ее части в 1-2 недели. Обо всех обновлениях в книге вы можете узнавать в моем канале, посвященном визуализации данных — «Чартомойка» (если ссылка не открывается, попробуйте просто в поиске Телеграма набрать «Чартомойка»)

##

Оглавление

Про объективность, честность, непредвзятость

Вы можете очень хотеть убедить кого-то в чем-то, но если данные этого не подтверждают, не стоит пытаться использовать различные ухищрения для того, чтобы произвести нужное вам впечатление. Возможно, в краткосрочной перспективе вы будете убедительны, но рано или поздно правда раскроется.

Не секрет, что статистика и визуализация данных могут лгать. На самом деле, они вообще никогда не говорят правду, это всегда взгляд с той или иной степенью точности по отношению к реальности, но вы можете стремиться к объективности, насколько это возможно.

Классический пример, рост ВВП в годы индустриализации в СССР. Если мы возьмем уровень ВВП СССР и ведущих капиталистических стран в 1928 году за ноль и попробуем пересчитать, как изменился за ВВП за 10 лет в процентах к исходному, то нашему взору откроется вот такая картина.

«График патриота»

Примерно по тому же принципу в СССР строились пропагандистские графики (мелким шрифтом написано «На сравнимой территории в процентах к 1937 году»):

И все же, разве что-то неверно? СССР, страна, пережившая гражданскую войну и революцию, показывает феноменальные темпы роста ВВП, обгоняя ведущие капиталистические страны. Экономика СССР развивается быстрее всех в мире! Обманывает ли этот график? С одной стороны, числа, на основе которых он построен — верные, с другой стороны, если мы возьмем абсолютные значения, то получим совершенно другое впечатление:

«График либерала»

Оказывается в абсолютных числах рост не такой впечатляющий. Несмотря на успехи, отставание от ведущих стран остается кратным. Плюс, СССР в этом графике стартовал с очень низкой базы. 1927-28 годы — этот период, когда экономика только восстановилась до уровня 1913 года.
Так какой из графиков верный и какой именно показывать? Разумеется, это зависит от задачи и от ситуации. Каждый из график даёт разный взгляд на одну и ту же ситуацию, но если вы хотите быть максимально непредвзятыми, то имеет смысл показать оба.

##

Я планирую закончить эту книгу к июлю-августу 2019 года, публикуя по главе или ее части в 1-2 недели. Обо всех обновлениях в книге вы можете узнавать в моем канале, посвященном визуализации данных — «Чартомойка» (если ссылка не открывается, попробуйте просто в поиске Телеграма набрать «Чартомойка»)

##

Оглавление

Формулируем сообщение

Вспомним теперь о том, что визуализация данных — инструмент в нашей коммуникации. Чтобы наша коммуникация состоялась, нам нужно сообщение. И чем это сообщение сильнее, тем выше вероятность того, что наша коммуникация будет эффективной.

Для того, чтобы сформулировать наше сообщение, нам и нужен процесс анализа данных. Сообщение нужно формулировать после анализа или в процессе, но никак не до, пытаясь подогнать данные и графики под готовые заранее мысли или шаблоны.

Хайкин Гонсалес Вейра («Гардиан»)

Сообщение обычно формулируется в терминах трендов, паттернов, изменения динамики, характера распределения, связи одних данных с другими. Например, повышение/снижение; сезонность, характер роста, сравнение относительно других; занимаемое место и т. д. Иными словами, по результатам анализа этого датасета, мы можем сформулировать несколько сообщений (важных и интересных вещей, которые мы обнаружили), часть из которых мы можем попробовать донести с помощью графиков.

Чтобы окончательно сформулировать ваше сообщение, скорее всего вам потребуется как-то интерпретировать то, что вы нашли внутри датасета. Для этого вам нужно будет найти человека, который хорошо понимает, как эти данные связаны с реальностью. Либо самому стать таким человеком. Иногда наиболее интересные выводы появляются там, где данные и ваши аналитические находки расходятся с мнением экспертов. За этим может лежать настоящая история и настоящее расследование.

Более того, иногда информация в реальном мире может стать отправной точкой для ваших вопросов к данным и анализа. То есть эксперт говорит вам, что многие сотрудники со стажем работы 1-2 года покидают компанию, и вы можете запросить и подготовить данные, которые это подтверждают (или, напротив, опровергают).

Общаясь с экспертом, будьте однако осторожны, чтобы не совершить другую ошибку, когда еще до начала анализа данных, вы уже имеете некое представление о том, что в них должно быть. Тогда анализа данных не происходит вовсе, или находки игнорируются. Еще хуже — когда у вас уже заготовлены слайды с определенным посылом, в которые вы просто хотите вставить подтверждающие ваши заготовки графики. Но в реальности может оказаться, что данные, а вслед за ними и графики вовсе не подтверждают то, что вы хотели сказать. Это одна из причин, почему мы часто видим слайды, графики на которых противоречат заголовкам.

##

Я планирую закончить эту книгу к июлю-августу 2019 года, публикуя по главе или ее части в 1-2 недели. Обо всех обновлениях в книге вы можете узнавать в моем канале, посвященном визуализации данных — «Чартомойка» (если ссылка не открывается, попробуйте просто в поиске Телеграма набрать «Чартомойка»)

##

Оглавление

Процесс анализа. Создание новых данных и новых групп

Чаще всего, чтобы найти что-то действительно важное и значимое в датасете, вам придется создавать сводные таблицы или новые данные внутри набора.

Уровень аггрегированности («обобщенности») данных может быть разным. Скажем, в таблице с зарплатами тренеров данные представлены в неаггрегированной форме, для каждого тренера — отдельная строка с уровнем годовой зарплаты в абсолютных числах. Как вы помните, инструмент Гугл Таблиц для анализа самостоятельно догадался провести аггрегацию по результату команд, и посчитал среднюю для команд, не вышедших из группы и прошедших до соответствующей стадии турнира на выбывание.

Иногда же таблицы к вам поступают (например, от аналитиков) уже аггрегированными. Это удобно, так как вам не нужно проводить эту работу, но в зависимости от самих исходных данных, их аггрегация может приводить к существенному искажению понимания того, что на самом деле содержится в данных.

Возьмем таблицу со статистикой посещаемости первого сезона программы «Вдудь»

Сначала проведем статистический анализ, а затем приступим к визуальному, в ходе которого будем создавать поисковые визуализации данных. Для них оформление не имеет существенного значения, как для финальных графиков, которые готовятся к размещению в презентации или для публикации, так что мы просто оставим стандартные настройки нашей программы для визуального анализа (в данном случае работа проведена в Tableau).

Прежде всего получим ключевые числа, описывающие датасет. Общее количество просмотров всех роликов: чуть более 124 млн, всего роликов за период — 34, среднее количество просмотров каждого ролика — 3,64 млн, минимальное (режиссер Хлебников) — 1,6 млн, максимальное (Слава КПСС) — 6,6 млн. Первый ролик вышел 7 февраля, последний — 18 октября 2017 года.

#Создание новых данных внутри датасета
Первым делом посмотрим динамику просмотров по датам:

Очень удачная визуализация, которая дает представление о взлетах и падениях в популярности выпусков, позволяет увидеть наиболее и наименее популярные ролики. Для того, чтобы нагляднее увидеть распределение выпусков по датам и обнаружить значительный по времени перерыв, заменим в этой визуализации линейный график на столбиковую диаграмму.

Становится интересно, в какие дни чаще всего выходили интервью, смотрим.

Выпусков в среду было меньше, чем во вторник, но медианное количество просмотров у них больше.

Чтобы понять почему, посмотрим, какие именно интервью пришлись на среду. Это БэдКомедиан, Гнойный, Фейс и Познер.

Однако, разумеется, вторничные просмотры принесли гораздо больше трафика, чем какие-либо другие.

Самое время более наглядно изучить, какие ролики самые популярные, а какие наоборот.

Сделаем сноску и укажем, что по-хорошему, конечно, надо было вводить поправки — на то, насколько долго ролик находится «в ротации» и на количество подписчиков в момент выхода программы (особенно это актуально для последних роликов, так ролик Познера добавлен ровно в день составления датасета и он, конечно, не совсем репрезентативен) — но для упрощения сейчас эти моменты опустим.

Что еще может нас заинтересовать, это распределение роликов по месяцам и количеству просмотров.

Мы, разумеется, не охватили и половины того, что могли бы проанализировать. Однако, в процессе даже этого, беглого анализа, мы уже аггрегировали и создавали новые данные в наборе! Мы аггрегировали, когда считали распределение количества роликов по дням недели и месяцам, распределение по просмотрам. Мы создавали новые данные, когда считали процент просмотров, пришедшихся на разные дни недели.

Новые данные в набор мы можем добавить и из других датасетов (скажем, даты рождения участников) или определить самостоятельно. Давайте, например, добавим новую колонку — в которой укажем основную область деятельности участников интервью.

Теперь мы можем не только посчитать, кого Дудь зовет чаще всего, но и узнать, персонажи из каких сфер людям интересны больше.

Или даже посмотреть, когда именно и как часто гости из разных областей приходили к Дудю и сколько людей посмотрело ролики с их участием.

Как видите, чтобы находить в датасетах интересное, вам наверняка придется аггрегировать данные, и создавать новые данные (количественные и качественные).

И вы можете, например, обнаружить следующее:

##

Я планирую закончить эту книгу к июлю-августу 2019 года, публикуя по главе или ее части в 1-2 недели. Обо всех обновлениях в книге вы можете узнавать в моем канале, посвященном визуализации данных — «Чартомойка» (если ссылка не открывается, попробуйте просто в поиске Телеграма набрать «Чартомойка»)

##

Оглавление

Быть аналитиком. Задавать вопросы

Люди учатся на аналитиков данных несколько лет, однако все знания, которые они получают, нам не нужны — достаточно основ.

Как в целом устроен процесс изучения ваших данных? Он обычно состоит из двух основных подходов:
— Статистического и
— Визуального.

Статистические методы обычно используются для того, чтобы узнать:
— Количество значений внутри каждой категории
— Распределение значений внутри категории, т. е. какие значения встречаются чаще, какие реже
— Суммирующие показатели: сумма всех значений, сумма за периоды, суммы по категориям, среднее и медиана
— Максимальные и минимальные значения и т. д.

Визуальный анализ позволяет находить значительно более тонкие взаимоотношения внутри данных. Например то, что мы делали в первой главе, про сыр — мы смогли выяснить, что доля продаж на рынке одних сыров выросла, а других уменьшилась, — именно в результате визуального анализа.

Визуальный анализ позволяет быстро понять тренды, тенденции, паттерны, характер распределения и взаимосвязи между значениями внутри набора данных.

К сожалению, не существует какого-то общепринятого алгоритма статистического и визуального анализа. Очевидно, что если пытаться перебирать все возможные виды переменных, срезов, фильтров, и их сочетаний друг с другом, то число комбинаций при достаточно большом датасете будет стремиться к бесконечности. Создание и анализ всех этих визуальных форм будет занимать слишком много времени. Поэтому проверяют обычно сначала важное, а потом ищут интересное.

Поэтому же до сих пор не существует автоматического инструмента для аналитиков, хотя логику статистического и визуального анализа можно понять, загрузив свою таблицу в Google Spreadsheet и нажав в правом нижнем углу кнопку «Анализ данных». Там будут сначала ключевые числа, описывающие датасет, а затем сводные таблицы и графики на основе комбинации ваших колонок. Давайте загрузим в Гугл Таблицы данные о зарплате тренеров и результатах команд прошедшего в 18 году чемпионата мира по футболу:

В правом нижнем углу рабочей области есть зеленая кнопка Анализ данных, нажмем на неё, предварительно выделив колонку с зарплатами.

Сверху мы получаем результаты статического анализа — ключевые значения, описывающие колонку с числами.

Теперь расширим диапазон на всю таблицу. Мы получим гораздо больше результатов автоматизированного анализа. Листайте галерею скриншотов:

Как видите весьма неплохо! Мы узнали многое об этих данных. Это и ключевые значения, описывающие весь датасет, и сводные таблицы, и поисковые визуализации, которые мы скорее всего бы сделали сами, начиная изучать этот набор данных.
Конечно, они далеки от оптимальных: и по выбору, и по оформлению. В гистограмме, скажем, хочется поменять диапазоны интервалов на кратные «круглым» значениям:

Однако работа функции Анализ данных хорошо показывает процесс анализа данных и основные компоненты этого процесса. В том числе создание сводных таблиц, необходимых для получения аггрегированных, «обобщенных» данных. Что это такое и зачем нужно, мы обсудим немного позже.

Основные показатели, которые обычно включаются в анализ:
— Макс/мин/сред
— Количество значений/количество разных значений
— Процент к целому
— Разница (со средним/с прошлым годом и т. д.)/разница в процентах
— Распределение внутри категории
— Динамика
— Топ-5, Топ-10

В целом, оба этапа строятся на том, что вы задаете вопросы и проверяете определенные гипотезы, пытаясь найти важное и интересное в вашем датасете. И ваша цель в процессе получения ответов — понять какие значения в вашем наборе данных встречаются чаще или реже, выявить тенденции и тренды, понять, что из них выбивается и т. д. Грубо говоря, вы «общаетесь» со своим набором данным, так как бы вы общались с человеком. Вы задаете вопросы, в процессе у вас появляются новые, вы проверяете гипотезы.

Вопросы могут быть такими:
— Кто лидеры рынка? Отстающие?
— В каком регионе максимальные продажи?
— Какой средний чек?
— Кто лидер по KPI?
— Как изменился уровень продаж за последние полгода?

Или гипотезы:
— Действительно ли есть зависимость между рекламной кампанией и ростом конверсии?
— Правда ли, что на конверсию в большей степени влияет канал продажи?

Вы можете задавать датасету все вопросы, которые вам кажутся важными. Возможно, в процессе визуального анализа вы зацепитесь за что-то или у вас возникнут новые мысли, которые вы захотите проверить. Вы продолжаете этот процесс, пока не почувствуете или поймете, что узнали, всё, что вам было нужно.

##

Я планирую закончить эту книгу к июлю-августу 2019 года, публикуя по главе или ее части в 1-2 недели. Обо всех обновлениях в книге вы можете узнавать в моем канале, посвященном визуализации данных — «Чартомойка» (если ссылка не открывается, попробуйте просто в поиске Телеграма набрать «Чартомойка»)

##

Оглавление

Об основах статистики

Для того, чтобы уверенно чувствовать себя с данными, желательно ознакомиться хотя бы с азами статистики или воскресить в памяти институтский курс статистики, если он у вас был. (Выборки, среднее, медиана, вот это всё). Это нужно для того, чтобы избежать бессмысленных вычислений и бессмысленных визуализаций данных.
Вот, например, карта России, угадайте, какой показатель здесь закодирован оттенками цвета?

Картограммы с сайта http://russia.duck.consulting/ на основе данных Росстата

Это население субъектов РФ. Естественно, темнее всего Москва, Московская область, Санкт-Петербург и Краснодарский край. И если любые статистические данные по регионам России не приводить к количеству населения, то вы почти всегда будете получать подобную карту. Иными словами, важно понять, не сколько именно было жертв ДТП в каждом регионе за год, а сколько этих жертв было на каждую тысячу проживающих в регионе.

Вот карта количества чиновников по регионам в абсолютных числах. То есть сколько в каждом регионе чиновников. И она почти идентична карте, показывающей население:

А это количество чиновников на 1000 человек трудоспособного возраста:

Картина меняется радикально. Теперь напротив, самыми темными оказались регионы с наименьшим количество жителей. Данные по регионам почти всегда нужно нормировать, т. е. приводить к количеству населения или площади.

Или, например, нельзя вольно обращаться с производными из абсолютных значений, например, долями в процентах от целого. В большинстве случаев нельзя их просто так складывать, или высчитывать из них среднее.

Допустим, нам известно, что в России аллергией страдает 18% взрослых и 21% детей. Из этого, разумеется, не следует, что всего аллергией страдает 39% населения, как сделано в показанной выше картинке. Но из этого и не следует, что всего среди населения процент аллергии равен 19% ((18+21%)/2). Чтобы точно узнать ответ на этот вопрос, нужно знать сколько всего взрослых и детей среди общего количества населения. Допустим, детей 10%, а взрослых — 90%. Значит, чтобы рассчитать средний процент, нужно провести следующие вычисления (90*0,18 + 10*0,21)/100 = (16,2 + 2,1)/100 = 18,3%.

Всем рекомендую пройти курс по основам статистики (там есть еще вторая и третья часть). Без понимания основ статистики вероятность того, что вы будете делать некорректные графики, очень высока.

##

Я планирую закончить эту книгу к июлю-августу 2019 года, публикуя по главе или ее части в 1-2 недели. Обо всех обновлениях в книге вы можете узнавать в моем канале, посвященном визуализации данных — «Чартомойка» (если ссылка не открывается, попробуйте просто в поиске Телеграма набрать «Чартомойка»)

##

Оглавление

Погружение в тему и контекст

Любые количественные значения, которыми наполнены ваши таблицы — это не просто циферки. Они возникают не из воздуха. За каждым значением стоит какой-то процесс или явление в реальном мире. И эти цифры что-то означают. Они собираются по какому-то принципу, следуя какой-то методологии, с какими-то интервалами, с какой-то погрешностью. И каждая из них описывает какой-то маленький аспект огромной многообразной реальности. Важно понимать, насколько достоверно и в каком качестве данные соотносятся с реальностью, какой контекст за ними стоит.

Одно из российских СМИ однажды опубликовало график, посвященный числу тех, кто эмигрировал из России по годам и сделало вывод, что в России так плохо, что в последние годы, начиная с 12, когда начался третий срок Путина, народ массово покидает страну. Шутка ли — 300 тысяч эмигрантов в год! Это население крупного областного центра.

Однако же данные эти на самом деле совсем неоднозначные. Структура того, что стоит за этими цифрами в разные периоды с начала 1990-х совершенно различна, различны даже те показатели, изменяющиеся значения которых отложены на оси.

Первое, о чем следует сказать, что за тот же период в Россию въехало в два раза больше людей.

И что более важно этот график о совершенно разных группах людей, и по-хорошему их вообще нельзя ставить на одну общую базовую линию. Оказывается, за последние 15 лет Росстат дважды менял методику подсчета мигрантов. С 1997 по 2006 учитывались только те, кто получил вид на жительство, с 2007 по 2011 — получившие разрешение на временное проживание, и с 12 года (как раз!) — стали считать всех, кто въехал на срок от 9 месяцев по любой причине.

Согласитесь, что между получением вида на жительства и въездом на срок от 9 месяцев, есть существенная разница. Куда же все уезжают? В основном это страны Средней Азии и Украина.

То есть на самом деле график показывает возросший объем трудовой миграции между странами бывшего СССР. Какая же доля уезжающих в страны дальнего зарубежья по сравнению с концом 90-х? Она стала гораздо меньше. Особенно хорошо количество уезжающих на Запад видно на этом графике.

Как видим, между 300 тысяч в год и 10 тысяч в год — огромная разница. Однако насколько этим данным Росстата можно доверять? Есть ли какие-то недочеты в их методологии? Да, конечно, они никак не учитывают тех, кто не снимался с учета в ФНС, а таких людей с каждом годом становится все больше. И на учет в консульствах западных стран встает гораздо больше россиян, чем фиксируется Росстатом (3-5 раз). Тем не менее, говорить о существенном росте количества этих людей нельзя.
Серые отсечки показывают уровень миграционного баланса с учетом консульств принимающих стран по самым заманчивым в плане эмиграции западным странам:

Вообще, в последние годы размывается само понятие эмиграции, и ее становится все сложнее отслеживать и фиксировать. Подробнее об этом можно почитать тут: https://ria.ru/20170322/1490498597.html

Без погружения в тему и понимания связи между данными и реальностью, создать эффективную, дающую инсайты визуализацию, практически невозможно.

Представьте, что ваша компания опиралась бы на анализ такого же уровня, который был сделан изначально? К каким неверным действиям это могло бы привести.

В каждой отрасли знания есть свои значимые аспекты. Для того, чтобы разобраться в них, если ваших знаний недостаточно, желательно пообщаться с тем, кто обладает экспертными компетенциями, с тем, кто непосредственно работает с этими данными. Если вы сотрудник, которого попросили сделать инфографику, то это именно ваша задача — обсудить с заказчиком, начальником или с тем, от кого эти данные пришли, что в них самое значимое, ключевое.

##

Я планирую закончить эту книгу к июлю-августу 2019 года, публикуя по главе или ее части в 1-2 недели. Обо всех обновлениях в книге вы можете узнавать в моем канале, посвященном визуализации данных — «Чартомойка» (если ссылка не открывается, попробуйте просто в поиске Телеграма набрать «Чартомойка»)

##

Оглавление

Качество данных

К данным, к тому как они собраны, как они организованы и подготовлены, предъявляются определенные требования. В конечном итоге, визуализация данных — это уже следующий за их подготовкой и анализом этапом. И если на подготовительном этапе возникли были ошибки, то их представление, как бы грамотно сделано не было, будет не многого стоить.

Данные должны быть по возможности:
— максимально свежими
— целостными, полными, консистентными
— сравнимыми (собранными по одной методологии на сопоставимых выборках)
— из вызывающих доверие источников

Например, этот график, построенный на базе данных террористических актов Мэрилендского университета который показывает количество терактов, совершенных в мире с 1970 по 2014 год. На графике сразу видно, что датасет не полон — данных за 1993 год нет.

Данные нужно готовить таким образом, чтобы в каждой колонке данные находились в одном формате (даты, значит только даты), все значения (и количественные и качественные) были в одном единообразном формате, т. е. если в колонке есть ошибки в написании слов Массква, Москва, г. Москва, все должно быть приведено к одному значению. Какие-то колонки при необходимости нужно разбить, какие-то, напротив, свести в одну.

Скажем, таблицы, представленные на сайте Росстата непригодны для автоматизированной работы с ними. Они не консистентны, то есть строки могут содержать значения разного уровня вложенности: «итого», «в том числе», «из них от». Такую таблицу можно только изучать взглядом, но не проводить по ней анализ и строить графики. Ту же таблицу про причины смертности можно было бы переделать, например, так:

Мы оставили только данные одного уровня вложенности, категории перенесли в отдельную колонку, для под категорий сделали еще одну.

Подготовительная работа крайне важна. От нее зависит не только насколько удобно вам будет работать в аналитической программе или программе для визуализации данных, но и то, насколько корректными будут ваши выводы и графики в итоге.

Иногда, подготовительная работа (поиск, сбор, подготовка, очистка данных) занимает до 80-90% от всего времени работы над проектом. И это нормально.

##

Я планирую закончить эту книгу к июлю-августу 2019 года, публикуя по главе или ее части в 1-2 недели. Обо всех обновлениях в книге вы можете узнавать в моем канале, посвященном визуализации данных — «Чартомойка» (если ссылка не открывается, попробуйте просто в поиске Телеграма набрать «Чартомойка»)

##

Оглавление

Ранее Ctrl + ↓