Книга «Графики, которые убеждают всех»

Автор: Александр Богачев
Об авторе | Канал в Телеграме | Фейсбук

Графики, которые убеждают всех

Пособие для менеджеров, аналитиков, предпринимателей, маркетологов и всех, кто делает презентации и графики

Книга публикуется постепенно, частями и главами. Первая глава опубликована 22 февраля 2019 года. Текст в оглавлении по мере готовности глав будет заменяться ссылками. За обновлениями можно следить на этой странице или в канале «Чартомойка»

Обновление от 27 марта 2020 года. Книга полностью готова! И в ближайшее время будет опубликована на сайте litres.ru издательством АСТ. Следите за дальнейшими анонсами в канале и на этой странице.

Обновление от 8 апреля 2020 года. Книга вышла!! Доступна для скачивания по ссылке: https://www.litres.ru/aleksandr-bogachev/grafiki-kotorye-ubezhdaut-vseh/

Обновление от 21 августа 2020 года. Печатная версия доступна для предзаказа! https://planeta.ru/campaigns/142321

Печатную версию книги отныне можно купить в популярных книжных магазинах:

Покупаем, читаем, пишем отзывы, если понравилась — советуем друзьям и коллегам.

Лабиринт: https://www.labirint.ru/books/772379/
Буквоед: https://www.bookvoed.ru/book?id=10497909
Озон: https://www.ozon.ru/context/detail/id/200373285
Читай-Город: https://www.chitai-gorod.ru/catalog/book/1273187/
Бук24: https://book24.ru/product/grafiki-kotorye-ubezhdayut-vsekh-5873820/
My-shop: https://my-shop.ru/shop/product/4243329.html

В дополнение к книге для скачивания доступен постер бесплатно: https://www.notion.so/6c5ae8ceb8b5411e907c93c9b5e6a44e

ОГЛАВЛЕНИЕ

Введение

Первая глава. Общее понимание о процессе

Вторая глава. Понимать свою задачу и аудиторию

Третья глава. Формулируем сообщение

Четвертая глава. Выбор визуализации

  • Просто число
  • Слово о таблицах
  • Как образуется визуализация
  • Типа взаимоотношений внутри данных
  • Какие задачи у визуализации
  • Какие графики люди считывают лучше
  • Выбор визуализации — ключевой этап
  • Ошибки в датавиз

Пятая глава. Основные виды данных, как их визуализировать и чем заменять в сложных случаях.

  • Общая таблица
  • Основные трудности и пути их решения
  • Как показывать результаты опросов
  • Как можно визуализировать бюджет нагляднее

Шестая и седьмая. Убрать лишнее. Оформление/Дизайн/Акценты

  • Когнитивная нагрузка
  • Теория близости
  • Предвнимательные атрибуты
  • Стандартные настройки Экселя и что с ними делать
  • Фон
  • Спецэффекты
  • Компоновка
  • Заголовок
  • Отступы
  • О шрифтах
  • Микротипографика
  • Цвет. Основы.
  • Легенды и подписи
  • Акценты

Восьмая глава. Тексты и аннотации

  • Аннотации
  • Источники
  • Важные пояснения

Девятая глава. Сборка презентации

  • Общие соображения
  • Анимация
  • Логическая структура
  • Дизайн презентаций
  • Ритм

В качестве завершения

Главное в третьей главе

  • Убеждает не график, а данные
  • Чтобы график был убедительным, нужно хорошо разбираться в теме
  • Основа аналитики: вопросы и проверка гипотез.
  • Ищите интерпретацию находок, сделанных в результате анализа
  • Не подгоняйте презентацию и графики под заранее придуманные выводы
  • Старайтесь быть честным с вашей аудиторией.

##

Я планирую закончить эту книгу к июлю-августу 2019 года, публикуя по главе или ее части в 1-2 недели. Обо всех обновлениях в книге вы можете узнавать в моем канале, посвященном визуализации данных — «Чартомойка» (если ссылка не открывается, попробуйте просто в поиске Телеграма набрать «Чартомойка»)

##

Оглавление

Про объективность, честность, непредвзятость

Вы можете очень хотеть убедить кого-то в чем-то, но если данные этого не подтверждают, не стоит пытаться использовать различные ухищрения для того, чтобы произвести нужное вам впечатление. Возможно, в краткосрочной перспективе вы будете убедительны, но рано или поздно правда раскроется.

Не секрет, что статистика и визуализация данных могут лгать. На самом деле, они вообще никогда не говорят правду, это всегда взгляд с той или иной степенью точности по отношению к реальности, но вы можете стремиться к объективности, насколько это возможно.

Классический пример, рост ВВП в годы индустриализации в СССР. Если мы возьмем уровень ВВП СССР и ведущих капиталистических стран в 1928 году за ноль и попробуем пересчитать, как изменился за ВВП за 10 лет в процентах к исходному, то нашему взору откроется вот такая картина.

«График патриота»

Примерно по тому же принципу в СССР строились пропагандистские графики (мелким шрифтом написано «На сравнимой территории в процентах к 1937 году»):

И все же, разве что-то неверно? СССР, страна, пережившая гражданскую войну и революцию, показывает феноменальные темпы роста ВВП, обгоняя ведущие капиталистические страны. Экономика СССР развивается быстрее всех в мире! Обманывает ли этот график? С одной стороны, числа, на основе которых он построен — верные, с другой стороны, если мы возьмем абсолютные значения, то получим совершенно другое впечатление:

«График либерала»

Оказывается в абсолютных числах рост не такой впечатляющий. Несмотря на успехи, отставание от ведущих стран остается кратным. Плюс, СССР в этом графике стартовал с очень низкой базы. 1927-28 годы — этот период, когда экономика только восстановилась до уровня 1913 года.
Так какой из графиков верный и какой именно показывать? Разумеется, это зависит от задачи и от ситуации. Каждый из график даёт разный взгляд на одну и ту же ситуацию, но если вы хотите быть максимально непредвзятыми, то имеет смысл показать оба.

##

Я планирую закончить эту книгу к июлю-августу 2019 года, публикуя по главе или ее части в 1-2 недели. Обо всех обновлениях в книге вы можете узнавать в моем канале, посвященном визуализации данных — «Чартомойка» (если ссылка не открывается, попробуйте просто в поиске Телеграма набрать «Чартомойка»)

##

Оглавление

Формулируем сообщение

Вспомним теперь о том, что визуализация данных — инструмент в нашей коммуникации. Чтобы наша коммуникация состоялась, нам нужно сообщение. И чем это сообщение сильнее, тем выше вероятность того, что наша коммуникация будет эффективной.

Для того, чтобы сформулировать наше сообщение, нам и нужен процесс анализа данных. Сообщение нужно формулировать после анализа или в процессе, но никак не до, пытаясь подогнать данные и графики под готовые заранее мысли или шаблоны.

Хайкин Гонсалес Вейра («Гардиан»)

Сообщение обычно формулируется в терминах трендов, паттернов, изменения динамики, характера распределения, связи одних данных с другими. Например, повышение/снижение; сезонность, характер роста, сравнение относительно других; занимаемое место и т. д. Иными словами, по результатам анализа этого датасета, мы можем сформулировать несколько сообщений (важных и интересных вещей, которые мы обнаружили), часть из которых мы можем попробовать донести с помощью графиков.

Чтобы окончательно сформулировать ваше сообщение, скорее всего вам потребуется как-то интерпретировать то, что вы нашли внутри датасета. Для этого вам нужно будет найти человека, который хорошо понимает, как эти данные связаны с реальностью. Либо самому стать таким человеком. Иногда наиболее интересные выводы появляются там, где данные и ваши аналитические находки расходятся с мнением экспертов. За этим может лежать настоящая история и настоящее расследование.

Более того, иногда информация в реальном мире может стать отправной точкой для ваших вопросов к данным и анализа. То есть эксперт говорит вам, что многие сотрудники со стажем работы 1-2 года покидают компанию, и вы можете запросить и подготовить данные, которые это подтверждают (или, напротив, опровергают).

Общаясь с экспертом, будьте однако осторожны, чтобы не совершить другую ошибку, когда еще до начала анализа данных, вы уже имеете некое представление о том, что в них должно быть. Тогда анализа данных не происходит вовсе, или находки игнорируются. Еще хуже — когда у вас уже заготовлены слайды с определенным посылом, в которые вы просто хотите вставить подтверждающие ваши заготовки графики. Но в реальности может оказаться, что данные, а вслед за ними и графики вовсе не подтверждают то, что вы хотели сказать. Это одна из причин, почему мы часто видим слайды, графики на которых противоречат заголовкам.

##

Я планирую закончить эту книгу к июлю-августу 2019 года, публикуя по главе или ее части в 1-2 недели. Обо всех обновлениях в книге вы можете узнавать в моем канале, посвященном визуализации данных — «Чартомойка» (если ссылка не открывается, попробуйте просто в поиске Телеграма набрать «Чартомойка»)

##

Оглавление

Процесс анализа. Создание новых данных и новых групп

Чаще всего, чтобы найти что-то действительно важное и значимое в датасете, вам придется создавать сводные таблицы или новые данные внутри набора.

Уровень аггрегированности («обобщенности») данных может быть разным. Скажем, в таблице с зарплатами тренеров данные представлены в неаггрегированной форме, для каждого тренера — отдельная строка с уровнем годовой зарплаты в абсолютных числах. Как вы помните, инструмент Гугл Таблиц для анализа самостоятельно догадался провести аггрегацию по результату команд, и посчитал среднюю для команд, не вышедших из группы и прошедших до соответствующей стадии турнира на выбывание.

Иногда же таблицы к вам поступают (например, от аналитиков) уже аггрегированными. Это удобно, так как вам не нужно проводить эту работу, но в зависимости от самих исходных данных, их аггрегация может приводить к существенному искажению понимания того, что на самом деле содержится в данных.

Возьмем таблицу со статистикой посещаемости первого сезона программы «Вдудь»

Сначала проведем статистический анализ, а затем приступим к визуальному, в ходе которого будем создавать поисковые визуализации данных. Для них оформление не имеет существенного значения, как для финальных графиков, которые готовятся к размещению в презентации или для публикации, так что мы просто оставим стандартные настройки нашей программы для визуального анализа (в данном случае работа проведена в Tableau).

Прежде всего получим ключевые числа, описывающие датасет. Общее количество просмотров всех роликов: чуть более 124 млн, всего роликов за период — 34, среднее количество просмотров каждого ролика — 3,64 млн, минимальное (режиссер Хлебников) — 1,6 млн, максимальное (Слава КПСС) — 6,6 млн. Первый ролик вышел 7 февраля, последний — 18 октября 2017 года.

#Создание новых данных внутри датасета
Первым делом посмотрим динамику просмотров по датам:

Очень удачная визуализация, которая дает представление о взлетах и падениях в популярности выпусков, позволяет увидеть наиболее и наименее популярные ролики. Для того, чтобы нагляднее увидеть распределение выпусков по датам и обнаружить значительный по времени перерыв, заменим в этой визуализации линейный график на столбиковую диаграмму.

Становится интересно, в какие дни чаще всего выходили интервью, смотрим.

Выпусков в среду было меньше, чем во вторник, но медианное количество просмотров у них больше.

Чтобы понять почему, посмотрим, какие именно интервью пришлись на среду. Это БэдКомедиан, Гнойный, Фейс и Познер.

Однако, разумеется, вторничные просмотры принесли гораздо больше трафика, чем какие-либо другие.

Самое время более наглядно изучить, какие ролики самые популярные, а какие наоборот.

Сделаем сноску и укажем, что по-хорошему, конечно, надо было вводить поправки — на то, насколько долго ролик находится «в ротации» и на количество подписчиков в момент выхода программы (особенно это актуально для последних роликов, так ролик Познера добавлен ровно в день составления датасета и он, конечно, не совсем репрезентативен) — но для упрощения сейчас эти моменты опустим.

Что еще может нас заинтересовать, это распределение роликов по месяцам и количеству просмотров.

Мы, разумеется, не охватили и половины того, что могли бы проанализировать. Однако, в процессе даже этого, беглого анализа, мы уже аггрегировали и создавали новые данные в наборе! Мы аггрегировали, когда считали распределение количества роликов по дням недели и месяцам, распределение по просмотрам. Мы создавали новые данные, когда считали процент просмотров, пришедшихся на разные дни недели.

Новые данные в набор мы можем добавить и из других датасетов (скажем, даты рождения участников) или определить самостоятельно. Давайте, например, добавим новую колонку — в которой укажем основную область деятельности участников интервью.

Теперь мы можем не только посчитать, кого Дудь зовет чаще всего, но и узнать, персонажи из каких сфер людям интересны больше.

Или даже посмотреть, когда именно и как часто гости из разных областей приходили к Дудю и сколько людей посмотрело ролики с их участием.

Как видите, чтобы находить в датасетах интересное, вам наверняка придется аггрегировать данные, и создавать новые данные (количественные и качественные).

И вы можете, например, обнаружить следующее:

##

Я планирую закончить эту книгу к июлю-августу 2019 года, публикуя по главе или ее части в 1-2 недели. Обо всех обновлениях в книге вы можете узнавать в моем канале, посвященном визуализации данных — «Чартомойка» (если ссылка не открывается, попробуйте просто в поиске Телеграма набрать «Чартомойка»)

##

Оглавление

Быть аналитиком. Задавать вопросы

Люди учатся на аналитиков данных несколько лет, однако все знания, которые они получают, нам не нужны — достаточно основ.

Как в целом устроен процесс изучения ваших данных? Он обычно состоит из двух основных подходов:
— Статистического и
— Визуального.

Статистические методы обычно используются для того, чтобы узнать:
— Количество значений внутри каждой категории
— Распределение значений внутри категории, т. е. какие значения встречаются чаще, какие реже
— Суммирующие показатели: сумма всех значений, сумма за периоды, суммы по категориям, среднее и медиана
— Максимальные и минимальные значения и т. д.

Визуальный анализ позволяет находить значительно более тонкие взаимоотношения внутри данных. Например то, что мы делали в первой главе, про сыр — мы смогли выяснить, что доля продаж на рынке одних сыров выросла, а других уменьшилась, — именно в результате визуального анализа.

Визуальный анализ позволяет быстро понять тренды, тенденции, паттерны, характер распределения и взаимосвязи между значениями внутри набора данных.

К сожалению, не существует какого-то общепринятого алгоритма статистического и визуального анализа. Очевидно, что если пытаться перебирать все возможные виды переменных, срезов, фильтров, и их сочетаний друг с другом, то число комбинаций при достаточно большом датасете будет стремиться к бесконечности. Создание и анализ всех этих визуальных форм будет занимать слишком много времени. Поэтому проверяют обычно сначала важное, а потом ищут интересное.

Поэтому же до сих пор не существует автоматического инструмента для аналитиков, хотя логику статистического и визуального анализа можно понять, загрузив свою таблицу в Google Spreadsheet и нажав в правом нижнем углу кнопку «Анализ данных». Там будут сначала ключевые числа, описывающие датасет, а затем сводные таблицы и графики на основе комбинации ваших колонок. Давайте загрузим в Гугл Таблицы данные о зарплате тренеров и результатах команд прошедшего в 18 году чемпионата мира по футболу:

В правом нижнем углу рабочей области есть зеленая кнопка Анализ данных, нажмем на неё, предварительно выделив колонку с зарплатами.

Сверху мы получаем результаты статического анализа — ключевые значения, описывающие колонку с числами.

Теперь расширим диапазон на всю таблицу. Мы получим гораздо больше результатов автоматизированного анализа. Листайте галерею скриншотов:

Как видите весьма неплохо! Мы узнали многое об этих данных. Это и ключевые значения, описывающие весь датасет, и сводные таблицы, и поисковые визуализации, которые мы скорее всего бы сделали сами, начиная изучать этот набор данных.
Конечно, они далеки от оптимальных: и по выбору, и по оформлению. В гистограмме, скажем, хочется поменять диапазоны интервалов на кратные «круглым» значениям:

Однако работа функции Анализ данных хорошо показывает процесс анализа данных и основные компоненты этого процесса. В том числе создание сводных таблиц, необходимых для получения аггрегированных, «обобщенных» данных. Что это такое и зачем нужно, мы обсудим немного позже.

Основные показатели, которые обычно включаются в анализ:
— Макс/мин/сред
— Количество значений/количество разных значений
— Процент к целому
— Разница (со средним/с прошлым годом и т. д.)/разница в процентах
— Распределение внутри категории
— Динамика
— Топ-5, Топ-10

В целом, оба этапа строятся на том, что вы задаете вопросы и проверяете определенные гипотезы, пытаясь найти важное и интересное в вашем датасете. И ваша цель в процессе получения ответов — понять какие значения в вашем наборе данных встречаются чаще или реже, выявить тенденции и тренды, понять, что из них выбивается и т. д. Грубо говоря, вы «общаетесь» со своим набором данным, так как бы вы общались с человеком. Вы задаете вопросы, в процессе у вас появляются новые, вы проверяете гипотезы.

Вопросы могут быть такими:
— Кто лидеры рынка? Отстающие?
— В каком регионе максимальные продажи?
— Какой средний чек?
— Кто лидер по KPI?
— Как изменился уровень продаж за последние полгода?

Или гипотезы:
— Действительно ли есть зависимость между рекламной кампанией и ростом конверсии?
— Правда ли, что на конверсию в большей степени влияет канал продажи?

Вы можете задавать датасету все вопросы, которые вам кажутся важными. Возможно, в процессе визуального анализа вы зацепитесь за что-то или у вас возникнут новые мысли, которые вы захотите проверить. Вы продолжаете этот процесс, пока не почувствуете или поймете, что узнали, всё, что вам было нужно.

##

Я планирую закончить эту книгу к июлю-августу 2019 года, публикуя по главе или ее части в 1-2 недели. Обо всех обновлениях в книге вы можете узнавать в моем канале, посвященном визуализации данных — «Чартомойка» (если ссылка не открывается, попробуйте просто в поиске Телеграма набрать «Чартомойка»)

##

Оглавление

Об основах статистики

Для того, чтобы уверенно чувствовать себя с данными, желательно ознакомиться хотя бы с азами статистики или воскресить в памяти институтский курс статистики, если он у вас был. (Выборки, среднее, медиана, вот это всё). Это нужно для того, чтобы избежать бессмысленных вычислений и бессмысленных визуализаций данных.
Вот, например, карта России, угадайте, какой показатель здесь закодирован оттенками цвета?

Картограммы с сайта http://russia.duck.consulting/ на основе данных Росстата

Это население субъектов РФ. Естественно, темнее всего Москва, Московская область, Санкт-Петербург и Краснодарский край. И если любые статистические данные по регионам России не приводить к количеству населения, то вы почти всегда будете получать подобную карту. Иными словами, важно понять, не сколько именно было жертв ДТП в каждом регионе за год, а сколько этих жертв было на каждую тысячу проживающих в регионе.

Вот карта количества чиновников по регионам в абсолютных числах. То есть сколько в каждом регионе чиновников. И она почти идентична карте, показывающей население:

А это количество чиновников на 1000 человек трудоспособного возраста:

Картина меняется радикально. Теперь напротив, самыми темными оказались регионы с наименьшим количество жителей. Данные по регионам почти всегда нужно нормировать, т. е. приводить к количеству населения или площади.

Или, например, нельзя вольно обращаться с производными из абсолютных значений, например, долями в процентах от целого. В большинстве случаев нельзя их просто так складывать, или высчитывать из них среднее.

Допустим, нам известно, что в России аллергией страдает 18% взрослых и 21% детей. Из этого, разумеется, не следует, что всего аллергией страдает 39% населения, как сделано в показанной выше картинке. Но из этого и не следует, что всего среди населения процент аллергии равен 19% ((18+21%)/2). Чтобы точно узнать ответ на этот вопрос, нужно знать сколько всего взрослых и детей среди общего количества населения. Допустим, детей 10%, а взрослых — 90%. Значит, чтобы рассчитать средний процент, нужно провести следующие вычисления (90*0,18 + 10*0,21)/100 = (16,2 + 2,1)/100 = 18,3%.

Всем рекомендую пройти курс по основам статистики (там есть еще вторая и третья часть). Без понимания основ статистики вероятность того, что вы будете делать некорректные графики, очень высока.

##

Я планирую закончить эту книгу к июлю-августу 2019 года, публикуя по главе или ее части в 1-2 недели. Обо всех обновлениях в книге вы можете узнавать в моем канале, посвященном визуализации данных — «Чартомойка» (если ссылка не открывается, попробуйте просто в поиске Телеграма набрать «Чартомойка»)

##

Оглавление

Погружение в тему и контекст

Любые количественные значения, которыми наполнены ваши таблицы — это не просто циферки. Они возникают не из воздуха. За каждым значением стоит какой-то процесс или явление в реальном мире. И эти цифры что-то означают. Они собираются по какому-то принципу, следуя какой-то методологии, с какими-то интервалами, с какой-то погрешностью. И каждая из них описывает какой-то маленький аспект огромной многообразной реальности. Важно понимать, насколько достоверно и в каком качестве данные соотносятся с реальностью, какой контекст за ними стоит.

Одно из российских СМИ однажды опубликовало график, посвященный числу тех, кто эмигрировал из России по годам и сделало вывод, что в России так плохо, что в последние годы, начиная с 12, когда начался третий срок Путина, народ массово покидает страну. Шутка ли — 300 тысяч эмигрантов в год! Это население крупного областного центра.

Однако же данные эти на самом деле совсем неоднозначные. Структура того, что стоит за этими цифрами в разные периоды с начала 1990-х совершенно различна, различны даже те показатели, изменяющиеся значения которых отложены на оси.

Первое, о чем следует сказать, что за тот же период в Россию въехало в два раза больше людей.

И что более важно этот график о совершенно разных группах людей, и по-хорошему их вообще нельзя ставить на одну общую базовую линию. Оказывается, за последние 15 лет Росстат дважды менял методику подсчета мигрантов. С 1997 по 2006 учитывались только те, кто получил вид на жительство, с 2007 по 2011 — получившие разрешение на временное проживание, и с 12 года (как раз!) — стали считать всех, кто въехал на срок от 9 месяцев по любой причине.

Согласитесь, что между получением вида на жительства и въездом на срок от 9 месяцев, есть существенная разница. Куда же все уезжают? В основном это страны Средней Азии и Украина.

То есть на самом деле график показывает возросший объем трудовой миграции между странами бывшего СССР. Какая же доля уезжающих в страны дальнего зарубежья по сравнению с концом 90-х? Она стала гораздо меньше. Особенно хорошо количество уезжающих на Запад видно на этом графике.

Как видим, между 300 тысяч в год и 10 тысяч в год — огромная разница. Однако насколько этим данным Росстата можно доверять? Есть ли какие-то недочеты в их методологии? Да, конечно, они никак не учитывают тех, кто не снимался с учета в ФНС, а таких людей с каждом годом становится все больше. И на учет в консульствах западных стран встает гораздо больше россиян, чем фиксируется Росстатом (3-5 раз). Тем не менее, говорить о существенном росте количества этих людей нельзя.
Серые отсечки показывают уровень миграционного баланса с учетом консульств принимающих стран по самым заманчивым в плане эмиграции западным странам:

Вообще, в последние годы размывается само понятие эмиграции, и ее становится все сложнее отслеживать и фиксировать. Подробнее об этом можно почитать тут: https://ria.ru/20170322/1490498597.html

Без погружения в тему и понимания связи между данными и реальностью, создать эффективную, дающую инсайты визуализацию, практически невозможно.

Представьте, что ваша компания опиралась бы на анализ такого же уровня, который был сделан изначально? К каким неверным действиям это могло бы привести.

В каждой отрасли знания есть свои значимые аспекты. Для того, чтобы разобраться в них, если ваших знаний недостаточно, желательно пообщаться с тем, кто обладает экспертными компетенциями, с тем, кто непосредственно работает с этими данными. Если вы сотрудник, которого попросили сделать инфографику, то это именно ваша задача — обсудить с заказчиком, начальником или с тем, от кого эти данные пришли, что в них самое значимое, ключевое.

##

Я планирую закончить эту книгу к июлю-августу 2019 года, публикуя по главе или ее части в 1-2 недели. Обо всех обновлениях в книге вы можете узнавать в моем канале, посвященном визуализации данных — «Чартомойка» (если ссылка не открывается, попробуйте просто в поиске Телеграма набрать «Чартомойка»)

##

Оглавление

Качество данных

К данным, к тому как они собраны, как они организованы и подготовлены, предъявляются определенные требования. В конечном итоге, визуализация данных — это уже следующий за их подготовкой и анализом этапом. И если на подготовительном этапе возникли были ошибки, то их представление, как бы грамотно сделано не было, будет не многого стоить.

Данные должны быть по возможности:
— максимально свежими
— целостными, полными, консистентными
— сравнимыми (собранными по одной методологии на сопоставимых выборках)
— из вызывающих доверие источников

Например, этот график, построенный на базе данных террористических актов Мэрилендского университета который показывает количество терактов, совершенных в мире с 1970 по 2014 год. На графике сразу видно, что датасет не полон — данных за 1993 год нет.

Данные нужно готовить таким образом, чтобы в каждой колонке данные находились в одном формате (даты, значит только даты), все значения (и количественные и качественные) были в одном единообразном формате, т. е. если в колонке есть ошибки в написании слов Массква, Москва, г. Москва, все должно быть приведено к одному значению. Какие-то колонки при необходимости нужно разбить, какие-то, напротив, свести в одну.

Скажем, таблицы, представленные на сайте Росстата непригодны для автоматизированной работы с ними. Они не консистентны, то есть строки могут содержать значения разного уровня вложенности: «итого», «в том числе», «из них от». Такую таблицу можно только изучать взглядом, но не проводить по ней анализ и строить графики. Ту же таблицу про причины смертности можно было бы переделать, например, так:

Мы оставили только данные одного уровня вложенности, категории перенесли в отдельную колонку, для под категорий сделали еще одну.

Подготовительная работа крайне важна. От нее зависит не только насколько удобно вам будет работать в аналитической программе или программе для визуализации данных, но и то, насколько корректными будут ваши выводы и графики в итоге.

Иногда, подготовительная работа (поиск, сбор, подготовка, очистка данных) занимает до 80-90% от всего времени работы над проектом. И это нормально.

##

Я планирую закончить эту книгу к июлю-августу 2019 года, публикуя по главе или ее части в 1-2 недели. Обо всех обновлениях в книге вы можете узнавать в моем канале, посвященном визуализации данных — «Чартомойка» (если ссылка не открывается, попробуйте просто в поиске Телеграма набрать «Чартомойка»)

##

Оглавление

Третья глава. Формулируем сообщение

Именно ваши данные убеждают в конечном итоге, а не график или оформление. Именно в данных содержится смысл. Какое бы прекрасное оформление вы не сделали, если за графиком ничего не стоит, это не произведет впечатления. Это все равно как цветастый текст, полный воды, написанный для увеличения количества знаков, в котором мало смысла и много шаблонных фраз.

Если вы работаете в компании, то данные у вас наверняка есть, и их даже слишком много. Как правило, это бесконечные таблицы из многих тысяч строк. Возникает очевидный вопрос. Как из этих тысяч строк выбрать подходящие для презентации данные?

Ответ прост. Это то, что важно. То, что максимально соответствует вашей глобальной цели, то, что в рамках этой цели вас интересует в первую очередь, без чего эта цель не может быть осуществлена. То, от чего зависят конкретные действия в рамках решения этой задачи.

Процесс выбора нужных данных можно сравнить с процессом медицинского обследования пациента. В организме есть сотни параметров, которые врач умеет оценивать и дополнительно к этому — тысячи лабораторных анализов и других исследований. Однако при каждом посещении врача пациента не заставляют сдавать всё это. Есть несколько обязательных обследований, например, оценка артериального давления, пульса и частоты дыхания. Большинство остальных врач выбирает по ситуации, в соответствии с задачей, т. е. в соответствии с тем, является ли этот визит плановым или экстренным, в соответствии с тем, что пациент ему сообщает о своих текущих проблемах. Если визит плановый, то врач подберет профилактические диагностические мероприятия, или соответствующие той или иной болезни. А может быть, человек готовится заниматься спортом и ему требуется оценить свою физическую выносливость. Для этого будут подобраны другие анализы и обследования. То есть из многих тысяч параметров человеческого организма, которые ежедневно динамически меняются, врач выберет несколько, релевантных данной ситуации. Для какого-то случая врач может решить, что обследования здесь и вовсе не нужны, а нужны только конкретные действия, например, больше спать или бывать на свежем воздухе.

Только вы сами можете понять, что важно для конкретного отчета, презентации или научного исследования. В целом, можно сформулировать такое правило. Если у вас есть сомнения в том, нужны ли эти данные, значит скорее всего они не нужны.

С данными всегда что-то не так. Они всегда неполные, есть вопросы к методологии, не такие свежие, как >хотелось бы, не совсем в том формате, в каком нужно, с не совсем теми переменными, которые хотелось бы. Это >следует принимать как данность и стараться «выжать» максимум из имеющегося

Однажды, я помогал одному банку улучшить презентацию. Ребята говорили, что потенциальные клиенты с трудом «врубаются» в тему презентации и графики. При этом графики, как раз должны были по идее облегчать понимание. Я также как потенциальный читатель сначала пытался самостоятельно понять смысл графиков. На одним из них мое внимание привлекло сильное колебание цены, я подумал, что смысл графика именно в этом.

Однако оказалось, что слайд создан ради вот этого маленького фрагмента:

Этот фрагмент мы в итоге и превратили в слайд.

Оказалось, что в какой-то момент происходит важное событие (покупка клиентом валюты), на которое рынок (т. е. цена ценной бумаги) может отреагировать изменением или нет. В этом была ключевая мысль. При покупке через банк цена почти не менялась, при самостоятельной покупке — рынок реагировал резко и цена повышалась, так что для клиента дальнейшая покупка становилась невыгодной.

Финальная версия слайда была примерно такой:

Этот пример показывает как именно нужно относиться к большому массиву данных — выбирать из него только релевантные, максимально подходящие для ваших целей срезы: по времени, по категориям и т. д. Дальше мы будем обсуждать это подробнее.

Если продолжить аналогию с врачом, то представьте, что вне зависимости от пришедшего пациента и его ситуации, врач назначает всем одни и те же обследования, даже не взглянув на пациента и не пообщавшись с ним. Звучит абсурдно? Однако очень часто такое происходит с отчетами и презентациями, когда сотрудника просят сделать презентацию с графиками по «вот этой табличке». Сотрудник зачастую не тратит время на то, чтобы выяснить, зачем нужна эта презентация, какова ее цель и что в разрезе этой цели цифры обозначают, и просто визуализирует все, что можно будет визуализировать. Графики могут получится симпатичными, но вряд ли они будут улучшать понимание о том, что происходит. Потому что если этого понимания нет, у того, кто занимается графикой, его не будет и у того, кто ее смотрит.

##

Я планирую закончить эту книгу к июлю-августу 2019 года, публикуя по главе или ее части в 1-2 недели. Обо всех обновлениях в книге вы можете узнавать в моем канале, посвященном визуализации данных — «Чартомойка» (если ссылка не открывается, попробуйте просто в поиске Телеграма набрать «Чартомойка»)

##

Оглавление

2019   анализ
Ранее Ctrl + ↓