<?xml version="1.0" encoding="utf-8"?> 
<rss version="2.0">

<channel>

<title>Книга «Графики, которые убеждают всех», заметки с тегом: подготовка</title>
<link>http://visualthink.ru/book/tags/podgotovka/</link>
<description></description>
<generator>E2 (v3254; Aegea)</generator>

<item>
<title>Качество данных</title>
<guid isPermaLink="false">11</guid>
<link>http://visualthink.ru/book/all/kachestvo-dannyh/</link>
<comments>http://visualthink.ru/book/all/kachestvo-dannyh/</comments>
<description>&lt;p&gt;К данным, к тому как они собраны, как они организованы и подготовлены, предъявляются определенные требования. В конечном итоге, визуализация данных — это уже следующий за их подготовкой и анализом этапом. И если на подготовительном этапе возникли были ошибки, то их представление, как бы грамотно сделано не было, будет не многого стоить.&lt;/p&gt;
&lt;p&gt;Данные должны быть по возможности:&lt;br /&gt;
— максимально свежими&lt;br /&gt;
— целостными, полными, консистентными&lt;br /&gt;
— сравнимыми (собранными по одной методологии на сопоставимых выборках)&lt;br /&gt;
— из вызывающих доверие источников&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="http://visualthink.ru/book/pictures/0301_terror@2x.png" width="610" height="416.5" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;Например, этот график, построенный на &lt;a href="https://www.start.umd.edu/gtd/"&gt;базе данных террористических актов&lt;/a&gt; Мэрилендского университета который показывает количество терактов, совершенных в мире с 1970 по 2014 год. На графике сразу видно, что датасет не полон — данных за 1993 год нет.&lt;/p&gt;
&lt;p&gt;Данные нужно готовить таким образом, чтобы в каждой колонке данные находились в одном формате (даты, значит только даты), все значения (и количественные и качественные) были в одном единообразном формате, т. е. если в колонке есть ошибки в написании слов Массква, Москва, г. Москва, все должно быть приведено к одному значению. Какие-то колонки при необходимости нужно разбить, какие-то, напротив, свести в одну.&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="http://visualthink.ru/book/pictures/0301_table_gks.png" width="1513" height="775" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;Скажем, таблицы, представленные на сайте &lt;a href="http://gks.ru"&gt;Росстата &lt;/a&gt; непригодны для автоматизированной работы с ними. Они не консистентны, то есть строки могут содержать значения разного уровня вложенности: «итого», «в том числе», «из них от». Такую таблицу можно только изучать взглядом, но не проводить по ней анализ и строить графики. Ту же таблицу про причины смертности можно было бы переделать, например, так:&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="http://visualthink.ru/book/pictures/0301_table_gks01.png" width="1448" height="725" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;Мы оставили только данные одного уровня вложенности, категории перенесли в отдельную колонку, для под категорий сделали еще одну.&lt;/p&gt;
&lt;p&gt;Подготовительная работа крайне важна. От нее зависит не только насколько удобно вам будет работать в аналитической программе или программе для визуализации данных, но и то, насколько корректными будут ваши выводы и графики в итоге.&lt;/p&gt;
&lt;p&gt;&lt;b&gt;Иногда, подготовительная работа (поиск, сбор, подготовка, очистка данных) занимает до 80-90% от всего времени работы над проектом. И это нормально.&lt;/b&gt;&lt;/p&gt;
&lt;p&gt;##&lt;/p&gt;
&lt;p&gt;Я планирую закончить эту книгу к июлю-августу 2019 года, публикуя по главе или ее части в 1-2 недели. Обо всех обновлениях в книге вы можете узнавать в моем канале, посвященном визуализации данных — &lt;a href="http://t.me/chartomojka"&gt; «Чартомойка»&lt;/a&gt; (если ссылка не открывается, попробуйте просто в поиске Телеграма набрать «Чартомойка»)&lt;/p&gt;
&lt;p&gt;##&lt;/p&gt;
&lt;p&gt;&lt;a href="http://visualthink.ru/book/all/grafiki-kotorye-ubezhdayut-vseh/"&gt;Оглавление&lt;/a&gt;&lt;/p&gt;
</description>
<pubDate>Fri, 29 Mar 2019 12:54:25 +0300</pubDate>
</item>


</channel>
</rss>