<?xml version="1.0" encoding="utf-8"?> 
<rss version="2.0">

<channel>

<title>Книга «Графики, которые убеждают всех», заметки с тегом: статистика</title>
<link>http://visualthink.ru/book/tags/statistika/</link>
<description></description>
<generator>E2 (v3254; Aegea)</generator>

<item>
<title>Быть аналитиком. Задавать вопросы</title>
<guid isPermaLink="false">14</guid>
<link>http://visualthink.ru/book/all/byt-analitikom-zadavat-voprosy/</link>
<comments>http://visualthink.ru/book/all/byt-analitikom-zadavat-voprosy/</comments>
<description>&lt;p&gt;Люди учатся на аналитиков данных несколько лет, однако все знания, которые они получают, нам не нужны — достаточно основ.&lt;/p&gt;
&lt;p&gt;Как в целом устроен процесс изучения ваших данных? Он обычно состоит из двух основных подходов:&lt;br /&gt;
— Статистического и&lt;br /&gt;
— Визуального.&lt;/p&gt;
&lt;p&gt;Статистические методы обычно используются для того, чтобы узнать:&lt;br /&gt;
— Количество значений внутри каждой категории&lt;br /&gt;
— Распределение значений внутри категории, т. е. какие значения встречаются чаще, какие реже&lt;br /&gt;
— Суммирующие показатели: сумма всех значений, сумма за периоды, суммы по категориям, среднее и медиана&lt;br /&gt;
— Максимальные и минимальные значения и т. д.&lt;/p&gt;
&lt;p&gt;Визуальный анализ позволяет находить значительно более тонкие взаимоотношения внутри данных. Например то, что мы делали в первой главе, про сыр — мы смогли выяснить, что доля продаж на рынке одних сыров выросла, а других уменьшилась, — именно в результате визуального анализа.&lt;/p&gt;
&lt;p&gt;Визуальный анализ позволяет быстро понять тренды, тенденции, паттерны, характер распределения и взаимосвязи между значениями внутри набора данных.&lt;/p&gt;
&lt;p&gt;К сожалению, не существует какого-то общепринятого алгоритма статистического и визуального анализа. Очевидно, что если пытаться перебирать все возможные виды переменных, срезов, фильтров, и их сочетаний друг с другом, то число комбинаций при достаточно большом датасете будет стремиться к бесконечности. Создание и анализ всех этих визуальных форм будет занимать слишком много времени. Поэтому проверяют обычно сначала &lt;b&gt;важное&lt;/b&gt;, а потом ищут &lt;b&gt;интересное&lt;/b&gt;.&lt;/p&gt;
&lt;p&gt;Поэтому же до сих пор не существует автоматического инструмента для аналитиков, хотя логику статистического и визуального анализа можно понять, загрузив свою таблицу в Google Spreadsheet и нажав в правом нижнем углу кнопку «Анализ данных». Там будут сначала ключевые числа, описывающие датасет, а затем сводные таблицы и графики на основе комбинации ваших колонок. Давайте загрузим в Гугл Таблицы данные о зарплате тренеров и результатах команд прошедшего в 18 году чемпионата мира по футболу:&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="http://visualthink.ru/book/pictures/0304_table_salaries@2x.png" width="597.5" height="917" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;В правом нижнем углу рабочей области есть зеленая кнопка Анализ данных, нажмем на неё, предварительно выделив колонку с зарплатами.&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="http://visualthink.ru/book/pictures/0304_table_salaries02@2x.png" width="837.5" height="494" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;Сверху мы получаем результаты статического анализа — ключевые значения, описывающие колонку с числами.&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="http://visualthink.ru/book/pictures/0304_table_salaries03.png" width="560" height="371" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;Теперь расширим диапазон на всю таблицу. Мы получим гораздо больше результатов автоматизированного анализа. Листайте галерею скриншотов:&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;div class="fotorama" data-width="542" data-ratio="1.0130841121495"&gt;
&lt;img src="http://visualthink.ru/book/pictures/0304_table_salaries04.png" width="542" height="535" alt="" /&gt;
&lt;img src="http://visualthink.ru/book/pictures/0304_table_salaries05.png" width="541" height="515" alt="" /&gt;
&lt;img src="http://visualthink.ru/book/pictures/0304_table_salaries06.png" width="538" height="470" alt="" /&gt;
&lt;img src="http://visualthink.ru/book/pictures/0304_table_salaries07.png" width="539" height="621" alt="" /&gt;
&lt;img src="http://visualthink.ru/book/pictures/0304_table_salaries08.png" width="541" height="663" alt="" /&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;p&gt;Как видите весьма неплохо! Мы узнали многое об этих данных. Это и ключевые значения, описывающие весь датасет, и сводные таблицы, и поисковые визуализации, которые мы скорее всего бы сделали сами, начиная изучать этот набор данных.&lt;br /&gt;
Конечно, они далеки от оптимальных: и по выбору, и по оформлению. В гистограмме, скажем, хочется поменять диапазоны интервалов на кратные «круглым» значениям:&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="http://visualthink.ru/book/pictures/0304_table_salaries09@2x.png" width="543.5" height="455" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;Однако работа функции Анализ данных хорошо показывает процесс анализа данных и основные компоненты этого процесса. В том числе создание сводных таблиц, необходимых для получения аггрегированных, «обобщенных» данных. Что это такое и зачем нужно, мы обсудим немного позже.&lt;/p&gt;
&lt;p&gt;Основные показатели, которые обычно включаются в анализ:&lt;br /&gt;
— Макс/мин/сред&lt;br /&gt;
— Количество значений/количество разных значений&lt;br /&gt;
— Процент к целому&lt;br /&gt;
— Разница (со средним/с прошлым годом и т. д.)/разница в процентах&lt;br /&gt;
— Распределение внутри категории&lt;br /&gt;
— Динамика&lt;br /&gt;
— Топ-5, Топ-10&lt;/p&gt;
&lt;p&gt;В целом, оба этапа строятся на том, что вы задаете вопросы и проверяете определенные гипотезы, пытаясь найти &lt;b&gt;важное &lt;/b&gt;и &lt;b&gt;интересное &lt;/b&gt;в вашем датасете. И ваша цель в процессе получения ответов — понять какие значения в вашем наборе данных встречаются чаще или реже, выявить тенденции и тренды, понять, что из них выбивается и т. д. Грубо говоря, вы «общаетесь» со своим набором данным, так как бы вы общались с человеком. Вы задаете вопросы, в процессе у вас появляются новые, вы проверяете гипотезы.&lt;/p&gt;
&lt;p&gt;Вопросы могут быть такими:&lt;br /&gt;
— Кто лидеры рынка? Отстающие?&lt;br /&gt;
— В каком регионе максимальные продажи?&lt;br /&gt;
— Какой средний чек?&lt;br /&gt;
— Кто лидер по KPI?&lt;br /&gt;
— Как изменился уровень продаж за последние полгода?&lt;/p&gt;
&lt;p&gt;Или гипотезы:&lt;br /&gt;
— Действительно ли  есть зависимость между рекламной кампанией и ростом конверсии?&lt;br /&gt;
— Правда ли, что на конверсию в большей степени влияет канал продажи?&lt;/p&gt;
&lt;p&gt;Вы можете задавать датасету все вопросы, которые вам кажутся важными. Возможно, в процессе визуального анализа вы зацепитесь за что-то или у вас возникнут новые мысли, которые вы захотите проверить. Вы продолжаете этот процесс, пока не почувствуете или поймете, что узнали, всё, что вам было нужно.&lt;/p&gt;
&lt;p&gt;##&lt;/p&gt;
&lt;p&gt;Я планирую закончить эту книгу к июлю-августу 2019 года, публикуя по главе или ее части в 1-2 недели. Обо всех обновлениях в книге вы можете узнавать в моем канале, посвященном визуализации данных — &lt;a href="http://t.me/chartomojka"&gt; «Чартомойка»&lt;/a&gt; (если ссылка не открывается, попробуйте просто в поиске Телеграма набрать «Чартомойка»)&lt;/p&gt;
&lt;p&gt;##&lt;/p&gt;
&lt;p&gt;&lt;a href="http://visualthink.ru/book/all/grafiki-kotorye-ubezhdayut-vseh/"&gt;Оглавление&lt;/a&gt;&lt;/p&gt;
</description>
<pubDate>Wed, 10 Apr 2019 12:50:49 +0300</pubDate>
</item>

<item>
<title>Об основах статистики</title>
<guid isPermaLink="false">13</guid>
<link>http://visualthink.ru/book/all/osnovy-statistiki/</link>
<comments>http://visualthink.ru/book/all/osnovy-statistiki/</comments>
<description>&lt;p&gt;Для того, чтобы уверенно чувствовать себя с данными, желательно ознакомиться хотя бы с азами статистики или воскресить в памяти институтский курс статистики, если он у вас был. (Выборки, среднее, медиана, вот это всё). Это нужно для того, чтобы избежать бессмысленных вычислений и бессмысленных визуализаций данных.&lt;br /&gt;
Вот, например, карта России, угадайте, какой показатель здесь закодирован оттенками цвета?&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="http://visualthink.ru/book/pictures/0302_rus_01@2x.png" width="653.5" height="206.5" alt="" /&gt;
&lt;div class="e2-text-caption"&gt;Картограммы с сайта &lt;a href="http://russia.duck.consulting/"&gt;http://russia.duck.consulting/&lt;/a&gt; на основе данных Росстата&lt;/div&gt;
&lt;/div&gt;
&lt;p&gt;Это население субъектов РФ. Естественно, темнее всего Москва, Московская область, Санкт-Петербург и Краснодарский край. И если любые статистические данные по регионам России не приводить к количеству населения, то вы почти всегда будете получать подобную карту. Иными словами, важно понять, не сколько именно было жертв ДТП в каждом регионе за год, а сколько этих жертв было на каждую тысячу проживающих в регионе.&lt;/p&gt;
&lt;p&gt;Вот карта количества чиновников по регионам в абсолютных числах. То есть сколько в каждом регионе чиновников. И она почти идентична карте, показывающей население:&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="http://visualthink.ru/book/pictures/0302_rus_02@2x.png" width="652.5" height="209" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;А это количество чиновников на 1000 человек трудоспособного возраста:&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="http://visualthink.ru/book/pictures/0302_rus_03@2x.png" width="653.5" height="206" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;Картина меняется радикально. Теперь напротив, самыми темными оказались регионы с наименьшим количество жителей. Данные по регионам почти всегда нужно нормировать, т. е. приводить к количеству населения или площади.&lt;/p&gt;
&lt;p&gt;Или, например, нельзя вольно обращаться с производными из абсолютных значений, например, долями в процентах от целого. В большинстве случаев нельзя их просто так складывать, или высчитывать из них среднее.&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="http://visualthink.ru/book/pictures/0302_sall@2x.png" width="645.5" height="158.5" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;Допустим, нам известно, что в России аллергией страдает 18% взрослых и 21% детей. Из этого, разумеется, не следует, что всего аллергией страдает 39% населения, как сделано в показанной выше картинке. Но из этого и не следует, что всего среди населения процент аллергии равен 19% ((18+21%)/2). Чтобы точно узнать ответ на этот вопрос, нужно знать сколько всего взрослых и детей среди общего количества населения. Допустим, детей 10%, а взрослых — 90%. Значит, чтобы рассчитать средний процент, нужно провести следующие вычисления (90*0,18 + 10*0,21)/100 = (16,2 + 2,1)/100 = 18,3%.&lt;/p&gt;
&lt;p&gt;Всем рекомендую пройти курс &lt;a href="https://stepik.org/course/76/"&gt;по основам статистики&lt;/a&gt; (там есть еще вторая и третья часть). Без понимания основ статистики вероятность того, что вы будете делать некорректные графики, очень высока.&lt;/p&gt;
&lt;p&gt;##&lt;/p&gt;
&lt;p&gt;Я планирую закончить эту книгу к июлю-августу 2019 года, публикуя по главе или ее части в 1-2 недели. Обо всех обновлениях в книге вы можете узнавать в моем канале, посвященном визуализации данных — &lt;a href="http://t.me/chartomojka"&gt; «Чартомойка»&lt;/a&gt; (если ссылка не открывается, попробуйте просто в поиске Телеграма набрать «Чартомойка»)&lt;/p&gt;
&lt;p&gt;##&lt;/p&gt;
&lt;p&gt;&lt;a href="http://visualthink.ru/book/all/grafiki-kotorye-ubezhdayut-vseh/"&gt;Оглавление&lt;/a&gt;&lt;/p&gt;
</description>
<pubDate>Fri, 05 Apr 2019 23:49:58 +0300</pubDate>
</item>


</channel>
</rss>