Об основах статистики

Для того, чтобы уверенно чувствовать себя с данными, желательно ознакомиться хотя бы с азами статистики или воскресить в памяти институтский курс статистики, если он у вас был. (Выборки, среднее, медиана, вот это всё). Это нужно для того, чтобы избежать бессмысленных вычислений и бессмысленных визуализаций данных.
Вот, например, карта России, угадайте, какой показатель здесь закодирован оттенками цвета?

Картограммы с сайта http://russia.duck.consulting/ на основе данных Росстата

Это население субъектов РФ. Естественно, темнее всего Москва, Московская область, Санкт-Петербург и Краснодарский край. И если любые статистические данные по регионам России не приводить к количеству населения, то вы почти всегда будете получать подобную карту. Иными словами, важно понять, не сколько именно было жертв ДТП в каждом регионе за год, а сколько этих жертв было на каждую тысячу проживающих в регионе.

Вот карта количества чиновников по регионам в абсолютных числах. То есть сколько в каждом регионе чиновников. И она почти идентична карте, показывающей население:

А это количество чиновников на 1000 человек трудоспособного возраста:

Картина меняется радикально. Теперь напротив, самыми темными оказались регионы с наименьшим количество жителей. Данные по регионам почти всегда нужно нормировать, т. е. приводить к количеству населения или площади.

Или, например, нельзя вольно обращаться с производными из абсолютных значений, например, долями в процентах от целого. В большинстве случаев нельзя их просто так складывать, или высчитывать из них среднее.

Допустим, нам известно, что в России аллергией страдает 18% взрослых и 21% детей. Из этого, разумеется, не следует, что всего аллергией страдает 39% населения, как сделано в показанной выше картинке. Но из этого и не следует, что всего среди населения процент аллергии равен 19% ((18+21%)/2). Чтобы точно узнать ответ на этот вопрос, нужно знать сколько всего взрослых и детей среди общего количества населения. Допустим, детей 10%, а взрослых — 90%. Значит, чтобы рассчитать средний процент, нужно провести следующие вычисления (90*0,18 + 10*0,21)/100 = (16,2 + 2,1)/100 = 18,3%.

Всем рекомендую пройти курс по основам статистики (там есть еще вторая и третья часть). Без понимания основ статистики вероятность того, что вы будете делать некорректные графики, очень высока.

##

Я планирую закончить эту книгу к июлю-августу 2019 года, публикуя по главе или ее части в 1-2 недели. Обо всех обновлениях в книге вы можете узнавать в моем канале, посвященном визуализации данных — «Чартомойка» (если ссылка не открывается, попробуйте просто в поиске Телеграма набрать «Чартомойка»)

##

Оглавление

Поделиться
Отправить
Запинить
5 апреля   анализ   статистика
Популярное