На самой первой лекции по анализу данных для наших магистров ВМК МГУ я рассказываю про визуализацию. Начинаю лекцию с небольшого исторического обзора, главная цель которого — объяснить, что «рисовать данные» люди начали относительно недавно. Ниже некоторые примеры из лекции (смотрите ссылки, там есть интересные вещи)…
Необходимость визуализации данных продемонстрировал Энскомб с помощью четырёх наборов, см. рис. 1, у которых одинаковые статистические характеристики. Это двумерные наборы данных, по каждой переменной у них совпадают средние, оценки дисперсии, они имеют одинаковые коэффициенты корреляции между переменными, а также уравнения линейной регрессии, построенные с помощью метода наименьших квадратов.

Не смотря на такую «статистическую идентичность», мы видим, что это совсем разные наборы с точки зрения выбора модели, описывающей данные. Первый набор — линейная модель с шумом, на второй видна квадратичная зависимость, третий — линейная с выбросом, последний — константа с выбросом.
Интересно, что графика как средство визуализации идей стала интенсивно развиваться совсем недавно: в 18 веке. Здесь стоит упомянуть Джозефа Пристли (тот самый, кто открыл кислород), который на шкале времени изображал жизни великих людей, расцветы империй и т.п. Всё это для иллюстрации истории. На досуге посмотрите его картинки, не во всех современных учебниках истории так изображают ключевые даты.

Уильям Плейфэр изобрёл линейчатый график, гистограммы, секторную диаграмму в круге и круговую диаграмму (да-да, всё это начало интенсивно использоваться только в конце 18 — начале 19 веков).

Во многих книгах по анализу данных приводят карты Шарля Жозефа Минара как пример удачной инфографики (это уже 19 век). Кстати, на рис. 4 изображена инфографика, которую неформально считают «самой популярной». Часто упоминают Флоренс Найтингел — изобретательницу диаграммы «Петушиный гребень», с помощью которой удалось объяснить потери Великобритании в Крымской войне.

В середине 19 века появляется протоанализ данных, т.е. примеры постановок и успешных решений задач анализа данных, который ещё не стал наукой, поскольку не очертил сферу своей компетентности, не выработал аппарат для решения стандартных задач и не нашёл «постоянных приверженцев». Один из первых крупных успехов — история британского врача Джона Сноу, который «победил» вспышку холеры на Брод-стрит в 1854 году (читайте по ссылке). Да, вопрос «кто такой Джон Сноу?» — очень хороший для проверки знания истории анализа данных.

Сейчас мы живём во время, когда красивой визуализацией уже никого не удивишь… Например, такой климат-картой, иллюстрацией опроса зрителей сериала или графиками к статье. Что и зачем рисовать при решении задач машинного обучения — расскажем в следующей части поста.
[…] В одном из прошлых постов я рассказал, с чего начинаю тему о визуализации данных в своём курсе. Теперь расскажу, как я её продолжаю… […]
«Ничего ты не знаешь, Джон Сноу!» (C) Game of Thrones
Здравствуйте, Александр Геннадьевич!
Вдруг Вам будет интересно: визуализация распространения и мутирования вирусов и инфекций. https://nextstrain.org/ncov
Спасибо! Да, красиво:) хоть и немного трагично.
Наткнулся на пару лекций-выступлений по визуализации, возможно вам будет интересно
https://github.com/dipanjanS/art_of_data_visualization
Fernanda Viégas, Martin Wattenberg (Google Brain) Visualization for Machine Learning
Нажмите для доступа к Visualization_for_ML.pdf