Визуализация (часть 0)

На самой первой лекции по анализу данных для наших магистров ВМК МГУ я рассказываю про визуализацию. Начинаю лекцию с небольшого исторического обзора, главная цель которого — объяснить, что «рисовать данные» люди начали относительно недавно. Ниже некоторые примеры из лекции (смотрите ссылки, там есть интересные вещи)…

picture

Необходимость визуализации данных продемонстрировал Энскомб с помощью четырёх наборов, см. рис. 1, у которых одинаковые статистические характеристики. Это двумерные наборы данных, по каждой переменной у них совпадают средние, оценки дисперсии, они имеют одинаковые коэффициенты корреляции между переменными, а также уравнения линейной регрессии, построенные с помощью метода наименьших квадратов.

enscombe.png
Рис. 1. Квартет Энскомба

Не смотря на такую «статистическую идентичность», мы видим, что это совсем разные наборы с точки зрения выбора модели, описывающей данные. Первый набор — линейная модель с шумом, на второй видна квадратичная зависимость, третий — линейная с выбросом, последний — константа с выбросом.

Интересно, что графика как средство визуализации идей стала интенсивно развиваться совсем недавно: в 18 веке. Здесь стоит упомянуть Джозефа Пристли (тот самый, кто открыл кислород), который на шкале времени изображал жизни великих людей, расцветы империй и т.п. Всё это для иллюстрации истории. На досуге посмотрите его картинки, не во всех современных учебниках истории так изображают ключевые даты.

pristrey.png
Рис. 2. Визуализация истории Д. Пристли

Уильям Плейфэр изобрёл линейчатый график, гистограммы, секторную диаграмму в круге и круговую диаграмму (да-да, всё это начало интенсивно использоваться только в конце 18 — начале 19 веков).

pleyfer.png
Рис. 3. Инфографика Плейфера.

Во многих книгах по анализу данных приводят карты Шарля Жозефа Минара как пример удачной инфографики (это уже 19 век). Кстати, на рис. 4 изображена инфографика, которую неформально считают «самой популярной». Часто упоминают Флоренс Найтингел — изобретательницу диаграммы «Петушиный гребень», с помощью которой удалось объяснить потери Великобритании в Крымской войне.

minar.png
Рис. 4. Визуализация вторжения Наполеона в Россию (Ш.Ж. Минар)

В середине 19 века появляется протоанализ данных, т.е. примеры постановок и успешных решений задач анализа данных, который ещё не стал наукой, поскольку не очертил сферу своей компетентности, не выработал  аппарат для решения стандартных задач и не нашёл «постоянных приверженцев». Один из первых крупных успехов — история британского врача Джона Сноу, который «победил» вспышку холеры на Брод-стрит в 1854 году (читайте по ссылке). Да, вопрос «кто такой Джон Сноу?» — очень хороший для проверки знания истории анализа данных.

JohnSnow
Рисунок Джона Сноу.

Сейчас мы живём во время, когда красивой визуализацией уже никого не удивишь… Например, такой климат-картой, иллюстрацией опроса зрителей сериала или графиками к статье. Что и зачем рисовать при решении задач машинного обучения — расскажем в следующей части поста.

 

 

 

Реклама

Визуализация (часть 0): Один комментарий

Добавить комментарий

Заполните поля или щелкните по значку, чтобы оставить свой комментарий:

Логотип WordPress.com

Для комментария используется ваша учётная запись WordPress.com. Выход / Изменить )

Фотография Twitter

Для комментария используется ваша учётная запись Twitter. Выход / Изменить )

Фотография Facebook

Для комментария используется ваша учётная запись Facebook. Выход / Изменить )

Google+ photo

Для комментария используется ваша учётная запись Google+. Выход / Изменить )

Connecting to %s