Отзывы на книги

На каникулах познакомился с тремя новыми книгами — публикую краткие отзывы.

  • Б. Фрэнкс «Революция в аналитике»
  • С. Кранц «Изменчивая природа математического доказательства»

  • К.А. Пиковер «Великая математика»

Читать далее

Лучшая графика 2015

Любители прекрасного, посмотрите самые лучшие визуализации уходящего года! Очень интересные и красивые, причём конкурс проходил в разных номинациях: визуализация данных, инфографика, интерактивная графика, графика в бизнес-проектах, в журналистике, студенческие работы, мобильные картинки, командные проекты, графика в коммерческом ПО. Читать далее

Текущий рейтинг Kaggle

В рейтинге Кэгла есть небольшое, но серьёзное изменение: впервые за долгое время сменился лидер, на первое место вышел Гилберто, потеснив «непобедимого» Оуэна. Отрыв небольшой и легко ликвидируется в одном соревновании, но, как я понимаю, Оуэн уже устал после своих 40 состязаний. Со статистикой, кстати, интересно — Читать далее

Соревновательные платформы

Публикую список известных (мне) соревновательных платформ, на которых выкладываются задачи по анализу данных. Платформы упорядочены по году запуска, указан этот год, среднее число соревнований в год, среднее число участников (команд) в одном соревновании, а также даны комментарии (указаны плюсы и минусы). Читать далее

Интересные визуализации

Это не самые замечательные визуализации и уже «старенькие». Просто одно из моих любимых заданий — просить студентов прислать понравившиеся им способы представления данных. Эти мне прислали в 2014 году. Вот всё руки не доходили выложить. Правда, я выложил только ссылки — многое присылали во вложениях. Читать далее

Блоги (анализ данных)

Список англоязычных блогов и агрегаторов информации по анализу данных. Только те, которые я сам регулярно просматриваю (они постоянно обновляются, информация подаётся удобно, много интересного по small data). Самые популярные я в список не вносил. В комментариях можно рассказать, что читаете вы… Читать далее

Интересные презентации

Просмотрел всевозможные презентации по спортивной аналитике, машинному обучению и анализу данных. Вот наиболее понравившиеся (в списке есть как уже давно известные, так и новые). Спасибо их авторам за ценную информацию! Читать далее

ММП ВМК МГУ (первая летопись)

На днях получили дипломы наши выпускники – последние специалисты (поскольку теперь ВМК перешёл на систему бакалавр+магистр) и первые бакалавры. Это повод поздравить их и написать небольшую заметку про историю нашей кафедры – Математических методов прогнозирования (ММП).

Читать далее

Новая система ранжирования в Kaggle

В рейтинге Кэгла ввели новую систему ранжирования дата-майнеров. За каждое соревнование теперь участник получает такое количество очков:

fm

Что изменилось:

  1. Теперь набранные очки не делятся между всеми участниками команды. Вместо деления на число членов команды производится деление на корень из этого числа. Поэтому объединяться в команды стало выгоднее.
  2. Уменьшилась зависимость от числа участников соревнования. Участвовать в непопулярных соревнованиях стало выгоднее.
  3. Теперь даже старые соревнования влияют на рейтинг, но очки экспоненциально уменьшаются при устаревании. Раньше — учитывались только турниры за последние 2 года.

Подробнее можно прочитать здесь. На распределение участников в топе текущего рейтинга это изменение особо не повлияло. Напомним, что рейтинг Кэгла существует с апреля 2012 года. Это единственный рейтинг прикладников в области статистики и машинного обучения. До настоящего момента чемпионами рейтинга становились:

Как видим, очень широкая география — 11 стран, 12 человек. Интересно, что формально Сергей Юргенсон и Джейсон Тигг никогда не были на вершине рейтинга, т.е. не было момента времени, когда они действительно возглавляли рейтинг. Но после введения новой системы — в их профиле указано, что если бы эта система применялась всё время, то они были бы чемпионами. Джереми Ховард формально тоже никогда не признавался чемпионом, поскольку на момент создания рейтинга он уже работал в компании Kaggle. Отметим, что трое из 12 чемпионов организовали свою компанию по анализу данных. В текущей десятке сильнейших — 6 экс-чемпионов, а двое полностью завершили свои выступления (Ховард и Тигг, кстати, возможно, самые лучшие).

Когда трясёт лидерборд

Недавно завершилось соревнование Restaurant Revenue Prediction. В принципе, здесь я не публикую отчёты о каждом прошедшем соревновании, но в этот раз действительно смешно. Участников было 2257 команд! А объектов в обучении — 137 (если разделить на участников, то не всем хватит:)! Конечно, все знали, что самое опасное это переобучиться, но среди 20 первых команд по финальному лидерборду нет никого, кто был бы в двадцатке в промежуточном лидерборде! Победитель скакнул вверх с 249 места, серебряный призёр — с 54го, бронзовый — с 394.

Читать далее