Прогноз визитов клиентов

Когда-то на kaggle.com была задачка от dunnhumby: про прогноз визитов клиентов и сумм их покупок. Сейчас данные недоступны. В рамках курса магистрам ВМК МГУ и ПЗАДа я рассказываю о методах решения подобных задач. О них можно почитать Читать далее

Практический семинар по АД. Постскриптум.

Закончился семинар по анализу данных, организованный ребятами из Mail.ru. Несколько моих наблюдений и выводов.

1. Желающих участвовать было много. Я ставил на 80, но оказалось гораздо больше. Поэтому организаторам пришлось отсеивать по месту в лидерборде. На мой взгляд, отсев получился даже мягким… в форуме были готовые решения, которые преодолевали нужный порог.

2. Участники были очень неоднородны. Как оказалось, некоторые даже особо не поняли задачу (ещё раз подтверждает, что условия отбора мягкие). С другой стороны, были очень опытные спортивные аналитики: Семёнов, Трофимов, Дрёмов, которые изначально не рассчитывали на плотную работу на семинаре. Большинство опытных после докладов ушло (впрочем, организаторы это предвидели).

3. Совсем слаженной работы в группах не получилось. Наверное, надо, чтобы в каждой группе был опытный человек, который бы всем и руководил. Возможно, стоит формировать группы до мероприятия и продумывать (руководителю) сценарий работы с учётом возможностей членов группы. Кстати, по правилам кэгла нельзя просто так работать в группах, т.к. это обмен кодом и идеями между командами, поэтому нужно было запостить результаты групповой работы, но это так и не было сделано…

Зато впервые организовано подобное мероприятие. Читать далее

Триумф россиян (Kaggle и Data Science Game)

На платформе Kaggle недавно завершилось соревнование Otto Group Product Classification Challenge. Оно примечательно тем, что команд-участниц было 3514! И ещё оно войдёт в историю триумфом россиян (и про это до сих пор никто не написал!). Вот топ турнирной таблицы:

  1. Gilberto Titericz Junior (Brazil), Stanislav Semenov (Russia).
  2. Alexander Guschin (Russia).
  3. Abhishek (Germany), Michael Jahrer (Austria), Jeong-Yoon Lee (USA).
  4. Dmitry Efimov (Russia), Davut Polat (Turkey).
  5. Mikhail Trofimov (Russia).

Такого ещё не было… и теперь в топе-50 кэгла целых 6 россиян (я про это позже ещё напишу). Про решения победителей читайте в блоге. А Саша Гущин дал классное интервью (самое лучшее из всех, что я видел). Отдельно радуюсь за Сашу и Мишу, поскольку они мои студенты и попали в топ-5 в одиночку (что я всегда больше всего уважаю)! Кстати, представители 3го места не смогли предоставить код… и теперь приз получат ребята с 4го (т.е. и Дима Ефимов, кстати, мехмат МГУ).

И ещё, Читать далее

Практический семинар по АД

Анонсирую мероприятие «Практический семинар по АД kaggle» , который организуют ребята из компании Mail.ru. Подробная информация выложена здесь и в блоге компании. Если кратко: 27 июня (суббота) в офисе мэйла хотят собрать любителей решать прикладные соревновательные задачки в анализе данных. В качестве основной — выбрана задача от crowdflower. Это может быть интересно новичкам и средничкам в машинном обучении и анализе данных. Будет море общения;). Меня просили там выступить, и с вероятностью 0.75 я это сделаю. Надеюсь, будет много позитива и единомышленников.

Читать далее

ПЗАД новый набор 2015

Начался очередной отбор на мой спецкурс «Прикладные задачи анализа данных» (PZAD). Все подробности на странице спецкурса.

Напоминаю, что

  • курс начинается каждый год осенью,
  • главная фишка курса — практика решения задач (в том числе на платформах Kaggle и AlgoMost),
  • это единственный курс в мире, в котором один из топа Кэгла делится своим опытом решения задач и который прослушали несколько текущих топ-решателей Кэгла,
  • каждый год в курс добавляется новая тема (в прошлом году — анализ соцсетей).

Конкурс на курс всегда большой, поэтому выполняйте все требования на странице курса, в частности

  • необходимо знание машинного обучения,
  • необходим минимальный опыт участия в соревнованиях по анализу данных.

На странице курса есть список допустимых соревнований. В прошлом году он был обширен, в этом так не будет. Сейчас там всего одно соревнование (я включаю туда только те, которые сам хорошо изучил, чтобы было потом их полезно обсуждать).

Что ещё интересного:

  • возможно, в этом году набор будет последним.

Часть курса переходит в магистерскую программу на факультете ВМК, а часть будет читаться в рамках договорённостей с компанией «Аналитика плюс» (пока планы такие).

Новая система ранжирования в Kaggle

В рейтинге Кэгла ввели новую систему ранжирования дата-майнеров. За каждое соревнование теперь участник получает такое количество очков:

fm

Что изменилось:

  1. Теперь набранные очки не делятся между всеми участниками команды. Вместо деления на число членов команды производится деление на корень из этого числа. Поэтому объединяться в команды стало выгоднее.
  2. Уменьшилась зависимость от числа участников соревнования. Участвовать в непопулярных соревнованиях стало выгоднее.
  3. Теперь даже старые соревнования влияют на рейтинг, но очки экспоненциально уменьшаются при устаревании. Раньше — учитывались только турниры за последние 2 года.

Подробнее можно прочитать здесь. На распределение участников в топе текущего рейтинга это изменение особо не повлияло. Напомним, что рейтинг Кэгла существует с апреля 2012 года. Это единственный рейтинг прикладников в области статистики и машинного обучения. До настоящего момента чемпионами рейтинга становились:

Как видим, очень широкая география — 11 стран, 12 человек. Интересно, что формально Сергей Юргенсон и Джейсон Тигг никогда не были на вершине рейтинга, т.е. не было момента времени, когда они действительно возглавляли рейтинг. Но после введения новой системы — в их профиле указано, что если бы эта система применялась всё время, то они были бы чемпионами. Джереми Ховард формально тоже никогда не признавался чемпионом, поскольку на момент создания рейтинга он уже работал в компании Kaggle. Отметим, что трое из 12 чемпионов организовали свою компанию по анализу данных. В текущей десятке сильнейших — 6 экс-чемпионов, а двое полностью завершили свои выступления (Ховард и Тигг, кстати, возможно, самые лучшие).

Когда трясёт лидерборд

Недавно завершилось соревнование Restaurant Revenue Prediction. В принципе, здесь я не публикую отчёты о каждом прошедшем соревновании, но в этот раз действительно смешно. Участников было 2257 команд! А объектов в обучении — 137 (если разделить на участников, то не всем хватит:)! Конечно, все знали, что самое опасное это переобучиться, но среди 20 первых команд по финальному лидерборду нет никого, кто был бы в двадцатке в промежуточном лидерборде! Победитель скакнул вверх с 249 места, серебряный призёр — с 54го, бронзовый — с 394.

Читать далее

Kaggle: наши в тройке

Недавно завершилось соревнование Microsoft по классификации вредоносных программ. Российская команда вошла в тройку (среди 377 участников). Приятно, что все бронзовые призёры в прошлом ПЗАДовцы. Имена героев:

Решение ребят описано в форуме. Также скоро будет доклад на конференции.

Поздравляем и желаем дальнейших успехов!

Напомню, что до этого последний российский успех на Кэгле — вхождение в тройку Михаила Сиверского на соревновании по социальным сетям (кстати, в рамках последнего ПЗАДа).

Deep plankton learning — road to the top

В ближайший понедельник (30 марта) на моём спецсеминаре выступит Александр Рыжков с рассказом от том, как он занял 13 место из более чем 1000 участников соревнования National Data Science Bowl (классификация изображений планктона) на платформе Kaggle. Очень неплохо, учитывая, что Александр только начал плотно знакомиться с технологией Deep Learning.

Потом добавлю сюда ссылку на слайды.