Триумф россиян (Kaggle и Data Science Game)

На платформе Kaggle недавно завершилось соревнование Otto Group Product Classification Challenge. Оно примечательно тем, что команд-участниц было 3514! И ещё оно войдёт в историю триумфом россиян (и про это до сих пор никто не написал!). Вот топ турнирной таблицы:

  1. Gilberto Titericz Junior (Brazil), Stanislav Semenov (Russia).
  2. Alexander Guschin (Russia).
  3. Abhishek (Germany), Michael Jahrer (Austria), Jeong-Yoon Lee (USA).
  4. Dmitry Efimov (Russia), Davut Polat (Turkey).
  5. Mikhail Trofimov (Russia).

Такого ещё не было… и теперь в топе-50 кэгла целых 6 россиян (я про это позже ещё напишу). Про решения победителей читайте в блоге. А Саша Гущин дал классное интервью (самое лучшее из всех, что я видел). Отдельно радуюсь за Сашу и Мишу, поскольку они мои студенты и попали в топ-5 в одиночку (что я всегда больше всего уважаю)! Кстати, представители 3го места не смогли предоставить код… и теперь приз получат ребята с 4го (т.е. и Дима Ефимов, кстати, мехмат МГУ).

И ещё, Читать далее

Практический семинар по АД

Анонсирую мероприятие «Практический семинар по АД kaggle» , который организуют ребята из компании Mail.ru. Подробная информация выложена здесь и в блоге компании. Если кратко: 27 июня (суббота) в офисе мэйла хотят собрать любителей решать прикладные соревновательные задачки в анализе данных. В качестве основной — выбрана задача от crowdflower. Это может быть интересно новичкам и средничкам в машинном обучении и анализе данных. Будет море общения;). Меня просили там выступить, и с вероятностью 0.75 я это сделаю. Надеюсь, будет много позитива и единомышленников.

Читать далее

ПЗАД новый набор 2015

Начался очередной отбор на мой спецкурс «Прикладные задачи анализа данных» (PZAD). Все подробности на странице спецкурса.

Напоминаю, что

  • курс начинается каждый год осенью,
  • главная фишка курса — практика решения задач (в том числе на платформах Kaggle и AlgoMost),
  • это единственный курс в мире, в котором один из топа Кэгла делится своим опытом решения задач и который прослушали несколько текущих топ-решателей Кэгла,
  • каждый год в курс добавляется новая тема (в прошлом году — анализ соцсетей).

Конкурс на курс всегда большой, поэтому выполняйте все требования на странице курса, в частности

  • необходимо знание машинного обучения,
  • необходим минимальный опыт участия в соревнованиях по анализу данных.

На странице курса есть список допустимых соревнований. В прошлом году он был обширен, в этом так не будет. Сейчас там всего одно соревнование (я включаю туда только те, которые сам хорошо изучил, чтобы было потом их полезно обсуждать).

Что ещё интересного:

  • возможно, в этом году набор будет последним.

Часть курса переходит в магистерскую программу на факультете ВМК, а часть будет читаться в рамках договорённостей с компанией «Аналитика плюс» (пока планы такие).

Размеры выборок

На семинаре в ВШЭ, на котором я недавно выступал, возник вопрос о размере выборки. Я обещал ответить на него в блоге. Итак, постараюсь обойтись без теории и формул. Как говорил академик В.И.Арнольд, «Математика —  наука экспериментальная», поэтому проведём эксперимент. Это, конечно, сделает текст не совсем строгим, зато понятным. См. под катом.

Читать далее

Конференции летом

Собрал наиболее интересные мероприятия для любителей анализа малых данных, которые пройдут этим летом (и в начале осени). Жирненьким выделил особо интересные.

Июнь

Июль

Август

Сентябрь

Можно добавлять новые мероприятия в комментариях.

Смеси алгоритмов победителей

В соревновательном анализе данных всегда интересно, а какое же «идеальное» решение, сколько участники не дотянули до него. Грубая оценка — комбинация решений участников. А ещё интересно, что было бы, если бы некоторые участники объединились в команду (или наоборот не стали бы объединяться). К сожалению, практически все соревновательные платформы держат в секрете алгоритмы участников (и их ответы). В одном случае всё-таки удалось кое-что поисследовать, см. заметку «Нужно ли смешивать решения победителей» на платформе АлгоМост.

Защиты дипломных (ВМК МГУ)

В четверг и пятницу прошли защиты наших специалистов и бакалавров. Это, кстати, последний выпуск специалистов и первый выпуск бакалавров на факультете ВМК. Здесь можно ознакомиться с дипломными работами и ВКР. Особо привлеку внимание к шедеврам своих студентов (может, они и не лучшие, зато везучие — попали ко мне;) ):

Поздравляю всех ММП-шников с выпуском! Желаю не забывать друг друга и зарабатывать побольше денег.