Закончился семинар по анализу данных, организованный ребятами из Mail.ru. Несколько моих наблюдений и выводов.
1. Желающих участвовать было много. Я ставил на 80, но оказалось гораздо больше. Поэтому организаторам пришлось отсеивать по месту в лидерборде. На мой взгляд, отсев получился даже мягким… в форуме были готовые решения, которые преодолевали нужный порог.
2. Участники были очень неоднородны. Как оказалось, некоторые даже особо не поняли задачу (ещё раз подтверждает, что условия отбора мягкие). С другой стороны, были очень опытные спортивные аналитики: Семёнов, Трофимов, Дрёмов, которые изначально не рассчитывали на плотную работу на семинаре. Большинство опытных после докладов ушло (впрочем, организаторы это предвидели).
3. Совсем слаженной работы в группах не получилось. Наверное, надо, чтобы в каждой группе был опытный человек, который бы всем и руководил. Возможно, стоит формировать группы до мероприятия и продумывать (руководителю) сценарий работы с учётом возможностей членов группы. Кстати, по правилам кэгла нельзя просто так работать в группах, т.к. это обмен кодом и идеями между командами, поэтому нужно было запостить результаты групповой работы, но это так и не было сделано…
Зато впервые организовано подобное мероприятие. В конце концов, в дождливый день приятно просто пообщаться с людьми, которые любят решать задачки.
На семинаре я прочитал небольшой (на часик 🙂 ) доклад «Соревнования по анализу данных: история, тактика, простые методы» (это слайды). Что было:
1. История соревнований (KDDCup, BCI competitions, Clopinet-ChaLearn, PASCAL, DARPA, InnoCentive, Netflix Cup, TunedIT, Kaggle, Challenge.gov, CrowdAnalytix, DrivenData, Интернет-математика, Интернет-турнир ТКС, олимпиада WikiMart, AlgoMost, …).
2. Сколько получают победители соревнований, насколько они знамениты (кто был победителем первого конкурса Kaggle/KDD cup/Netflix, кто победил в первом Master-турнире, кто дольше всех был чемпионом, сколько заработал Абхишек, …).
3. В какой стране дата-майнеры лучше.
Вот, кстати, картинка с одного из слайдов, которая показывает, представители каких стран входят в топ-50 кэгла. Сейчас уникальная ситуация: Россия (впервые) вырвалась на второе место!
- США – 17 представителей,
- Россия – 6,
- Япония, Великобритания – 3,
- Бразилия, Израиль, Испания, Германия – 2.

4. Участие в соревнованиях в учебном процессе (ШАД, ВМК МГУ, ПЗАД).
5. Особенности соревнований (объединение в команды, обмен кодом, типы турниров).
6. Плюс некоторые простые методы, которые я успешно использовал раньше.
Была ещё лекция Владимира Гулина (Mail.ru) про машинное обучение в поиске, но я не знаю ссылки на слайды.
Ну, а чем закончилось соревнование CrowdFlower, можно посмотреть в турнирной таблице. Некоторые участники семинара попали даже в 10ку (из 1326): Миша Трофимов и Стас Семёнов — второе место, автор блога — десятое, ну и Саша Рыжков очень близко — 13.
[…] легендарной серии соревнований в своём выступлении в mail.ru. К сожалению, никогда в нём не участвовал: не очень […]
[…] расскажу о решении той самой задачи, что была на практическом семинаре по анализу данных в прошлом году. Логично, чтобы участники послушали про […]