Практический семинар по АД. Постскриптум.

Закончился семинар по анализу данных, организованный ребятами из Mail.ru. Несколько моих наблюдений и выводов.

1. Желающих участвовать было много. Я ставил на 80, но оказалось гораздо больше. Поэтому организаторам пришлось отсеивать по месту в лидерборде. На мой взгляд, отсев получился даже мягким… в форуме были готовые решения, которые преодолевали нужный порог.

2. Участники были очень неоднородны. Как оказалось, некоторые даже особо не поняли задачу (ещё раз подтверждает, что условия отбора мягкие). С другой стороны, были очень опытные спортивные аналитики: Семёнов, Трофимов, Дрёмов, которые изначально не рассчитывали на плотную работу на семинаре. Большинство опытных после докладов ушло (впрочем, организаторы это предвидели).

3. Совсем слаженной работы в группах не получилось. Наверное, надо, чтобы в каждой группе был опытный человек, который бы всем и руководил. Возможно, стоит формировать группы до мероприятия и продумывать (руководителю) сценарий работы с учётом возможностей членов группы. Кстати, по правилам кэгла нельзя просто так работать в группах, т.к. это обмен кодом и идеями между командами, поэтому нужно было запостить результаты групповой работы, но это так и не было сделано…

Зато впервые организовано подобное мероприятие. В конце концов, в дождливый день приятно просто пообщаться с людьми, которые любят решать задачки.

На семинаре я прочитал небольшой (на часик 🙂 ) доклад «Соревнования по анализу данных: история, тактика, простые методы» (это слайды). Что было:

1. История соревнований (KDDCup, BCI competitions, Clopinet-ChaLearn, PASCAL, DARPA, InnoCentive, Netflix Cup, TunedIT, Kaggle, Challenge.gov, CrowdAnalytix, DrivenData, Интернет-математика, Интернет-турнир ТКС, олимпиада WikiMart, AlgoMost, …).

2. Сколько получают победители соревнований, насколько они знамениты (кто был победителем первого конкурса Kaggle/KDD cup/Netflix, кто победил в первом Master-турнире, кто дольше всех был чемпионом, сколько заработал Абхишек, …).

3. В какой стране дата-майнеры лучше.

Вот, кстати, картинка с одного из слайдов, которая показывает, представители каких стран входят в топ-50 кэгла. Сейчас уникальная ситуация: Россия (впервые) вырвалась на второе место!

  • США – 17 представителей,
  • Россия – 6,
  • Япония, Великобритания – 3,
  • Бразилия, Израиль, Испания, Германия – 2.
Топ-50 рейтинга Kaggle на начало июля 2015 года
Топ-50 рейтинга Kaggle на начало июля 2015 года

4. Участие в соревнованиях в учебном процессе (ШАД, ВМК МГУ, ПЗАД).

5. Особенности соревнований (объединение в команды, обмен кодом, типы турниров).

6. Плюс некоторые простые методы, которые я успешно использовал раньше.

Была ещё лекция Владимира Гулина (Mail.ru) про машинное обучение в поиске, но я не знаю ссылки на слайды.

Ну, а чем закончилось соревнование CrowdFlower, можно посмотреть в турнирной таблице. Некоторые участники семинара попали даже в 10ку (из 1326): Миша Трофимов и Стас Семёнов — второе место, автор блога — десятое, ну и Саша Рыжков очень близко — 13.

Практический семинар по АД. Постскриптум.: 2 комментария

Добавить комментарий

Заполните поля или щелкните по значку, чтобы оставить свой комментарий:

Логотип WordPress.com

Для комментария используется ваша учётная запись WordPress.com. Выход /  Изменить )

Фотография Twitter

Для комментария используется ваша учётная запись Twitter. Выход /  Изменить )

Фотография Facebook

Для комментария используется ваша учётная запись Facebook. Выход /  Изменить )

Connecting to %s