Любителям соревновательного анализа данных рекомендую интересную публикацию о KDD Cup. Читать далее
соревнования
Интересные презентации
Просмотрел всевозможные презентации по спортивной аналитике, машинному обучению и анализу данных. Вот наиболее понравившиеся (в списке есть как уже давно известные, так и новые). Спасибо их авторам за ценную информацию! Читать далее
Триумф россиян (Kaggle и Data Science Game)
На платформе Kaggle недавно завершилось соревнование Otto Group Product Classification Challenge. Оно примечательно тем, что команд-участниц было 3514! И ещё оно войдёт в историю триумфом россиян (и про это до сих пор никто не написал!). Вот топ турнирной таблицы:
- Gilberto Titericz Junior (Brazil), Stanislav Semenov (Russia).
- Alexander Guschin (Russia).
- Abhishek (Germany), Michael Jahrer (Austria), Jeong-Yoon Lee (USA).
- Dmitry Efimov (Russia), Davut Polat (Turkey).
- Mikhail Trofimov (Russia).
Такого ещё не было… и теперь в топе-50 кэгла целых 6 россиян (я про это позже ещё напишу). Про решения победителей читайте в блоге. А Саша Гущин дал классное интервью (самое лучшее из всех, что я видел). Отдельно радуюсь за Сашу и Мишу, поскольку они мои студенты и попали в топ-5 в одиночку (что я всегда больше всего уважаю)! Кстати, представители 3го места не смогли предоставить код… и теперь приз получат ребята с 4го (т.е. и Дима Ефимов, кстати, мехмат МГУ).
И ещё, Читать далее
Практический семинар по АД
Анонсирую мероприятие «Практический семинар по АД kaggle» , который организуют ребята из компании Mail.ru. Подробная информация выложена здесь и в блоге компании. Если кратко: 27 июня (суббота) в офисе мэйла хотят собрать любителей решать прикладные соревновательные задачки в анализе данных. В качестве основной — выбрана задача от crowdflower. Это может быть интересно новичкам и средничкам в машинном обучении и анализе данных. Будет море общения;). Меня просили там выступить, и с вероятностью 0.75 я это сделаю. Надеюсь, будет много позитива и единомышленников.
Смеси алгоритмов победителей
В соревновательном анализе данных всегда интересно, а какое же «идеальное» решение, сколько участники не дотянули до него. Грубая оценка — комбинация решений участников. А ещё интересно, что было бы, если бы некоторые участники объединились в команду (или наоборот не стали бы объединяться). К сожалению, практически все соревновательные платформы держат в секрете алгоритмы участников (и их ответы). В одном случае всё-таки удалось кое-что поисследовать, см. заметку «Нужно ли смешивать решения победителей» на платформе АлгоМост.
Новая система ранжирования в Kaggle
В рейтинге Кэгла ввели новую систему ранжирования дата-майнеров. За каждое соревнование теперь участник получает такое количество очков:
Что изменилось:
- Теперь набранные очки не делятся между всеми участниками команды. Вместо деления на число членов команды производится деление на корень из этого числа. Поэтому объединяться в команды стало выгоднее.
- Уменьшилась зависимость от числа участников соревнования. Участвовать в непопулярных соревнованиях стало выгоднее.
- Теперь даже старые соревнования влияют на рейтинг, но очки экспоненциально уменьшаются при устаревании. Раньше — учитывались только турниры за последние 2 года.
Подробнее можно прочитать здесь. На распределение участников в топе текущего рейтинга это изменение особо не повлияло. Напомним, что рейтинг Кэгла существует с апреля 2012 года. Это единственный рейтинг прикладников в области статистики и машинного обучения. До настоящего момента чемпионами рейтинга становились:
- Джереми Ховард (Австралия/США)
- Александр Дьяконов (Россия)
- Джейсон Тигг (Великобритания)
- Ксавиер Конор (Франция/Сингапур)
- Янис Сисманис (США)
- Чарли Танг (Канада)
- Сергей Юргенсон (Россия/США)
- Стив Донохо (США)
- Жозе А. Гуэрреро (Испания)
- Лукас Гомес дэ Сильва (Бразилия)
- Мариос Мичаилидис (Греция)
- Оуэн Жанг (Китай/США)
Как видим, очень широкая география — 11 стран, 12 человек. Интересно, что формально Сергей Юргенсон и Джейсон Тигг никогда не были на вершине рейтинга, т.е. не было момента времени, когда они действительно возглавляли рейтинг. Но после введения новой системы — в их профиле указано, что если бы эта система применялась всё время, то они были бы чемпионами. Джереми Ховард формально тоже никогда не признавался чемпионом, поскольку на момент создания рейтинга он уже работал в компании Kaggle. Отметим, что трое из 12 чемпионов организовали свою компанию по анализу данных. В текущей десятке сильнейших — 6 экс-чемпионов, а двое полностью завершили свои выступления (Ховард и Тигг, кстати, возможно, самые лучшие).
Игра по анализу данных
С подачи Миши Трофимова даю рекламу этому мероприятию: Data Sciense Game 2015. Регистрация до 15 мая! Ещё там существенные ограничения на состав, например, не только я уже безнадёжно стар, но и аспиранты 2го г/о.
Когда трясёт лидерборд
Недавно завершилось соревнование Restaurant Revenue Prediction. В принципе, здесь я не публикую отчёты о каждом прошедшем соревновании, но в этот раз действительно смешно. Участников было 2257 команд! А объектов в обучении — 137 (если разделить на участников, то не всем хватит:)! Конечно, все знали, что самое опасное это переобучиться, но среди 20 первых команд по финальному лидерборду нет никого, кто был бы в двадцатке в промежуточном лидерборде! Победитель скакнул вверх с 249 места, серебряный призёр — с 54го, бронзовый — с 394.
DrivenData: наши снова в призах
На недавно завершившемся соревновании по аналитике в области здравоохранения второе место среди более чем ста участников занял Александр Гущин. Недавно он также был вторым на российском соревновании компании АлгоМост по классификации химических экспериментов. Вдвойне приятно: Александр недавний ПЗАДовец и студент автора блога.
Поздравляем Александра и желаем дальнейших успехов!
Kaggle: наши в тройке
Недавно завершилось соревнование Microsoft по классификации вредоносных программ. Российская команда вошла в тройку (среди 377 участников). Приятно, что все бронзовые призёры в прошлом ПЗАДовцы. Имена героев:
- Михаил Трофимов (был вторым в кэгловском Авито)
- Дмитрий Ульянов (побеждал здесь и здесь)
- Станислав Семёнов (12й в рейтинге Кэгла)
Решение ребят описано в форуме. Также скоро будет доклад на конференции.
Поздравляем и желаем дальнейших успехов!
Напомню, что до этого последний российский успех на Кэгле — вхождение в тройку Михаила Сиверского на соревновании по социальным сетям (кстати, в рамках последнего ПЗАДа).