Недавно стартовал новый конкурс по анализу данных. В помощь новичкам, которые захотят поиграться его данными, вот презентация, которую я обсуждал со своими магистрами на прошлом занятии, а вот код, с помощью которого получены все графики. Кстати, большие ipynb-файлы с гитхаба лучше смотреть с помощью nbviewer, например так.
Александр, спасибо за информацию по конкурсу Сбербанка !
Данные очень интересные.
Вот бы сделать такой конкурс постоянным, и к нему еще и постоянный форум, аналог Kaggle на русском языке, для начала на основе данных Сбербанка.
Данных у Сбербанка как я понимаю хватит даже с запасом, а там может и другие подтянутся со своими данными.
Плюс форум, который возможно виртуально посетить из любой точки России и не только.
Может предложить такую идею Сбербанку ?
Они как раз движутся в таком направлении… Движение, наверное, правильное, но не будем пока восторгаться. Посмотрим, как пройдёт конкурс. Сбербанк уже провёл два «сомнительных» конкурса. Здесь привлечены сторонние команды с соответствующим опытом, вот и посмотрим, как всё пройдёт.
Из очевидных плюсов:
+ платформа с LB и форумом
+ разноплановые задачи и интересный критерий качества
Из минусов:
— задачи 2 и 3 схожи и явно не годятся, чтобы парой быть в этом конкурсе
— организаторы сами раскрывают некоторые особенности задач на ML-тренировках, но это неправильно, организаторы должны быть дистанцированы от решателей: ответы на все вопросы должны быть в ЕДИНОМ источнике, чтобы никто не получал преимущества
Александр, а что за второй конкурс Сбербанка (один это видимо предсказание оттока прошлогодний)?
По поводу 2 и 3 задач да, они достаточно похожи,
и то, что есть асимметричность в наводках (тренировки эти) не совсем честно, да.
Это, вроде, первый. Они после этого второй проводили — где-то этой весной. Вот одна из ссылок: http://www.vestifinance.ru/articles/71482
[…] (которые, кстати, построены на данных последнего конкурса Сбербанка и одной модельной задачи). Под тестом здесь понимается […]