Для тех, кто не зарегистрировался на Moscow Data Fest — ещё не поздно это сделать! Я общался с организаторами, вроде, будет интересно. Правда, программа так до конца и не уточнена, хотя до мероприятия остаётся чуть больше суток (меня, правда, на нём не будет).
Вообще, осенью много различных мероприятий по анализу данных и большим данным, но я их здесь не рекламирую. Большая часть, на мой взгляд, сомнительная. Например, здесь надо заплатить 15000 рублей! Про ценность программы я даже говорить не буду. Но вот там есть чемпионат для «Data Scientists» (они не смогли перевести на русский эти два слова). Задача — скоринг на данных Сбербанка. Я зарегистрировался. Для участия надо по Почте России (Карл!) отправить в Сбербанк соглашение о неразглашении информации, я и это сделал. Но никаких данных они не дали. И куда слать ответ (впрочем, его без данных невозможно получить)?
Теперь самое смешное: на официальной странице никаких контактов нет! Куда обращаться за данными?!
Да и вообще, с вопросами по задаче — куда? А вопросы там есть. Они хотят решать задачу скоринга, целевой вектор бинарный, при этом хотят, чтобы ответ алгоритм тоже выдавал бинарный, а оценивают функционалом Gini! Для тех, кто понимает, это маразм!
Я вообще первый раз в жизни вижу, чтобы в скоринге просили бинарный вектор ответов. Может, это в Сбербанке скоринг такой, но спросить не у кого…
И опять поворчу: любые порядочные организаторы соревнований принимают сейчас электронные подписи документов или даже просто скан с подписью (американцам достаточно скана!). А здесь надо было на письме указать «для Васи Пупкина в Сбербанк», а в скобках — «Для Лены Попкиной». Наверное, на случай, если Пупкина уволят в эти несколько дней или он сам, наконец, уволится.
Вот поэтому я весь этот бардак и не рекламирую… П.С. Кстати, а кто-нибудь (кроме меня) участвует в этом чемпионате?
да, мы участвуем
можно написать Дарье —
4. Дополнительно можете подтвердить отправку и направить сотруднику Сбербанка Панфиловой Дарье по электронной почте DAPanfilova@sberbank.ru скан оригинала с темой письма «Подтверждение отправки Соглашения о конфиденциальности от [Имя-Фамилия] на конкурс среди Data Scientisits». Это не будет считаться получением Сбербанком оригинала, а просто подтвердит отправку Соглашения.
мне она ответила. Не обязательно Почтой России, можно прямо в главный офис на ресепшн привезти, я думаю
Спасибо. Да я туда писал. Два раза. Первый — приложил сканы отправленных документов (как только отправил, ещё две недели назад). Второй — уже с вопросом, а где брать данные и всё такое. Пока ответа не было…
Они писали, что можно подвести курьером (правда, это вариант только для москвичей). Вот я выбрал почту…
Я тоже попытался поучаствовать в конкурсе, но остановился даже раньше, чем вы (после регистрации он-лайн мне не пришло обещанного письма на почту).
А вот моему товарищу повезло больше и данные он всё таки получил. Данных много, они все зашифрованы и сразу бросается в глаза, что категориальные признаки это хэши, что на мой взгляд не самое удобное представление, но не так важно. А вот дальше идёт самое интересное.
С помощью пары простых скриптов на спарке, становится понятно, что качество данных соответствует остальному качеству организации конкурса. Есть большой файл, куда скинуты все данные по объектам из обучающей и тестовой выборки «data.tsv» и два отдельных файла: результаты на обучающей выборке «train.tsv» и файл, куда надо записать результаты для тестовой выборки «test.tsv». Проводилось две элементарные проверки:
1. Что все индексы объектов из «train.tsv» присутствуют в «data.tsv»
2. Что все индексы объектов из «test.tsv» присутствуют в «data.tsv»
Сначала оказалось, что только 5% объектов из «train.tsv» присутствуют в «data.tsv» и аналогичная ситуация с «test.csv». Получается, что для 95% объектов предлагалось сделать предсказание, основываясь только на id объекта!
Затем с помощью Панфиловой Дарьи выяснилось, что в заголовке перепутаны имена колонок и id необходимо извлекать по-другому! Но, даже при правильном расположении колонок, где-то теряется 200 объектов из «train.tsv» и «test.tsv», т.е. для 1% тестовой выборки данных нет.
Лично мне жалко тратить время на такие конкурсы, когда есть много хороших конкурсов на kaggle.
Ясно:) А мне всё-таки позвонили — после третьего емэйла (дело принципа — поставить эксперимент, ответят или нет). Сказали, что позвонить проще, чем написать. А главное — они не получили моё письмо, и мимоходом заметили, что им «до сих пор подносят августовские письма».
Это, пожалуй, «лучшая» организация конкурса из всех, которых я когда-либо видел!
1. Скоринг (кредитный) в Сбербанке не такой. Задачами оттока занимаются не риски.
2. Странности с Gini, вероятно, вызваны тем, что для подразделения-«организатора» эта метрика «неродная» (люди, которые делали эту модель в банке, привыкли, насколько понимаю, оперировать Precision&Recall)
У победителя конкурса результат по Gini был что-то около 0,54, но как эту цифру получили, я не знаю. Предполагаю, что участники, увидев слово Gini, кроме 0/1 прислали и балл. Замечу, что несколько месяцев назад одна из телекоммуникационных компаний при проведении тендера точно такой же ляп допустила: требовали 0/1, а оценивать хотели по Gini.
Так что для людей, которые в основном с задачами маркетинга работают, где привыкли оценивать эффективность алгоритма «в точке», ляп не сказать, что очень оригинальный.
3. Что касается работы с данными — Вы немного потеряли.
Данные были до предела «обфусцированными» (все значения захешированы километровым хэшом, отсюда, к слову, и объем почти в 40 гектар), описания данных не было никакого (смысл переменных скрыт). Понять организаторов я могу — люди боялись подставиться, но возиться с такими данными удовольствие невеликое. ИМХО.