Определение вероятности невозврата кредита

Пост с описанием решения конкурса на платформе SASCOMPETITIONS. Организаторы разрешили мне опубликовать код и описание логики решения, но по договору я передаю право на алгоритм и, возможно, по первому требованию должен буду удалить некоторую информацию… читайте, пока можно;)

kredit.jpg Читать далее

Data Science Contest Сбербанка

Недавно стартовал новый конкурс по анализу данных. В помощь новичкам, которые захотят поиграться его данными, вот презентация, которую я обсуждал со своими магистрами на прошлом занятии, а вот код, с помощью которого получены все графики. Кстати, большие ipynb-файлы с гитхаба лучше смотреть с помощью nbviewer, например так.

sberbank

Российские вузы — самые лучшие

Завершился очередной ежегодный турнир студентов и аспирантов по анализу данных Data Science Game (в этом блоге был его анонс). В этом году отборочный этап прошли 3(!) российские команды: сборные МФТИ, МГУ и Сколтеха. Удивительно, но все они уехали домой с наградами! С чем их и поздравляем!

flags

Читать далее

Новый чемпион

На днях рейтинг Kaggle возглавил новый абсолютный чемпион — и им стал наш соотечественник Станислав Семёнов, с чем его и поздравляем! Станислав стал участвовать в соревнованиях в начале 2014 года, является самым стабильным участником (почти всегда попадает в десятку сильнейших), на первое место вышел после последней победы в соревновании Avito.

cups Читать далее

Avito + Telstra + BNP

Кто ещё не смотрел — советую посмотреть видео с последних тренировок по машинному обучению. Очень хорошие доклады:

nizhibitskiy Читать далее

NumPy — делаем быстрее

Чтобы ускорить выполнение кода на интерпретируемом языке программирования, следуют известным советам по избеганию использования циклов, своевременному выделению памяти, применению параллелизации и встроенных средств линейной алгебры. Для М-языка (Matlab) все советы можно найти в гл.15 уже старенькой книги автора. В принципе, они все годятся и для библиотеки NumPy языка Python, поскольку она практически копирует функционал Матлаба. Но кроме самих советов есть некоторые тонкости их использования. Сейчас на одном конкретном примере покажем, как можно ускорить выполнение кода.

speed

Читать далее

Соревнования весны 2016

Некэгловский свежачок для любителей анализа данных и машинного обучения. Решайте, сейчас много всего интересного! А на следующей неделе я расскажу, как сам на днях кое-что решил;)

competition

Читать далее

Текущий рейтинг Kaggle

В рейтинге Кэгла есть небольшое, но серьёзное изменение: впервые за долгое время сменился лидер, на первое место вышел Гилберто, потеснив «непобедимого» Оуэна. Отрыв небольшой и легко ликвидируется в одном соревновании, но, как я понимаю, Оуэн уже устал после своих 40 состязаний. Со статистикой, кстати, интересно — Читать далее

Соревновательные платформы

Публикую список известных (мне) соревновательных платформ, на которых выкладываются задачи по анализу данных. Платформы упорядочены по году запуска, указан этот год, среднее число соревнований в год, среднее число участников (команд) в одном соревновании, а также даны комментарии (указаны плюсы и минусы). Читать далее

Moscow Data Fest

Для тех, кто не зарегистрировался на Moscow Data Fest ещё не поздно это сделать! Я общался с организаторами, вроде, будет интересно. Правда, программа так до конца и не уточнена, хотя до мероприятия остаётся чуть больше суток (меня, правда, на нём не будет). Читать далее