Определение вероятности невозврата кредита

Пост с описанием решения конкурса на платформе SASCOMPETITIONS. Организаторы разрешили мне опубликовать код и описание логики решения, но по договору я передаю право на алгоритм и, возможно, по первому требованию должен буду удалить некоторую информацию… читайте, пока можно;)

kredit.jpg Читать далее

Реклама

Визуализация (часть 1)

В одном из прошлых постов я рассказал, с чего начинаю тему о визуализации данных в своём курсе. Теперь расскажу, как я её продолжаю…

кролик_утка Читать далее

Визуализация (часть 0)

На самой первой лекции по анализу данных для наших магистров ВМК МГУ я рассказываю про визуализацию. Начинаю лекцию с небольшого исторического обзора, главная цель которого — объяснить, что «рисовать данные» люди начали относительно недавно. Ниже некоторые примеры из лекции (смотрите ссылки, там есть интересные вещи)…

picture Читать далее

Считаем категории

Одна из самых частых мелких подзадач, которые мне приходится делать при анализе данных, — для категориального признака определить число вхождений для каждой категории. Есть много способов её решения — я постарался описать всё, что пришли в голову на языке Python. Есть методы, в которых эту подзадачу приходится решать много раз на данных большого объёма, поэтому время решения критично… а ещё многие студенты не знают о стандартных способов решения этой задачи.

count Читать далее

AUC ROC (площадь под кривой ошибок)

Площадь под ROC-кривой – один из самых популярных функционалов качества в задачах бинарной классификации. На мой взгляд, простых и полных источников информации «что же это такое» нет. Как правило, объяснение начинают с введения разных терминов (FPR, TPR), которые нормальный человек тут же забывает. Также нет разборов каких-то конкретных задач по AUC ROC. В этом посте описано, как я объясняю эту тему студентам и своим сотрудникам…

wallpaper Читать далее

Минитест на знание ML и DM

До недавнего времени при собеседовании в компанию АлгоМост сначала давали небольшой тест на знание основ машинного обучения и анализа данных. Это довольно неплохо отфильтровывает совсем слабых соискателей. Сейчас у каждого в резюме написано, что знает Python, прошёл несколько курсов на курсере, но 80% не знают, что такое логистическая регрессия и как инвертировать список на Python. Последнюю версию теста я делал сам из вопросов, которые использую для контроля студентов. Сейчас её публикую и каждый может проверить свои знания…

test Читать далее