Определение вероятности невозврата кредита

Пост с описанием решения конкурса на платформе SASCOMPETITIONS. Организаторы разрешили мне опубликовать код и описание логики решения, но по договору я передаю право на алгоритм и, возможно, по первому требованию должен буду удалить некоторую информацию… читайте, пока можно;)

kredit.jpg Читать далее

Визуализация (часть 0)

На самой первой лекции по анализу данных для наших магистров ВМК МГУ я рассказываю про визуализацию. Начинаю лекцию с небольшого исторического обзора, главная цель которого — объяснить, что «рисовать данные» люди начали относительно недавно. Ниже некоторые примеры из лекции (смотрите ссылки, там есть интересные вещи)…

picture Читать далее

Считаем категории

Одна из самых частых мелких подзадач, которые мне приходится делать при анализе данных, — для категориального признака определить число вхождений для каждой категории. Есть много способов её решения — я постарался описать всё, что пришли в голову на языке Python. Есть методы, в которых эту подзадачу приходится решать много раз на данных большого объёма, поэтому время решения критично… а ещё многие студенты не знают о стандартных способов решения этой задачи.

count Читать далее

AUC ROC (площадь под кривой ошибок)

Площадь под ROC-кривой – один из самых популярных функционалов качества в задачах бинарной классификации. На мой взгляд, простых и полных источников информации «что же это такое» нет. Как правило, объяснение начинают с введения разных терминов (FPR, TPR), которые нормальный человек тут же забывает. Также нет разборов каких-то конкретных задач по AUC ROC. В этом посте описано, как я объясняю эту тему студентам и своим сотрудникам…

wallpaper

Читать далее

Минитест на знание ML и DM

До недавнего времени при собеседовании в компанию АлгоМост сначала давали небольшой тест на знание основ машинного обучения и анализа данных. Это довольно неплохо отфильтровывает совсем слабых соискателей. Сейчас у каждого в резюме написано, что знает Python, прошёл несколько курсов на курсере, но 80% не знают, что такое логистическая регрессия и как инвертировать список на Python. Последнюю версию теста я делал сам из вопросов, которые использую для контроля студентов. Сейчас её публикую и каждый может проверить свои знания…

test Читать далее

ММП ВМК МГУ — 20 лет

Между прочим, нашей кафедре Математических методов прогнозирования недавно исполнилось 20 лет: официально создана она была весной 1997 года, а первых студентов начала учить с сентября 1997 года. Правда, никаких торжеств нет, поскольку о круглых датах, похоже, на кафедре помню лишь я:) Про историю создания я как-то писал в блоге.

IMG_5139.jpg
Выпуск бакалавров ММП ВМК МГУ 2017 года (417 группа)

Читать далее

Градиентный бустинг

Пост про градиентный бустинг (Gradient Boosting), но не совсем обычный. Вместо текста прикрепляю pdf. Вопрос к читателям блога: будет ли полезно, если я подготовлю книжку в таком стиле по основным темам машинного обучения?

boosting.jpg Читать далее

Компания vs вуз vs академия

Идеальный способ решать какие-то задачи анализа данных в компании (в разрезе вопроса «кто будет решать») — это растить свои компетенции. Сейчас можно (хотя и сложно!) найти толковых ребят, владеющих инструментарием анализа данных и статистики, ну а предметную область лучше изучать изнутри. Тем не менее, есть много ситуаций, когда необходимо решать задачи «на стороне». Причины могут быть самые разные (задач мало и требуется «разовое решение», нужно быстро решить какую-то отдельную задачу, необходима разведка, что даст использование новой аналитики и т.п.) Есть несколько вариантов, к кому идти за решением. Опишем одну типичную историю, которая позволит их сравнить, не претендуя на полное и подробное сравнение.

company_vs_vuz

Читать далее