AUC ROC (площадь под кривой ошибок)

Площадь под ROC-кривой – один из самых популярных функционалов качества в задачах бинарной классификации. На мой взгляд, простых и полных источников информации «что же это такое» нет. Как правило, объяснение начинают с введения разных терминов (FPR, TPR), которые нормальный человек тут же забывает. Также нет разборов каких-то конкретных задач по AUC ROC. В этом посте описано, как я объясняю эту тему студентам и своим сотрудникам…

wallpaper Читать далее

Минитест на знание ML и DM

До недавнего времени при собеседовании в компанию АлгоМост сначала давали небольшой тест на знание основ машинного обучения и анализа данных. Это довольно неплохо отфильтровывает совсем слабых соискателей. Сейчас у каждого в резюме написано, что знает Python, прошёл несколько курсов на курсере, но 80% не знают, что такое логистическая регрессия и как инвертировать список на Python. Последнюю версию теста я делал сам из вопросов, которые использую для контроля студентов. Сейчас её публикую и каждый может проверить свои знания…

test Читать далее

Градиентный бустинг

Пост про градиентный бустинг (Gradient Boosting), но не совсем обычный. Вместо текста прикрепляю pdf. Вопрос к читателям блога: будет ли полезно, если я подготовлю книжку в таком стиле по основным темам машинного обучения?

boosting.jpg Читать далее

Поиск аномалий (Anomaly Detection)

В этом посте поговорим об одной важной проблеме обучения без учителя (Unsupervised Learning) – задаче поиска аномалий (Anomaly Detection). Интересно, что в русскоязычных учебных курсах об этой задаче часто забывают. Даже в русской версии страницы обучение без учителя нет упоминания об этой задаче, в английской, конечно же, есть.

outlier_detection2 Читать далее

Matlab

Начал выкладывать слайды своего курса ПЗАД. В его рамках я рассказываю также и про связку Matlab, R, Python (последнее время без R — в зависимости от настроения). Так получилось, что работать в Матлабе мне всегда нравилось: в своё время быстро перешёл на него с С, великолепная графика и помощь. Из минусов только отсутствие хороших библиотек для машинного обучения и платность.

matlab Читать далее

Покорение гор

В этом году я участвую в работе экзаменационной комиссии по математике, которая проводит вступительные испытания в МГУ. В частности, участвовал в «Покори Воробьёвы горы». Учитывая, по каким поисковым запросам часто находят этот блог, немного расскажу о том, во что «превратились» экзамены по математике в МГУ и олимпиады (это, по сути, предварительные экзамены).

blog Читать далее

ECOC

ECOC — это «Error-Correcting Output Code». Пишу, поскольку мои студенты не знают, как этот зверь применяется в машинном обучении.

Допустим, Вы решаете задачу классификации с L (L>2) классами, а у Вас есть только бинарные классификаторы (т.е. решают задачу с двумя классами). Как быть? Читать далее