Data Science Game 2017

Завершился очередной неофициальный чемпионат мира по анализу данных среди студентов вузов. И уже 3 год подряд я пишу в этом блоге «Наши победили!»

dsg2017 Читать далее

Реклама

Визуализация (часть 0)

На самой первой лекции по анализу данных для наших магистров ВМК МГУ я рассказываю про визуализацию. Начинаю лекцию с небольшого исторического обзора, главная цель которого — объяснить, что «рисовать данные» люди начали относительно недавно. Ниже некоторые примеры из лекции (смотрите ссылки, там есть интересные вещи)…

picture Читать далее

Считаем категории

Одна из самых частых мелких подзадач, которые мне приходится делать при анализе данных, — для категориального признака определить число вхождений для каждой категории. Есть много способов её решения — я постарался описать всё, что пришли в голову на языке Python. Есть методы, в которых эту подзадачу приходится решать много раз на данных большого объёма, поэтому время решения критично… а ещё многие студенты не знают о стандартных способов решения этой задачи.

count Читать далее

AUC ROC (площадь под кривой ошибок)

Площадь под ROC-кривой – один из самых популярных функционалов качества в задачах бинарной классификации. На мой взгляд, простых и полных источников информации «что же это такое» нет. Как правило, объяснение начинают с введения разных терминов (FPR, TPR), которые нормальный человек тут же забывает. Также нет разборов каких-то конкретных задач по AUC ROC. В этом посте описано, как я объясняю эту тему студентам и своим сотрудникам…

wallpaper Читать далее

Минитест на знание ML и DM

До недавнего времени при собеседовании в компанию АлгоМост сначала давали небольшой тест на знание основ машинного обучения и анализа данных. Это довольно неплохо отфильтровывает совсем слабых соискателей. Сейчас у каждого в резюме написано, что знает Python, прошёл несколько курсов на курсере, но 80% не знают, что такое логистическая регрессия и как инвертировать список на Python. Последнюю версию теста я делал сам из вопросов, которые использую для контроля студентов. Сейчас её публикую и каждый может проверить свои знания…

test Читать далее

ММП ВМК МГУ — 20 лет

Между прочим, нашей кафедре Математических методов прогнозирования недавно исполнилось 20 лет: официально создана она была весной 1997 года, а первых студентов начала учить с сентября 1997 года. Правда, никаких торжеств нет, поскольку о круглых датах, похоже, на кафедре помню лишь я:) Про историю создания я как-то писал в блоге.

IMG_5139.jpg
Выпуск бакалавров ММП ВМК МГУ 2017 года (417 группа)

Читать далее

Градиентный бустинг

Пост про градиентный бустинг (Gradient Boosting), но не совсем обычный. Вместо текста прикрепляю pdf. Вопрос к читателям блога: будет ли полезно, если я подготовлю книжку в таком стиле по основным темам машинного обучения?

boosting.jpg Читать далее