Простые методы анализа данных

Недавно меня попросили выступить с лекцией на открытии одного хакатона, обычно я не очень люблю подобные мероприятия (они не очень продуманы, задачи искусcтвенные и с ликами, победителей определяют по «качеству» презентаций и т.п.). Но это мероприятие проходило в МГУ, поэтому я решил поддержать начинание в стенах родного университета. Чтобы рассказать что-то релевантное всем слушателям, которые могли быть очень неоднородны по знаниям и умениям, я выбрал тему, которую пропагандировал несколько лет назад… решать можно (и часто нужно) простыми методами, буквально в несколько строк. Ниже сокращённое описание доклада.

simple.jpg Читать далее

Реклама

Смещение (bias) и разброс (variance)

Сегодня дадим немного объяснений стандартных для машинного обучения понятий: смещение, разброс, переобучение и недообучение. Как всегда, всё объясним просто (но нужна будет математическая подготовка), на картинках, с примерами (в данном случае на модельных задачах). Все рисунки и эксперименты авторские,  в конце, по традиции, изюминка – в чём при объяснении этих понятий Вас обманывают на курсах по ML и в учебниках;)

bias_variance Читать далее

Логистическая функция ошибки

Эту функцию называют также «логлосс» (logloss / log_loss), перекрёстной / кросс-энтропией (Cross Entropy) и часто используют в задачах классификации. Разберёмся, почему её используют и какой смысл она имеет. Для чтения поста нужна неплохая ML-математическая подготовка, но даже новичкам я бы рекомендовал почитать (хотя я не очень заботился, чтобы «всё объяснялось на пальцах»).

logloss Читать далее

Визуализация (часть 0)

На самой первой лекции по анализу данных для наших магистров ВМК МГУ я рассказываю про визуализацию. Начинаю лекцию с небольшого исторического обзора, главная цель которого — объяснить, что «рисовать данные» люди начали относительно недавно. Ниже некоторые примеры из лекции (смотрите ссылки, там есть интересные вещи)…

picture Читать далее

AUC ROC (площадь под кривой ошибок)

Площадь под ROC-кривой – один из самых популярных функционалов качества в задачах бинарной классификации. На мой взгляд, простых и полных источников информации «что же это такое» нет. Как правило, объяснение начинают с введения разных терминов (FPR, TPR), которые нормальный человек тут же забывает. Также нет разборов каких-то конкретных задач по AUC ROC. В этом посте описано, как я объясняю эту тему студентам и своим сотрудникам…

wallpaper Читать далее

Минитест на знание ML и DM

До недавнего времени при собеседовании в компанию АлгоМост сначала давали небольшой тест на знание основ машинного обучения и анализа данных. Это довольно неплохо отфильтровывает совсем слабых соискателей. Сейчас у каждого в резюме написано, что знает Python, прошёл несколько курсов на курсере, но 80% не знают, что такое логистическая регрессия и как инвертировать список на Python. Последнюю версию теста я делал сам из вопросов, которые использую для контроля студентов. Сейчас её публикую и каждый может проверить свои знания…

test Читать далее