Простые методы анализа данных

Недавно меня попросили выступить с лекцией на открытии одного хакатона, обычно я не очень люблю подобные мероприятия (они не очень продуманы, задачи искусcтвенные и с ликами, победителей определяют по «качеству» презентаций и т.п.). Но это мероприятие проходило в МГУ, поэтому я решил поддержать начинание в стенах родного университета. Чтобы рассказать что-то релевантное всем слушателям, которые могли быть очень неоднородны по знаниям и умениям, я выбрал тему, которую пропагандировал несколько лет назад… решать можно (и часто нужно) простыми методами, буквально в несколько строк. Ниже сокращённое описание доклада.

simple.jpg Читать далее

Реклама

МГУ ВМК ММП (выпуск 2018)

Традиционный ежегодный пост о выпуске наших студентов из стен Московского Университета… Во-первых, всех поздравляю и желаю удачи! Во-вторых, для желающих под катом список выпускных работ наших студентов (своих, для рекламы, я сделал жирненькими;). На фото — вручение красных дипломов (источник). Все выпускные работы последних лет можно посмотреть здесь.

МГУ.jpg Читать далее

Смещение (bias) и разброс (variance)

Сегодня дадим немного объяснений стандартных для машинного обучения понятий: смещение, разброс, переобучение и недообучение. Как всегда, всё объясним просто (но нужна будет математическая подготовка), на картинках, с примерами (в данном случае на модельных задачах). Все рисунки и эксперименты авторские,  в конце, по традиции, изюминка – в чём при объяснении этих понятий Вас обманывают на курсах по ML и в учебниках;)

bias_variance Читать далее

Логистическая функция ошибки

Эту функцию называют также «логлосс» (logloss / log_loss), перекрёстной / кросс-энтропией (Cross Entropy) и часто используют в задачах классификации. Разберёмся, почему её используют и какой смысл она имеет. Для чтения поста нужна неплохая ML-математическая подготовка, но даже новичкам я бы рекомендовал почитать (хотя я не очень заботился, чтобы «всё объяснялось на пальцах»).

logloss Читать далее

Вопросы на собеседованиях

Этот пост навеян просмотром нескольких ресурсов, в которых даются перечни вопросов на собеседовании на позицию Data Scientist и ответы на них. Вопросы не всегда корректные, а ответы не всегда правильные, поэтому я решил их подробно разобрать… думаю, для новичков будет полезно.

Собеседование

Читать далее

Задачка: где рождается больше мальчиков

В городе два роддома — большой и маленький. В определенный день в одном из этих роддомов среди новорожденных оказывается 60% мальчиков. В каком роддоме это скорее всего могло бы произойти?

Попробуйте решить эту задачу, а под катом я покажу, что ответ, который дают лучшие статистики и экономисты в своих умных книжках, не совсем верный…

boys.jpg Читать далее