По ежегодной традиции поздравляю всех читателей блога с праздником! Немного статистики, небольшой подарок читателям, а также, как я обещал, разберём итоги и правильные ответы Странного теста.
тест
Странный тест по ML
Давненько я не публиковал никаких тестов… итак, новый провокационный шедевр: «странный тест по машинному обучению». Нельзя сказать, что он проверяет какие-то фундаментальные знания, но со всеми вопросами, которые в нём присутствуют, порядочный человек, вращающийся в DS-среде, сталкивается.
AUC ROC (площадь под кривой ошибок)
Площадь под ROC-кривой – один из самых популярных функционалов качества в задачах бинарной классификации. На мой взгляд, простых и полных источников информации «что же это такое» нет. Как правило, объяснение начинают с введения разных терминов (FPR, TPR), которые нормальный человек тут же забывает. Также нет разборов каких-то конкретных задач по AUC ROC. В этом посте описано, как я объясняю эту тему студентам и своим сотрудникам…
Минитест на знание ML и DM
До недавнего времени при собеседовании в компанию АлгоМост сначала давали небольшой тест на знание основ машинного обучения и анализа данных. Это довольно неплохо отфильтровывает совсем слабых соискателей. Сейчас у каждого в резюме написано, что знает Python, прошёл несколько курсов на курсере, но 80% не знают, что такое логистическая регрессия и как инвертировать список на Python. Последнюю версию теста я делал сам из вопросов, которые использую для контроля студентов. Сейчас её публикую и каждый может проверить свои знания…
Хитрое тестирование
Немного тервера. Предположим, Вам надо протестировать воду нескольких водоёмов на чистоту, точнее, отсутствие в ней определённого редкого химиката (вероятность p того, что он «загрязнит» водоём мала). У Вас есть супер-тест, который по пробе воды определяет в ней наличие химиката (со 100%-й точностью). Вы взяли пробы воды из N водоёмов и должны точно указать, в каких водоёмах он есть.
Формула Байеса
Для опроса на знание основ машинного обучения я когда-то составил такую задачу:
Тест на болезнь «зеленуху» имеет вероятность ошибки 0.1 (как позитивной, так и негативной), зеленухой болеет 10% населения. Какая вероятность того, что человек болен зеленухой, если у него позитивный результат теста?
Вот попробуйте, для начала, не решая назвать ответ… Читать далее
Задачки про AUC (ROC)
Среди читателей блога много тех, кто только учит машинное обучение, и меня часто спрашивают про разные задачи и упражнения, поэтому начинаю рубрику задача.
Для начала два упражнения, которые мы недавно разбирали с магистрами ВМК МГУ.
Задача 1. Рассматривается задача классификации на два класса. На рис. 1 показаны объекты в пространстве ответов двух алгоритмов (ответы вещественные — до бинаризации по порогу). Вычислить AUC (ROC) для алгоритмов.

Задача 2. Какие значения F1-меры могут быть у классификатора в задаче с двумя непересекающимися классами (положительным и отрицательным) и тремя объектами?
Решение см. под катом… но сначала попробуйте сами, если интересно. Читать далее
Тест на знание машинного обучения
В начале учебного года провёл тестирование наших магистров первого года (ММП ВМК МГУ). Тест составлялся для онлайн-курса (но там, вроде, его пройти нельзя…) и состоит из 50 вопросов. Группа студентов небольшая — 16 человек, но определённые выводы можно сделать. Читать далее
Мир программирования (1)
Обзор некоторых (в основном, свежих) материалов по языкам R и Python. Так получилось, что большая часть материалов — для новичков.
- Learn X in Y minutes (уровень: начальный и средний) Хорошие и небольшие обзоры по языкам программирования.
- Do you know Python? (уровень: знать Питон) Неплохой тест на знание языка Питон.
- 5 Best Python Libraries for Data Science (уровень: начальный) Перечень основных библиотек для датамайнера со ссылками на лучшие туториалы.
- An Introduction to Statistics (уровень: начальный) Ресурс по статистике, но есть примитивный справочник по Питону для новичков.
- 14 Best Python Pandas Features (уровень: знать Питон) Небольшой, но очень хороший обзор основных функций пакета Pandas.
- usefulr.wordpress.com (уровень: средний) Ещё один блог о языке R.
- R Cheat Sheets (уровень: знать R) Подсказки по языку R, интересный материал по графике в R.
- The Grammar of Data Science: Python vs R (уровень: средний) Сравнение R и Python на примере одной задачи.