ММП ВМК МГУ — 20 лет

Между прочим, нашей кафедре Математических методов прогнозирования недавно исполнилось 20 лет: официально создана она была весной 1997 года, а первых студентов начала учить с сентября 1997 года. Правда, никаких торжеств нет, поскольку о круглых датах, похоже, на кафедре помню лишь я:) Про историю создания я как-то писал в блоге.

IMG_5139.jpg
Выпуск бакалавров ММП ВМК МГУ 2017 года (417 группа)

Читать далее

Градиентный бустинг

Пост про градиентный бустинг (Gradient Boosting), но не совсем обычный. Вместо текста прикрепляю pdf. Вопрос к читателям блога: будет ли полезно, если я подготовлю книжку в таком стиле по основным темам машинного обучения?

boosting.jpg Читать далее

Компания vs вуз vs академия

Идеальный способ решать какие-то задачи анализа данных в компании (в разрезе вопроса «кто будет решать») — это растить свои компетенции. Сейчас можно (хотя и сложно!) найти толковых ребят, владеющих инструментарием анализа данных и статистики, ну а предметную область лучше изучать изнутри. Тем не менее, есть много ситуаций, когда необходимо решать задачи «на стороне». Причины могут быть самые разные (задач мало и требуется «разовое решение», нужно быстро решить какую-то отдельную задачу, необходима разведка, что даст использование новой аналитики и т.п.) Есть несколько вариантов, к кому идти за решением. Опишем одну типичную историю, которая позволит их сравнить, не претендуя на полное и подробное сравнение.

company_vs_vuz Читать далее

Поиск аномалий (Anomaly Detection)

В этом посте поговорим об одной важной проблеме обучения без учителя (Unsupervised Learning) – задаче поиска аномалий (Anomaly Detection). Интересно, что в русскоязычных учебных курсах об этой задаче часто забывают. Даже в русской версии страницы обучение без учителя нет упоминания об этой задаче, в английской, конечно же, есть.

outlier_detection2 Читать далее

Cтекинг (Stacking) и блендинг (Blending)

Стекинг (Stacked Generalization или Stacking) — один из самых популярных способов ансамблирования алгоритмов, т.е. использования нескольких алгоритмов для решения одной задачи машинного обучения. Пожалуй, он замечателен уже тем, что постоянно переизобретается новыми любителями анализа данных. Это вполне естественно, его идея лежит на поверхности. Известно, что если обучить несколько разных алгоритмов, то в задаче регрессии их среднее, а в задаче классификации — голосование по большинству, часто превосходят по качеству все эти алгоритмы. Возникает вопрос: почему, собственно, использовать для ансамблирования такие простые операции как усреднение или голосование? Можно же ансамблироование доверить очередному алгоритму (т.н. «метаалгоритму») машинного обучения.

stacked

Читать далее

Сундуки и монеты

Давненько не постил сюда задач «на соображалку», вот ловите… недавно узнал чудесную задачу, лет 5 назад она мелькала на хабре, а потом обсуждалась на разных форумах. У нас есть три сундука, в каждом из которых лежит по две монетки (в первом — две золотые, во втором — одна золотая и одна серебряная, в третьем — две серебряные). Мы выбираем один из этих сундуков случайным образом и вслепую вытаскиваем одну из монеток. Она оказывается золотой. Какова вероятность того, что вторая монетка в этом сундуке — тоже золотая? Под катом, конечно, будет ответ. А пока подумайте, что изменится, если сундуков будет N+1: в первом 0 золотых, во втором — 1, …, в (N+1 )-м — N. И ещё сложнее: вытаскиваем не одну, а несколько монет, все оказались золотыми, какая вероятность, что следующая монета, вытащенная вслепую из этого же сундука, также золотая?

monety Читать далее