Поиск аномалий (Anomaly Detection)

В этом посте поговорим об одной важной проблеме обучения без учителя (Unsupervised Learning) – задаче поиска аномалий (Anomaly Detection). Интересно, что в русскоязычных учебных курсах об этой задаче часто забывают. Даже в русской версии страницы обучение без учителя нет упоминания об этой задаче, в английской, конечно же, есть.

outlier_detection2 Читать далее

Cтекинг (Stacking) и блендинг (Blending)

Стекинг (Stacked Generalization или Stacking) — один из самых популярных способов ансамблирования алгоритмов, т.е. использования нескольких алгоритмов для решения одной задачи машинного обучения. Пожалуй, он замечателен уже тем, что постоянно переизобретается новыми любителями анализа данных. Это вполне естественно, его идея лежит на поверхности. Известно, что если обучить несколько разных алгоритмов, то в задаче регрессии их среднее, а в задаче классификации — голосование по большинству, часто превосходят по качеству все эти алгоритмы. Возникает вопрос: почему, собственно, использовать для ансамблирования такие простые операции как усреднение или голосование? Можно же ансамблироование доверить очередному алгоритму (т.н. «метаалгоритму») машинного обучения.

stacked

Читать далее

Сундуки и монеты

Давненько не постил сюда задач «на соображалку», вот ловите… недавно узнал чудесную задачу, лет 5 назад она мелькала на хабре, а потом обсуждалась на разных форумах. У нас есть три сундука, в каждом из которых лежит по две монетки (в первом — две золотые, во втором — одна золотая и одна серебряная, в третьем — две серебряные). Мы выбираем один из этих сундуков случайным образом и вслепую вытаскиваем одну из монеток. Она оказывается золотой. Какова вероятность того, что вторая монетка в этом сундуке — тоже золотая? Под катом, конечно, будет ответ. А пока подумайте, что изменится, если сундуков будет N+1: в первом 0 золотых, во втором — 1, …, в (N+1 )-м — N. И ещё сложнее: вытаскиваем не одну, а несколько монет, все оказались золотыми, какая вероятность, что следующая монета, вытащенная вслепую из этого же сундука, также золотая?

monety Читать далее

День нашей смерти

Недавно в рамках одного проекта по анализу кардиограмм выяснил, что статистические свойства этих сигналов меняются не только от каких-то ожидаемых причин, связанных с работой сердца и общим состоянием (усталостью, нагрузкой и т.п.) Ещё их начинает буквально «колбасить» в определённые дни, например, в день рождения. Как сказали кардиологи: это связано с нашими биоритмами и раз в год в один и тот же день — наш день рождения — происходит перестройка организма. Этот день самый опасный с точки зрения нашего состояния. Мне показалось это странным: всегда воспринимал конкретную дату рождения как случайную величину, но если эта теория верна, то в этот день (и в некоторый отрезок времени после него) выше вероятность умереть… было решено проверить эту гипотезу.

smert Читать далее

Случайный лес (Random Forest)

Случайный лес — один из самых потрясающих алгоритмов машинного обучения, придуманные Лео Брейманом и Адель Катлер ещё в прошлом веке. Он дошёл до нас в «первозданном виде» (никакие эвристики не смогли его существенно улучшить) и является одним из немногих универсальных алгоритмов. Универсальность заключается, во-первых, в том, что он хорош во многих задачах (по моим оценкам, 70% из встречающихся на практике, если не учитывать задачи с изображениями), во-вторых, в том, что есть случайные леса для решения задач классификации, регрессии, кластеризации, поиска аномалий, селекции признаков и т.д.

random_forest.jpg Читать далее

Визуализации

В рамках университетского курса даю своим студентам несколько заданий по визуализации. Первое (простое) — найти интересные визуализации в Интернете (не обязательно связанные с анализом данных) и объяснить почему они интересны. Второе (сложное) — взять реальные данные с платформы Kaggle и принять там участие в конкурсе по визуализации (там можно в разделе Datasets создавать т.н. Kernels, за которые могут голосовать другие участники). Теперь, что из этого получилось в этом году…

friends
Рис. взят с сайта http://www.facebookstories.com

Читать далее