Скоринговые ошибки (Proper Scoring Rules)

Продолжаем рассказывать про функции ошибки и функционалы качества, сегодня поговорим о функциях, которые «заставляют» алгоритм выдавать вероятности принадлежности к классам. Рассчитано на читателей, которые освоили предыдущие посты по этой теме.

Читать далее

Проблема калибровки уверенности

Удивительно, но нигде нет хорошей обзорной работы по всем методам калибровки модели — процесса в результате которого «чёрные ящики» не просто качественно решают задачу классификации, но ещё и правильно оценивают свою уверенность в выданном ответе. Этот обзор не начального уровня — необходимо представлять, как работают и используются алгоритмы классификации, хотя автор существенно упростил изложение, например, обошёлся без условных вероятностей в определениях (из-за чего немного пострадала строгость изложения).

calibration2

Читать далее

Байесовский подход

В этом посте расскажем о формуле Байеса и её применении в машинном обучении. С этого года я буду читать много всяких новых курсов, в том числе, потоковый курс по «Машинному обучению и анализу данных» на факультете ВМК МГУ. Поэтому сейчас пребываю в поисках правильных формы/объёма/манеры подачи материала (чтобы не сильно лезть в теорию, но дать представление, зачем теория нужна). Постарался сделать максимально доступно, но предварительные знания по терверу нужны…

Bayes.jpg

Читать далее

Задачка: где рождается больше мальчиков

В городе два роддома — большой и маленький. В определенный день в одном из этих роддомов среди новорожденных оказывается 60% мальчиков. В каком роддоме это скорее всего могло бы произойти?

Попробуйте решить эту задачу, а под катом я покажу, что ответ, который дают лучшие статистики и экономисты в своих умных книжках, не совсем верный…

boys.jpg

Читать далее

Сундуки и монеты

Давненько не постил сюда задач «на соображалку», вот ловите… недавно узнал чудесную задачу, лет 5 назад она мелькала на хабре, а потом обсуждалась на разных форумах. У нас есть три сундука, в каждом из которых лежит по две монетки (в первом — две золотые, во втором — одна золотая и одна серебряная, в третьем — две серебряные). Мы выбираем один из этих сундуков случайным образом и вслепую вытаскиваем одну из монеток. Она оказывается золотой. Какова вероятность того, что вторая монетка в этом сундуке — тоже золотая? Под катом, конечно, будет ответ. А пока подумайте, что изменится, если сундуков будет N+1: в первом 0 золотых, во втором — 1, …, в (N+1 )-м — N. И ещё сложнее: вытаскиваем не одну, а несколько монет, все оказались золотыми, какая вероятность, что следующая монета, вытащенная вслепую из этого же сундука, также золотая?

monety

Читать далее

День нашей смерти

Недавно в рамках одного проекта по анализу кардиограмм выяснил, что статистические свойства этих сигналов меняются не только от каких-то ожидаемых причин, связанных с работой сердца и общим состоянием (усталостью, нагрузкой и т.п.) Ещё их начинает буквально «колбасить» в определённые дни, например, в день рождения. Как сказали кардиологи: это связано с нашими биоритмами и раз в год в один и тот же день — наш день рождения — происходит перестройка организма. Этот день самый опасный с точки зрения нашего состояния. Мне показалось это странным: всегда воспринимал конкретную дату рождения как случайную величину, но если эта теория верна, то в этот день (и в некоторый отрезок времени после него) выше вероятность умереть… было решено проверить эту гипотезу.

smert

Читать далее

Хитрое тестирование

Немного тервера. Предположим, Вам надо протестировать воду нескольких водоёмов на чистоту, точнее, отсутствие в ней определённого редкого химиката (вероятность  p того, что он «загрязнит» водоём мала). У Вас есть супер-тест, который по пробе воды определяет в ней наличие химиката (со 100%-й точностью). Вы взяли пробы воды из N водоёмов и должны точно указать, в каких водоёмах он есть.

pic

Читать далее

Формула Байеса

Для опроса на знание основ машинного обучения я когда-то составил такую задачу:

Тест на болезнь «зеленуху» имеет вероятность ошибки 0.1 (как позитивной, так и негативной), зеленухой болеет 10% населения. Какая вероятность того, что человек болен зеленухой, если у него позитивный результат теста?

Вот попробуйте, для начала, не решая назвать ответ… Читать далее

Прогноз визитов клиентов

Когда-то на kaggle.com была задачка от dunnhumby: про прогноз визитов клиентов и сумм их покупок. Сейчас данные недоступны. В рамках курса магистрам ВМК МГУ и ПЗАДа я рассказываю о методах решения подобных задач. О них можно почитать Читать далее

Размеры выборок

На семинаре в ВШЭ, на котором я недавно выступал, возник вопрос о размере выборки. Я обещал ответить на него в блоге. Итак, постараюсь обойтись без теории и формул. Как говорил академик В.И.Арнольд, «Математика —  наука экспериментальная», поэтому проведём эксперимент. Это, конечно, сделает текст не совсем строгим, зато понятным. См. под катом.

Читать далее