Продолжаем рассказывать про функции ошибки и функционалы качества, сегодня поговорим о функциях, которые «заставляют» алгоритм выдавать вероятности принадлежности к классам. Рассчитано на читателей, которые освоили предыдущие посты по этой теме.
Читать далеевероятность
Проблема калибровки уверенности
Удивительно, но нигде нет хорошей обзорной работы по всем методам калибровки модели — процесса в результате которого «чёрные ящики» не просто качественно решают задачу классификации, но ещё и правильно оценивают свою уверенность в выданном ответе. Этот обзор не начального уровня — необходимо представлять, как работают и используются алгоритмы классификации, хотя автор существенно упростил изложение, например, обошёлся без условных вероятностей в определениях (из-за чего немного пострадала строгость изложения).
Байесовский подход
В этом посте расскажем о формуле Байеса и её применении в машинном обучении. С этого года я буду читать много всяких новых курсов, в том числе, потоковый курс по «Машинному обучению и анализу данных» на факультете ВМК МГУ. Поэтому сейчас пребываю в поисках правильных формы/объёма/манеры подачи материала (чтобы не сильно лезть в теорию, но дать представление, зачем теория нужна). Постарался сделать максимально доступно, но предварительные знания по терверу нужны…
Задачка: где рождается больше мальчиков
В городе два роддома — большой и маленький. В определенный день в одном из этих роддомов среди новорожденных оказывается 60% мальчиков. В каком роддоме это скорее всего могло бы произойти?
Попробуйте решить эту задачу, а под катом я покажу, что ответ, который дают лучшие статистики и экономисты в своих умных книжках, не совсем верный…
Сундуки и монеты
Давненько не постил сюда задач «на соображалку», вот ловите… недавно узнал чудесную задачу, лет 5 назад она мелькала на хабре, а потом обсуждалась на разных форумах. У нас есть три сундука, в каждом из которых лежит по две монетки (в первом — две золотые, во втором — одна золотая и одна серебряная, в третьем — две серебряные). Мы выбираем один из этих сундуков случайным образом и вслепую вытаскиваем одну из монеток. Она оказывается золотой. Какова вероятность того, что вторая монетка в этом сундуке — тоже золотая? Под катом, конечно, будет ответ. А пока подумайте, что изменится, если сундуков будет N+1: в первом 0 золотых, во втором — 1, …, в (N+1 )-м — N. И ещё сложнее: вытаскиваем не одну, а несколько монет, все оказались золотыми, какая вероятность, что следующая монета, вытащенная вслепую из этого же сундука, также золотая?
День нашей смерти
Недавно в рамках одного проекта по анализу кардиограмм выяснил, что статистические свойства этих сигналов меняются не только от каких-то ожидаемых причин, связанных с работой сердца и общим состоянием (усталостью, нагрузкой и т.п.) Ещё их начинает буквально «колбасить» в определённые дни, например, в день рождения. Как сказали кардиологи: это связано с нашими биоритмами и раз в год в один и тот же день — наш день рождения — происходит перестройка организма. Этот день самый опасный с точки зрения нашего состояния. Мне показалось это странным: всегда воспринимал конкретную дату рождения как случайную величину, но если эта теория верна, то в этот день (и в некоторый отрезок времени после него) выше вероятность умереть… было решено проверить эту гипотезу.
Хитрое тестирование
Немного тервера. Предположим, Вам надо протестировать воду нескольких водоёмов на чистоту, точнее, отсутствие в ней определённого редкого химиката (вероятность p того, что он «загрязнит» водоём мала). У Вас есть супер-тест, который по пробе воды определяет в ней наличие химиката (со 100%-й точностью). Вы взяли пробы воды из N водоёмов и должны точно указать, в каких водоёмах он есть.
Формула Байеса
Для опроса на знание основ машинного обучения я когда-то составил такую задачу:
Тест на болезнь «зеленуху» имеет вероятность ошибки 0.1 (как позитивной, так и негативной), зеленухой болеет 10% населения. Какая вероятность того, что человек болен зеленухой, если у него позитивный результат теста?
Вот попробуйте, для начала, не решая назвать ответ… Читать далее
Прогноз визитов клиентов
Когда-то на kaggle.com была задачка от dunnhumby: про прогноз визитов клиентов и сумм их покупок. Сейчас данные недоступны. В рамках курса магистрам ВМК МГУ и ПЗАДа я рассказываю о методах решения подобных задач. О них можно почитать Читать далее
Размеры выборок
На семинаре в ВШЭ, на котором я недавно выступал, возник вопрос о размере выборки. Я обещал ответить на него в блоге. Итак, постараюсь обойтись без теории и формул. Как говорил академик В.И.Арнольд, «Математика — наука экспериментальная», поэтому проведём эксперимент. Это, конечно, сделает текст не совсем строгим, зато понятным. См. под катом.