Сундуки и монеты

Давненько не постил сюда задач «на соображалку», вот ловите… недавно узнал чудесную задачу, лет 5 назад она мелькала на хабре, а потом обсуждалась на разных форумах. У нас есть три сундука, в каждом из которых лежит по две монетки (в первом — две золотые, во втором — одна золотая и одна серебряная, в третьем — две серебряные). Мы выбираем один из этих сундуков случайным образом и вслепую вытаскиваем одну из монеток. Она оказывается золотой. Какова вероятность того, что вторая монетка в этом сундуке — тоже золотая? Под катом, конечно, будет ответ. А пока подумайте, что изменится, если сундуков будет N+1: в первом 0 золотых, во втором — 1, …, в (N+1 )-м — N. И ещё сложнее: вытаскиваем не одну, а несколько монет, все оказались золотыми, какая вероятность, что следующая монета, вытащенная вслепую из этого же сундука, также золотая?

monety Читать далее

Реклама

id и время

На первых же занятиях по анализу данных, один из приёмов, которым я учу студентов — построение диаграммы рассеивания (скатерплот) по признакам id (номер в таблице) и время (номер, когда сделана запись). Недавно я сам попался на том, что вовремя не применил этот приём… time.jpg

Читать далее

Детектирование курильщика

Недавно закончился конкурс CardioQVARK по разработке алгоритма определения курящего человека по его кардиограмме, в котором автор принимал участие. Публикую весь код и полный отчёт по решённой задаче.

cardioqvark

Читать далее

Тяжёлые хвосты

В курсе теории вероятностей и матстатистики много говорят про нормальное распределение, а потом немного пугают практикой… Дескать, в жизни не всё нормально и встречаются распределения похожие на «нормальный холмик», например, «распределения с тяжёлыми хвостами». Типичным представителем подобного вида распределений является распределение Коши.

Обнаружил, что практически никто их аналитиков не понимает, а чем же всё-таки плохо распределение Коши, кроме того, что у него нет (конечного) матожидания. Ну нет и нет, подумаешь…
hvost2

Читать далее

Хитрое тестирование

Немного тервера. Предположим, Вам надо протестировать воду нескольких водоёмов на чистоту, точнее, отсутствие в ней определённого редкого химиката (вероятность  p того, что он «загрязнит» водоём мала). У Вас есть супер-тест, который по пробе воды определяет в ней наличие химиката (со 100%-й точностью). Вы взяли пробы воды из N водоёмов и должны точно указать, в каких водоёмах он есть.

pic

Читать далее

Прогноз появления рёбер

Есть такая задача — Link Prediction Problem, на русский язык нет однозначного перевода, но что-то типа «прогнозирование появления/исчезновения рёбер». В статическом варианте проблемы — дан граф (как правило, социальной сети), необходимо предсказать, какие рёбра в нём появятся в ближайшее время (и/или какие удалятся). В динамическом может быть дано несколько графов (в разные моменты времени) и прогноз может потребоваться на разные моменты времени. В варианте с фиксированным тестом — задано множество пар вершин, для которого нужно дать прогноз (например, какие из этих пар станут рёбрами). Из-за того, что чаще рассматривают графы соцсетей, возникает интересная терминология, например, смежные вершины называются друзьями, вершина, смежная с двумя другими вершинами, — их общим другом и т.д.

graph Читать далее

Формула Байеса

Для опроса на знание основ машинного обучения я когда-то составил такую задачу:

Тест на болезнь «зеленуху» имеет вероятность ошибки 0.1 (как позитивной, так и негативной), зеленухой болеет 10% населения. Какая вероятность того, что человек болен зеленухой, если у него позитивный результат теста?

Вот попробуйте, для начала, не решая назвать ответ… Читать далее