На семинаре в ВШЭ, на котором я недавно выступал, возник вопрос о размере выборки. Я обещал ответить на него в блоге. Итак, постараюсь обойтись без теории и формул. Как говорил академик В.И.Арнольд, «Математика — наука экспериментальная», поэтому проведём эксперимент. Это, конечно, сделает текст не совсем строгим, зато понятным. См. под катом.
Рассмотрим классическую схему Бернулли: проводится серия опытов, в каждом вероятность события «успех» p=0.18 (на семинаре это соответствовало примерной вероятности невозврата кредита), а неудачи — 1-p. Правда, мы p не знаем. Наша задача как раз оценить вероятность и обнаружить, что она примерно 0.18. Легко написать код в Матлабе, который показывает, насколько хорош метод оценивания вероятностей по формуле «число успешных испытаний/число испытаний» (см. рис.).
После 10000 испытаний можно практически быть уверенным, что мы оценили вероятность с точностью ±0.01. Правда, в матстатистике всегда задаются двумя параметрами: хотят с некоторой вероятностью быть уверенным, что оценивание произошло с некоторой точностью. Изменим немного код. Здесь график как раз этой вероятности.
Таким образом, при выборке где-то >4000 с вероятностью >0.9 наша оценка отклоняется от истины не больше чем на 0.01. Видите, ввод нового параметра — вероятности — существенно понизил объёмы нужной для оценки выборки… правда, для каких-то задач вероятность ошибки 0.1 может быть большой…
А теперь, собственно, обратимся к задаче с семинара. У нас вкладчики 12 знаков зодиака и мы пытаемся рассматривать признак «знак зодиака» в скоринге. Откуда возникла эта нелепая идея, я позже напишу в специальной лекции. Допустим, что действительно у каждого знака зодиака своя вероятность невозврата кредита и она где-то в интервале от 0.16 до 0.22. Нас не интересуют точные вероятности возвратов кредитов, нам важнее правильно упорядочить знаки зодиака по вероятности невозврата кредита. Опять проводим Matlab-эксперимент.
Конечно, я сильно упростил задачу (и даже немного схалтурил в последнем эксперименте), но при желании можно эксперимент переделать. Главное упрощение, которое я сделал — равномерно распределил вероятности невозвратов на отрезке [0.16, 0.22] (на практике это не так). Основной психологический барьер, который надо преодолеть в таких задачах — выбрать вероятность и точность. В упрощённом эксперименте, опять же, я их слил в один параметр: средний процент правильных упорядоченных пар (вероятностей невозвратов разных знаков зодиака) — на графике его значения и показаны. Всё-таки у меня внутреннее желание сделать этот параметр >0.95, тогда объём выборки должен быть больше 6000.
Замечания можно оставлять в комментариях.