Размеры выборок

На семинаре в ВШЭ, на котором я недавно выступал, возник вопрос о размере выборки. Я обещал ответить на него в блоге. Итак, постараюсь обойтись без теории и формул. Как говорил академик В.И.Арнольд, «Математика —  наука экспериментальная», поэтому проведём эксперимент. Это, конечно, сделает текст не совсем строгим, зато понятным. См. под катом.

Рассмотрим классическую схему Бернулли: проводится серия опытов, в каждом вероятность события «успех» p=0.18 (на семинаре это соответствовало примерной вероятности невозврата кредита), а неудачи — 1-p. Правда, мы p не знаем. Наша задача как раз оценить вероятность и обнаружить, что она примерно 0.18. Легко написать код в Матлабе, который показывает, насколько хорош метод оценивания вероятностей по формуле «число успешных испытаний/число испытаний» (см. рис.).

pic2_18

После 10000 испытаний можно практически быть уверенным, что мы оценили вероятность с точностью ±0.01. Правда, в матстатистике всегда задаются двумя параметрами: хотят с некоторой вероятностью быть уверенным, что оценивание произошло с некоторой точностью. Изменим немного код. Здесь график как раз этой вероятности.

pic3_18

Таким образом, при выборке где-то >4000 с вероятностью >0.9 наша оценка отклоняется от истины не больше чем на 0.01. Видите, ввод нового параметра — вероятности — существенно понизил объёмы нужной для оценки выборки… правда, для каких-то задач вероятность ошибки 0.1 может быть большой

А теперь, собственно, обратимся к задаче с семинара. У нас вкладчики 12 знаков зодиака и мы пытаемся рассматривать признак «знак зодиака» в скоринге. Откуда возникла эта нелепая идея, я позже напишу в специальной лекции. Допустим, что действительно у каждого знака зодиака своя вероятность невозврата кредита и она где-то в интервале от 0.16 до 0.22. Нас не интересуют точные вероятности возвратов кредитов, нам важнее правильно упорядочить знаки зодиака по вероятности невозврата кредита. Опять проводим Matlab-эксперимент.

pic4_18

Конечно, я сильно упростил задачу (и даже немного схалтурил в последнем эксперименте), но при желании можно эксперимент переделать. Главное упрощение, которое я сделал — равномерно распределил вероятности невозвратов на отрезке [0.16, 0.22] (на практике это не так). Основной психологический барьер, который надо преодолеть в таких задачах — выбрать вероятность и точность. В упрощённом эксперименте, опять же, я их слил в один параметр: средний процент правильных упорядоченных пар (вероятностей невозвратов разных знаков зодиака) — на графике его значения и показаны. Всё-таки у меня внутреннее желание сделать этот параметр >0.95, тогда объём выборки должен быть больше 6000.

Замечания можно оставлять в комментариях.

Добавить комментарий

Заполните поля или щелкните по значку, чтобы оставить свой комментарий:

Логотип WordPress.com

Для комментария используется ваша учётная запись WordPress.com. Выход /  Изменить )

Фотография Twitter

Для комментария используется ваша учётная запись Twitter. Выход /  Изменить )

Фотография Facebook

Для комментария используется ваша учётная запись Facebook. Выход /  Изменить )

Connecting to %s