Тяжёлые хвосты

В курсе теории вероятностей и матстатистики много говорят про нормальное распределение, а потом немного пугают практикой… Дескать, в жизни не всё нормально и встречаются распределения похожие на «нормальный холмик», например, «распределения с тяжёлыми хвостами». Типичным представителем подобного вида распределений является распределение Коши.

Обнаружил, что практически никто их аналитиков не понимает, а чем же всё-таки плохо распределение Коши, кроме того, что у него нет (конечного) матожидания. Ну нет и нет, подумаешь…
hvost2

На рис. показаны плотности двух упомянутых распределений (взяты стандартные распределения), а голубым цветом выделены те самые «тяжёлые хвосты».

density

Вспомним центральную предельную теорему. Если есть бесконечная последовательность независимых одинаково распределённых случайных величин, имеющих конечное математическое ожидание и дисперсию, тогда

formula5

(стрелкой обозначена сходимость по распределению при увеличении объёма выборки к нормально распределённой случайной величине, для наглядности n смело вынесена в правую часть — в дисперсию). Поэтому среднее арифметическое элементов выборки «очень неплохо» оценивает матожидание: оно само (с.а.) является случайной величиной, причём с распределением «очень похожем» на нормальное с центром в оцениваемом матожидании и дисперсией, которая уменьшается с увеличением объёма выборки.

Заметим, что это справедливо для любого распределения с конечными матожиданием и дисперсией, в частности, с нормальным.

А теперь, что же происходит со средним арифметическим выборки, которая распределена по Коши. Оказывается, что оно также будет распределена по Коши, причём с теми же параметрами!

Минутка жёсткой математики: доказать можно с помощью характеристических функций:

formulath01

Равенство (*) не очень тривиальное (можно обосновать с помощью теоремы о вычетах).

Возникает интересный эффект. Есть у Вас выборка из одного элемента, то Вы его и используете для оценки матожидания. Теперь — из 100 элементов — берёте их среднее арифметическое. В случае нормального распределения — оценка становится точнее. В случае распределения Коши — ничего не меняется! 100 элементов использовать настолько же эффективно, насколько только 1! Здесь увеличение выборки ничего не меняет.

Итак, одна из проблем распределения Коши в том, что выборочное среднее не оценивает матожидание. Элементы выборки сильно выбрасываются в хвосты распределений (принимают большие по модулю значения), как и само выборочное среднее …

Часто такие элементы называют выбросами, но с точки зрения терминологии анализа данных, это, наверное, не совсем корректно. Выбросы — это какие-то посторонние точки в нашей выборке, которые не подчиняются общему закону распределения (например, ошибки в базе данных из-за опечаток).

Как же найти «середину» распределения Коши по выборке? Оказывается, для этого вполне подходит медиана, например, для стандартного распределения Коши

formulath02

Да, и никто не отменял метод максимального правдоподобия. Правда, для поиска центра распределения Коши надо будет решить такую нетривиальную задачу

formulath03

(на рисунке показан график функции для минимизации при выборке {-10,-3,+2,+5,+9}).

Распределение Коши «действительно существует»! Скажем, если Вы возьмёте в декартовой плоскости произвольную точку, будете через неё проводить случайные прямые и находить их пересечения с осью 0X, тогда x-координаты точек пересечения распределены по Коши. Задача отыскания центра распределения здесь эквивалентна поиску эпицентра излучения.

Отметим также, что на практике для оценок среднего иногда используют

  • усечённое среднее,
  • медиану средних Уолша (медиану средних арифметических всех пар элементов выборки).

Многие работы по финансовой математике исходят из посылок, что выборки имеют распределения с тяжёлыми хвостами. По ссылкам ниже можно посмотреть критику подобной точки зрения…

Реклама

Тяжёлые хвосты: 3 комментария

  1. > В случае распределения Коши — ничего не меняется! 100 элементов использовать настолько же эффективно, насколько только 1

    Эффективно для чего? Мат. ожидания не существует, что мы оцениваем-то?

    • Согласен. Термин «эффективная оценка» в статистике занят и завязан на матожидании. Здесь попытка найти то, что дальше по тексту называется «середина» и «центр» распределения. И поясняется на примере задачи о поиске эпицентра излучения. В случае распределения Коши, правда, этот центр совпадает с медианой и модой (это и облегчает поиск).

Добавить комментарий

Заполните поля или щелкните по значку, чтобы оставить свой комментарий:

Логотип WordPress.com

Для комментария используется ваша учётная запись WordPress.com. Выход / Изменить )

Фотография Twitter

Для комментария используется ваша учётная запись Twitter. Выход / Изменить )

Фотография Facebook

Для комментария используется ваша учётная запись Facebook. Выход / Изменить )

Google+ photo

Для комментария используется ваша учётная запись Google+. Выход / Изменить )

Connecting to %s