Распределение Конвея – Максвелла – Пуассона. - Conway–Maxwell–Poisson distribution

Конвей – Максвелл – Пуассон
Вероятностная функция масс
CMP PMF
Кумулятивная функция распределения
CMP CDF
Параметры
Поддерживать
PMF
CDF
Иметь в виду
МедианаНет закрытой формы
РежимСм. Текст
Дисперсия
АсимметрияНет в списке
Бывший. эксцессНет в списке
ЭнтропияНет в списке
MGF
CF

В теория вероятности и статистика, то Распределение Конвея – Максвелла – Пуассона (CMP или COM – Пуассона) это дискретное распределение вероятностей названный в честь Ричард В. Конвей, Уильям Л. Максвелл, и Симеон Дени Пуассон это обобщает распределение Пуассона добавив параметр в модель чрезмерная дисперсия и недостаточная дисперсия. Он является членом экспоненциальная семья,[1] имеет распределение Пуассона и геометрическое распределение так как Особые случаи и Распределение Бернулли как предельный случай.[2]

Фон

Распределение CMP было первоначально предложено Конвеем и Максвеллом в 1962 году.[3] как решение проблемы системы массового обслуживания со ставками обслуживания, зависящими от государства. Распределение CMP было введено в статистическую литературу Боутрайтом и др. 2003 г. [4] и Шмуэли и др. (2005).[2]. Первое подробное исследование вероятностных и статистических свойств распределения было опубликовано Shmueli et al. (2005).[2]. Некоторые теоретические вероятностные результаты распределения COM-Пуассона изучены и рассмотрены Ли и др. (2019),[5] особенно характеристики распределения COM-Пуассона.

Вероятностная функция масс и основные свойства

Распределение CMP определяется как распределение с функция массы вероятности

куда :

Функция служит константа нормализации поэтому функция массы вероятности в сумме равна единице. Обратите внимание, что не имеет закрытой формы.

Область допустимых параметров , и , .

Дополнительный параметр который не появляется в распределение Пуассона позволяет регулировать скорость распада. Эта скорость убывания является нелинейным уменьшением отношений последовательных вероятностей, в частности

Когда , распределение CMP становится стандартным распределение Пуассона и, как , распределение приближается к Распределение Бернулли с параметром . Когда распределение CMP сводится к геометрическое распределение с вероятностью успеха при условии .[2]

Для распределения ОСМ моменты можно найти с помощью рекурсивной формулы [2]

Кумулятивная функция распределения

Для общего , не существует формулы замкнутого вида для кумулятивная функция распределения из . Если является целым числом, однако мы можем получить следующую формулу в терминах обобщенная гипергеометрическая функция:[6]

Нормирующая постоянная

Многие важные сводные статистические данные, такие как моменты и кумулянты, распределения CMP могут быть выражены в терминах нормирующей константы .[2][7] Действительно, функция, производящая вероятность является , а иметь в виду и отклонение даны

В кумулянтная производящая функция является

и кумулянты даны

В то время как нормализующая постоянная вообще не имеет закрытой формы, есть некоторые заслуживающие внимания частные случаи:

  • , где это модифицированная функция Бесселя первого вида.[7]
  • Для целого числа , нормирующая постоянная может быть выражена [6] как обобщенная гипергеометрическая функция: .

Поскольку нормализующая константа, как правило, не имеет замкнутой формы, следующие асимптотическое разложение представляет интерес. Исправить . Тогда как , [8]

где однозначно определяются разложением

Особенно, , , . Дальше коэффициенты даны в.[8]

Моменты, кумулянты и связанные результаты

Для общих значений , не существует закрытых формул для среднего, дисперсии и моментов распределения ОСМ. Однако у нас есть следующая изящная формула.[7] Позволять обозначить падающий факториал. Позволять , . потом

для .

Поскольку в общем случае формулы закрытых формул для моментов и кумулянтов распределения CMP недоступны, представляют интерес следующие асимптотические формулы. Позволять , где . Обозначим перекос и избыточный эксцесс , где . Тогда как , [8]

где

Асимптотический ряд для относится ко всем , и .

Моменты для случая целого числа

Когда является целочисленной явной формулой для моменты может быть получен. Дело соответствует распределению Пуассона. Предположим теперь, что . За , [7]

Использование соединительной формулы для моментов и факториальных моментов дает

В частности, среднее значение дан кем-то

Кроме того, поскольку , дисперсия определяется выражением

Предположим теперь, что целое число. потом [6]

Особенно,

и

Медиана, мода и среднее отклонение

Позволять . Тогда Режим из является если не является целым числом. В противном случае режимы находятся и .[7]

Среднее отклонение о его значении дан кем-то [7]

Явная формула для медиана из , но имеется следующий асимптотический результат.[7] Позволять быть медианой . потом

так как .

Характеристика Штейна

Позволять , и предположим, что таково, что и . потом

Наоборот, предположим теперь, что - случайная величина с действительным знаком, поддерживаемая такой, что для всех ограниченных . потом .[7]

Использовать как ограничивающее распространение

Позволять иметь Конвей – Максвелл – биномиальное распределение с параметрами , и . Исправить и . Потом, сходится по распределению к распространение как .[7] Этот результат обобщает классическое пуассоновское приближение биномиального распределения. В более общем смысле, распределение CMP возникает как предельное распределение биномиального распределения Конвея – Максвелла – Пуассона.[7] Помимо того, что COM-бином приближается к COM-Пуассону, Zhang et al. (2018)[9] иллюстрирует, что COM-отрицательное биномиальное распределение с функция массы вероятности

сходится к предельному распределению, которое является COM-Пуассоном, как .

Связанные дистрибутивы

  • , тогда следует распределению Пуассона с параметром .
  • Предполагать . Тогда если у нас есть это следует геометрическому распределению с функцией массы вероятности , .
  • Последовательность случайной величины сходится по распределению как распределению Бернулли со средним .

Оценка параметров

Существует несколько методов оценки параметров распределения CMP по данным. Будут обсуждаться два метода: взвешенный метод наименьших квадратов и метод максимального правдоподобия. Метод взвешенных наименьших квадратов прост и эффективен, но ему не хватает точности. С другой стороны, максимальная вероятность точна, но более сложна и требует больших вычислительных ресурсов.

Взвешенный метод наименьших квадратов

В взвешенный метод наименьших квадратов предоставляет простой и эффективный метод для получения приблизительных оценок параметров распределения CMP и определения того, будет ли это распределение подходящей моделью. После использования этого метода следует использовать альтернативный метод для вычисления более точных оценок параметров, если модель считается подходящей.

Этот метод использует отношения последовательных вероятностей, как обсуждалось выше. Логарифмируя обе части этого уравнения, возникает следующая линейная зависимость

где обозначает . При оценке параметров вероятности можно заменить на относительные частоты из и . Чтобы определить, является ли распределение CMP подходящей моделью, эти значения должны быть сопоставлены для всех соотношений без нулевых отсчетов. Если данные кажутся линейными, то модель, скорее всего, подходит.

Как только соответствие модели определено, параметры могут быть оценены путем подбора регрессии на . Однако основное предположение гомоскедастичность нарушается, поэтому взвешенный метод наименьших квадратов должна использоваться регрессия. Матрица обратных весов будет иметь дисперсии каждого отношения на диагонали с одношаговыми ковариациями на первой недиагонали, обе приведены ниже.

Максимальная вероятность

CMP функция правдоподобия является

где и . Увеличение вероятности дает следующие два уравнения

которые не имеют аналитического решения.

Вместо этого максимальная вероятность оценки аппроксимируются численно Метод Ньютона – Рафсона. На каждой итерации ожидания, дисперсии и ковариация и аппроксимируются с использованием оценок для и из предыдущей итерации в выражении

Это продолжается до схождения и .

Обобщенная линейная модель

Рассмотренное выше базовое распределение CMP также использовалось в качестве основы для обобщенная линейная модель (GLM) с использованием байесовской формулы. Был разработан двухканальный GLM на основе раздачи CMP,[10]и эта модель использовалась для оценки данных о дорожно-транспортных происшествиях.[11][12] CMP GLM, разработанный Guikema и Coffelt (2008), основан на переформулировке приведенного выше распределения CMP, заменяющей с участием . Неотъемлемая часть это тогда режим распределения. Был использован подход полной байесовской оценки с MCMC отбор проб осуществлен в WinBugs с участием неинформативный априор для параметров регрессии.[10][11] Этот подход требует больших вычислительных ресурсов, но он дает полные апостериорные распределения для параметров регрессии и позволяет включать экспертные знания с помощью информативных априорных значений.

Была разработана классическая формулировка GLM для регрессии CMP, которая обобщает Регрессия Пуассона и логистическая регрессия.[13] Это использует преимущества экспоненциальная семья свойства распределения CMP для получения элегантной оценки модели (через максимальная вероятность ), вывод, диагностика и интерпретация. Этот подход требует значительно меньше вычислительного времени, чем байесовский подход, за счет того, что не позволяет включить экспертные знания в модель.[13] Вдобавок он дает стандартные ошибки для параметров регрессии (через информационную матрицу Фишера) по сравнению с полными апостериорными распределениями, полученными с помощью байесовской формулировки. Он также обеспечивает статистический тест для уровня дисперсии по сравнению с моделью Пуассона. Доступен код для подбора регрессии CMP, тестирования дисперсии и оценки соответствия.[14]

Две структуры GLM, разработанные для распределения CMP, значительно расширяют полезность этого распределения для задач анализа данных.

Рекомендации

  1. ^ «Регрессия Конвея – Максвелла – Пуассона». Поддержка SAS. Институт САС, Inc.. Получено 2 марта 2015.
  2. ^ а б c d е ж Шмуэли Г., Минка Т., Кадане Дж. Б., Борле С., Боутрайт П. Б. «Полезное распределение для подгонки дискретных данных: возрождение распределения Конвея – Максвелла – Пуассона». Журнал Королевского статистического общества: Серия C (Прикладная статистика) 54.1 (2005): 127–142.[1]
  3. ^ Conway, R.W .; Максвелл, У. Л. (1962), "Модель массового обслуживания со скоростью обслуживания, зависящей от состояния", Журнал промышленной инженерии, 12: 132–136
  4. ^ Боутрайт, П., Борле, С. и Кадане, Дж. Б. «Модель совместного распределения количества закупок и сроков». Журнал Американской статистической ассоциации 98 (2003): 564–572.
  5. ^ Ли Б., Чжан Х., Цзяо Х. «Некоторые характеристики и свойства COM-пуассоновских случайных величин». Коммуникации в статистике - Теория и методы, (2019).[2]
  6. ^ а б c Надараджа, С. «Полезный момент и формулировки CDF для распределения COM – Пуассона». Статистические документы 50 (2009): 617–622.
  7. ^ а б c d е ж грамм час я j Дейли Ф. и Гонт Р. «Распределение Конвея – Максвелла – Пуассона: теория распределений и приближение». Латиноамериканский журнал вероятностей и математической статистики ALEA 13 (2016): 635–658.
  8. ^ а б c Гонт, Р.Э., Айенгар, С., Олде Даалхуис, А.Б. и Симсек, Б. «Асимптотическое разложение для нормирующей постоянной распределения Конвея – Максвелла – Пуассона». Появиться в Анналах Института статистической математики (2017+) DOI 10.1007 / s10463-017-0629-6
  9. ^ Чжан Х., Тан К., Ли Б. "COM-отрицательное биномиальное распределение: моделирование сверхдисперсии и сверхвысоких данных подсчета с нулевым завышением". Границы математики в Китае, 2018, 13 (4): 967–998.[3]
  10. ^ а б Гикема, С. и J.P. Coffelt (2008) "Гибкая модель регрессии данных подсчета для анализа рисков", Анализ риска, 28 (1), 213–223. Дои:10.1111 / j.1539-6924.2008.01014.x
  11. ^ а б Лорд, Д., С.Д. Гикема, С. Geedipally (2008) «Применение обобщенной линейной модели Конвея – Максвелла – Пуассона для анализа дорожно-транспортных происшествий», Анализ и предотвращение несчастных случаев, 40 (3), 1123–1134. Дои:10.1016 / j.aap.2007.12.003
  12. ^ Лорд, Д., С.Р. Гедипалли, С. Guikema (2010) «Расширение применения моделей Конвея – Максвелла – Пуассона: анализ данных о дорожных авариях, демонстрирующих недостаточную дисперсию», Анализ риска, 30 (8), 1268–1276. Дои:10.1111 / j.1539-6924.2010.01417.x
  13. ^ а б Продавцы, К.С. и Шмуэли, Г. (2010), «Гибкая модель регрессии для данных подсчета», Анналы прикладной статистики, 4 (2), 943–961
  14. ^ Код для моделирования COM_Poisson, Georgetown Univ.

внешняя ссылка