Бета-биномиальное распределение - Beta-binomial distribution - Wikipedia

Вероятностная функция масс
Вероятностная функция масс для бета-биномиального распределения
Кумулятивная функция распределения
Кумулятивная функция распределения вероятностей для бета-биномиального распределения
ПараметрыпN0 - количество испытаний
(настоящий )
(настоящий )
Поддерживатьk ∈ { 0, …, п }
PMF
CDF

куда 3F2(а,б, л) это обобщенная гипергеометрическая функция
Иметь в виду
Дисперсия
Асимметрия
Бывший. эксцессСм. Текст
MGF
CF
PGF

В теория вероятности и статистика, то бета-биномиальное распределение семейство дискретных распределения вероятностей на конечном поддерживать неотрицательных целых чисел, возникающих, когда вероятность успеха в каждом из фиксированного или известного количества Бернулли испытания либо неизвестно, либо случайно. Бета-биномиальное распределение - это биномиальное распределение в котором вероятность успеха на каждом из п испытания не фиксируются, а выбираются случайным образом из бета-распространение. Часто используется в Байесовская статистика, эмпирические байесовские методы и классическая статистика захватить чрезмерная дисперсия в распределенных данных биномиального типа.

Это сводится к Распределение Бернулли как частный случай, когда п = 1. Для α = β = 1, это дискретное равномерное распределение от 0 доп. Он также приближается к биномиальное распределение произвольно хорошо для больших α иβ. Точно так же он содержит отрицательное биномиальное распределение в пределе с большими β и п. Бета-бином - это одномерная версия Дирихле-полиномиальное распределение поскольку биномиальное и бета-распределения являются одномерными версиями полиномиальный и Распределения Дирихле соответственно.

Мотивация и вывод

Как составное распределение

В Бета-распределение это сопряженное распределение из биномиальное распределение. Этот факт приводит к аналитически поддающейся обработке составное распределение где можно подумать о параметр в биномиальном распределении, взятый случайным образом из бета-распределения. А именно, если

тогда

где Bin (п,п) обозначает биномиальное распределение, и где п это случайная переменная с бета-распространение.

тогда составное распределение дается выражением

Используя свойства бета-функция, это можно альтернативно записать

Бета-бином как модель урны

Бета-биномиальное распределение также может быть мотивировано через модель урны для положительного целое число ценности α и β, известный как Модель урны Pólya. В частности, представьте урну, содержащую α красные шары и β черные шары, на которых делаются случайные розыгрыши. Если наблюдается красный шар, то в урну возвращаются два красных шара. Точно так же, если выпадает черный шар, в урну возвращаются два черных шара. Если это повторяется п раз, то вероятность наблюдения k красные шары подчиняются бета-биномиальному распределению с параметрами п, α иβ.

Если случайные розыгрыши выполняются с простой заменой (в урну не добавляются шары, превышающие наблюдаемый шар), то распределение следует биномиальному распределению, а если случайные розыгрыши выполняются без замены, распределение следует гипергеометрическое распределение.

Моменты и свойства

Первые три сырых моменты находятся

и эксцесс является

Сдача заметим, предположительно, что среднее значение может быть записано как

и дисперсия как

куда . Параметр известна как «внутриклассовая» или «внутрикластерная» корреляция. Именно эта положительная корреляция приводит к чрезмерной дисперсии.

Точечные оценки

Метод моментов

В метод моментов оценки можно получить, отметив первый и второй моменты бета-бинома, а именно

и установив эти исходные моменты равными первому и второму необработанным образцы моментов соответственно

и решение для α и β мы получили

Эти оценки могут быть бессмысленными отрицательными, что свидетельствует о том, что данные либо не диспергированы, либо недостаточно диспергированы относительно биномиального распределения. В этом случае биномиальное распределение и гипергеометрическое распределение являются альтернативными кандидатами соответственно.

Оценка максимального правдоподобия

В закрытом виде оценки максимального правдоподобия непрактичны, учитывая, что PDF-файл состоит из общих функций (гамма-функции и / или бета-функции), их можно легко найти с помощью прямой численной оптимизации. Оценки максимального правдоподобия на основе эмпирических данных могут быть вычислены с использованием общих методов аппроксимации полиномиальных распределений Полиа, методы для которых описаны в (Минка 2003). В р пакет VGAM через функцию vglm, с максимальной вероятностью, облегчает установку glm модели с ответами, распределенными согласно бета-биномиальному распределению. Не требуется, чтобы n было фиксированным на протяжении всех наблюдений.

Пример

Следующие данные показывают количество детей мужского пола среди первых 12 детей в семье размером 13 в 6115 семей, взятых из больничных записей в 19 веке. Саксония (Сокал и Рольф, стр. 59 от Линдси). 13-й ребенок игнорируется, чтобы смягчить эффект неслучайной остановки семей при достижении желаемого пола.

Самцы0123456789101112
Семьи324104286670103313431112829478181457

Первые два примерных момента:

и поэтому метод оценок моментов

В максимальная вероятность оценки можно найти численно

а максимальное логарифмическое правдоподобие равно

из которого мы находим AIC

AIC для конкурирующей биномиальной модели составляет AIC = 25070,34, и, таким образом, мы видим, что бета-биномиальная модель обеспечивает лучшее соответствие данным, то есть есть свидетельства чрезмерной дисперсии. Трайверс и Уиллард теоретически обосновать неоднородность (также известную как "вспыльчивость ") в гендерной принадлежности среди млекопитающее потомство (т.е. сверхдисперсия).

Превосходная посадка особенно заметна среди хвостов.

Самцы0123456789101112
Наблюдаемые семьи324104286670103313431112829478181457
Соответствующее ожидаемое (бета-биномиальное)2.322.6104.8310.9655.71036.21257.91182.1853.6461.9177.943.85.2
Соответствующее ожидаемое (биномиальное п = 0.519215)0.912.171.8258.5628.11085.21367.31265.6854.2410.0132.826.12.3

Дальнейшие байесовские соображения

Распределения удобно повторно параметризовать так, чтобы ожидаемое среднее априорного значения было единственным параметром: Пусть

куда

так что

В апостериорное распределение ρ(θ | k) также является бета-распределением:

И

в то время как предельное распределение м(k|μ, M) дан кем-то

Подставляя обратно M и μ в терминах и , это становится:

которое является ожидаемым бета-биномиальным распределением с параметрами и .

Мы также можем использовать метод повторных ожиданий, чтобы найти ожидаемое значение краевых моментов. Запишем нашу модель в виде двухэтапной модели составной выборки. Позволять kя быть числом успеха из пя испытания для события я:

Мы можем найти повторные оценки моментов для среднего и дисперсии, используя моменты для распределений в двухступенчатой ​​модели:

(Здесь мы использовали закон полного ожидания и закон полной дисперсии.)

Нам нужны точечные оценки для и . Расчетное среднее рассчитывается по выборке

Оценка гиперпараметра M получается с использованием моментных оценок дисперсии двухступенчатой ​​модели:

Решение:

куда

Поскольку теперь у нас есть точечные оценки параметров, и , для основного распределения мы хотели бы найти точечную оценку на вероятность успеха мероприятия я. Это средневзвешенная оценка события. и . Учитывая наши точечные оценки для предыдущего, мы можем теперь подставить эти значения, чтобы найти точечную оценку для апостериорного

Факторы усадки

Мы можем записать апостериорную оценку как средневзвешенную:

куда называется коэффициент усадки.

Связанные дистрибутивы

Смотрите также

Рекомендации

внешняя ссылка