Теорема Уилкса - Wilks theorem - Wikipedia

В статистика Теорема Уилкса предлагает асимптотическое распределение статистики логарифмического отношения правдоподобия, которую можно использовать для получения доверительных интервалов для максимальная вероятность оценки или как статистика теста для выполнения Тест отношения правдоподобия.

Статистические тесты (например, проверка гипотезы ) обычно требуется знание распределение вероятностей теста статистика. Это часто проблема для отношения правдоподобия, где распределение вероятностей может быть очень сложно определить.

Удобный результат от Сэмюэл С. Уилкс говорит, что по мере приближения размера выборки ${ displaystyle infty}$ , распределение тестовой статистики ${ Displaystyle -2 журнал ( Lambda)}$ асимптотически приближается к хи-квадрат ( ${ displaystyle chi ^ {2}}$ ) распределение под нулевая гипотеза ${ displaystyle H_ {0}}$ .^[1] Здесь, ${ displaystyle Lambda}$ обозначает отношение правдоподобия, а ${ displaystyle chi ^ {2}}$ распределение имеет степени свободы, равные разности размерностей ${ displaystyle Theta}$ и ${ displaystyle Theta _ {0}}$ , куда ${ displaystyle Theta}$ это полный пространство параметров и ${ displaystyle Theta _ {0}}$ это подмножество пространства параметров, связанное с ${ displaystyle H_ {0}}$ . Этот результат означает, что для больших выборок и большого разнообразия гипотез практик может вычислить отношение правдоподобия. ${ displaystyle Lambda}$ для данных и сравните ${ Displaystyle -2 журнал ( Lambda)}$ к ${ displaystyle chi ^ {2}}$ значение, соответствующее желаемому Статистическая значимость как приблизительный статистический тест.

Теорема больше не применяется, когда любой из оцененных параметров находится на верхнем или нижнем пределе: теорема Уилкса предполагает, что «истинные», но неизвестные значения оцененных параметров лежат в пределах интерьер из поддержанный пространство параметров. Максимум правдоподобия может больше не иметь предполагаемую эллипсоидальную форму, если максимальное значение для функции правдоподобия популяции встречается при некотором граничном значении одного из параметров, то есть на краю пространство параметров. В этом случае критерий правдоподобия по-прежнему будет действительным и оптимальным, что гарантировано Лемма Неймана-Пирсона,^[2] но значение ( $п$ -значение) не может быть надежно оценен с помощью распределения хи-квадрат с числом степеней свободы, предписанным Уилксом.

Использовать

Каждая из двух конкурирующих моделей, нулевая модель и альтернативная модель, отдельно настраивается на данные и логарифмическая вероятность записано. Статистика теста (часто обозначается $D$ ) вдвое больше логарифма отношения правдоподобия, т.е., это в два раза больше логарифмической вероятности:

{ displaystyle { begin {align} D & = - 2 ln left ({ frac { text {вероятность для нулевой модели}} { text {вероятность для альтернативной модели}}} right) [5pt] & = 2 ln left ({ frac { text {вероятность для альтернативной модели}} { text {вероятность для нулевой модели}}} right) [5pt] & = 2 times [ ln ({ text {вероятность для альтернативной модели}}) - ln ({ text {вероятность для нулевой модели}})] [5pt] end {выравнивается}}}

Модель с дополнительными параметрами (здесь альтернатива) всегда будет соответствовать, по крайней мере, так же, то есть иметь такую же или большую логарифмическую вероятность, чем модель с меньшим количеством параметров (здесь ноль). Является ли соответствие значительно лучшим и, следовательно, предпочтительным, определяется путем определения вероятности ( $п$ -ценить ) стоит заметить такую разницу $D$ к только шанс, если верна модель с меньшим количеством параметров. Если нулевая гипотеза представляет собой частный случай альтернативной гипотезы, распределение вероятностей из статистика теста примерно распределение хи-квадрат с степени свободы равно ${ displaystyle , df _ { text {alt}} - df _ { text {null}} ,}$ ,^[3] соответственно количество свободных параметров моделей альтернатива и ноль.

Например: если нулевая модель имеет 1 параметр и логарифмическую вероятность -8024, а альтернативная модель имеет 3 параметра и логарифм правдоподобия -8012, то вероятность этой разницы равна значению хи-квадрат, равному ${ Displaystyle 2 раз (-8012 - (- 8024)) = 24}$ с ${ displaystyle 3-1 = 2}$ степеней свободы и равно ${ displaystyle 6 times 10 ^ {- 6}}$ . Некоторые предположения^[1] должны быть выполнены, чтобы статистика соответствовала распределение хи-квадрат, но эмпирический $п$ -значения также могут быть вычислены, если эти условия не выполняются.

Примеры

Подбрасывание монет

Пример теста Пирсона - сравнение двух монет, чтобы определить, имеют ли они одинаковую вероятность выпадения орла. Наблюдения можно поместить в Таблица сопряженности со строками, соответствующими монете, и столбцами, соответствующими орлам или решкам. Элементами таблицы непредвиденных обстоятельств будет количество раз, когда каждая монета выпадала орлом или решкой. Содержание этой таблицы - наши наблюдения $Икс$ .

{ displaystyle { begin {array} {c | cc} X & { text {Heads}} & { text {Tails}} hline { text {Coin 1}} & k _ { mathrm {1H}} & k _ { mathrm {1T}} { text {Coin 2}} & k _ { mathrm {2H}} & k _ { mathrm {2T}} end {array}}}

Здесь $Θ$ состоит из возможных комбинаций значений параметров ${ displaystyle p _ { mathrm {1H}}}$ , ${ displaystyle p _ { mathrm {1T}}}$ , ${ displaystyle p _ { mathrm {2H}}}$ , и ${ displaystyle p _ { mathrm {2T}}}$ , которые представляют собой вероятность того, что монеты 1 и 2 выпадут орлом или решкой. В дальнейшем ${ displaystyle i = 1,2}$ и ${ Displaystyle J = mathrm {H, T}}$ . Пространство гипотез $ЧАС$ ограничен обычными ограничениями на распределение вероятностей, ${ displaystyle 0 leq p_ {ij} leq 1}$ , и ${ displaystyle p_ {я mathrm {H}} + p_ {i mathrm {T}} = 1}$ . Пространство нулевой гипотезы ${ displaystyle H_ {0}}$ - подпространство, в котором ${ displaystyle p_ {1j} = p_ {2j}}$ . Письмо ${ displaystyle n_ {ij}}$ для лучших оценок ${ displaystyle p_ {ij}}$ согласно гипотезе $ЧАС$ , оценка максимального правдоподобия дается выражением

{ displaystyle n_ {ij} = { frac {k_ {ij}} {k_ {i mathrm {H}} + k_ {i mathrm {T}}}} ,.}

Точно так же оценки максимального правдоподобия ${ displaystyle p_ {ij}}$ при нулевой гипотезе ${ displaystyle H_ {0}}$ даны

{ displaystyle m_ {ij} = { frac {k_ {1j} + k_ {2j}} {k _ { mathrm {1H}} + k _ { mathrm {2H}} + k _ { mathrm {1T}} + к _ { mathrm {2T}}}} ,,}

который не зависит от монеты $я$ .

Гипотезу и нулевую гипотезу можно немного переписать так, чтобы они удовлетворяли ограничениям на логарифм отношения правдоподобия, чтобы иметь желаемое хорошее распределение. Поскольку ограничение вызывает двумерное $ЧАС$ сводиться к одномерному ${ displaystyle H_ {0}}$ , асимптотическое распределение для теста будет ${ Displaystyle чи ^ {2} (1)}$ , то ${ displaystyle chi ^ {2}}$ распространение с одной степенью свободы.

Для общей таблицы непредвиденных обстоятельств мы можем записать статистику отношения логарифмического правдоподобия как

{ displaystyle -2 log Lambda = 2 sum _ {i, j} k_ {ij} log { frac {n_ {ij}} {m_ {ij}}} ,.}

Недействительно для моделей со случайными или смешанными эффектами

Теорема Уилкса предполагает, что истинные, но неизвестные значения оцениваемых параметров находятся в интерьер из пространство параметров. Обычно это нарушается в случайный или же модели со смешанными эффектами, например, когда один из компонентов дисперсии незначителен по сравнению с другими. В некоторых таких случаях один компонент дисперсии может быть фактически нулевым по сравнению с другими, или в других случаях модели могут быть неправильно вложены.

Чтобы было ясно: эти ограничения теоремы Уилкса действительно нет отрицать любой мощность свойства конкретного теста отношения правдоподобия.^[2] Единственная проблема в том, что ${ displaystyle chi ^ {2}}$ распределение иногда плохой выбор для оценки Статистическая значимость результата.

Плохие примеры

Пинейро и Бейтс (2000) показали, что истинное распределение этой статистики хи-квадрат отношения правдоподобия может существенно отличаться от наивной статистики. ${ displaystyle chi ^ {2}}$ - часто так резко.^[4] Наивные предположения могут дать вероятности значимости ( $п$ -значения) которые, в среднем, слишком велики в одних случаях и слишком малы в других.

В общем, для проверки случайных эффектов они рекомендуют использовать Ограниченная максимальная вероятность (REML). По их словам, для тестирования с фиксированными эффектами «тест отношения правдоподобия для REML-соответствий невозможен», потому что изменение спецификации фиксированных эффектов меняет смысл смешанных эффектов, и поэтому ограниченная модель не вложена в более крупную модель.^[4] В качестве демонстрации они устанавливают одну или две дисперсии случайных эффектов равными нулю в смоделированных тестах. В этих конкретных примерах смоделированные $п$ -значения с $k$ ограничения наиболее точно соответствовали смеси 50–50 ${ Displaystyle чи ^ {2} (к)}$ и ${ Displaystyle чи ^ {2} (к-1)}$ . (С $k = 1$ , ${ Displaystyle чи ^ {2} (0)}$ равно 0 с вероятностью 1. Это означает, что хорошее приближение ${ Displaystyle , 0,5 , чи ^ {2} (1) ,.}$ )^[4]

Пинейро и Бейтс также смоделировали тесты различных фиксированных эффектов. В одном тесте фактора с 4 уровнями (степени свободы = 3), они обнаружили, что смесь 50–50 ${ Displaystyle чи ^ {2} (3)}$ и ${ Displaystyle чи ^ {2} (4)}$ был подходящим вариантом для настоящего $п$ -значения, полученные моделированием, - и ошибка в использовании наивного ${ Displaystyle чи ^ {2} (3)}$ "Может быть не слишком тревожным".^[4]

Однако в другом тесте фактора с 15 уровнями они нашли разумное соответствие ${ Displaystyle чи ^ {2} (18)}$ - на 4 степени свободы больше, чем 14, которые можно было бы получить в результате наивного (неуместного) применения теоремы Уилкса, и смоделированный $п$ -значение было в несколько раз наивным ${ Displaystyle чи ^ {2} (14)}$ . Они пришли к выводу, что для тестирования фиксированных эффектов «разумно использовать моделирование».^[а]

Смотрите также

Примечания

^ Пинейру и Бейтс (2000)^[4] предоставил simulate.lme функции в их я пакет для S-PLUS и р для поддержки моделирования REML; см. исх.^[5]

Другие источники

Казелла, Джордж; Бергер, Роджер Л. (2001). Статистические выводы (Второе изд.). ISBN 0-534-24312-6.CS1 maint: ref = harv (связь)
Настроение, A.M .; Грейбилл, Ф.А. (1963). Введение в теорию статистики (2-е изд.). Макгроу-Хилл. ISBN 978-0070428638.CS1 maint: ref = harv (связь)
Cox, D.R .; Хинкли, Д.В. (1974). Теоретическая статистика. Чепмен и Холл. ISBN 0-412-12420-3.CS1 maint: ref = harv (связь)
Стюарт, А .; Ord, K .; Арнольд, С. (1999). Продвинутая теория статистики Кендалла. 2А. Лондон: Арнольд. ISBN 978-0-340-66230-4.CS1 maint: ref = harv (связь)

внешняя ссылка

«Отношение правдоподобия: теорема Уилкса».

[6] Пинейру и Бейтс (2000)^[4] предоставил simulate.lme функции в их я пакет для S-PLUS и р для поддержки моделирования REML; см. исх.^[5]

[Wilks_1938-1] а ^б Уилкс, Сэмюэл С. (1938). «Распределение отношения правдоподобия по большой выборке для проверки сложных гипотез». Анналы математической статистики. 9 (1): 60–62. Дои:10.1214 / aoms / 1177732360.CS1 maint: ref = harv (связь)

[Neyman_Pearson_1933-2] а ^б Нейман, Ежи; Пирсон, Эгон С. (1933). «К вопросу о наиболее эффективных проверках статистических гипотез» (PDF). Философские труды Королевского общества A: математические, физические и инженерные науки. 231 (694–706): 289–337. Bibcode:1933РСПТА.231..289Н. Дои:10.1098 / рста.1933.0009. JSTOR 91247.CS1 maint: ref = harv (связь)

[Huelsenbeck_Crandall_1997-3] Huelsenbeck, J.P .; Крэндалл, К. (1997). «Филогенетическая оценка и проверка гипотез с использованием максимального правдоподобия». Ежегодный обзор экологии и систематики. 28: 437–466. Дои:10.1146 / annurev.ecolsys.28.1.437.

[Pinheiro_Bates-4] а ^б ^c ^d ^е Пинейро, Хосе К.; Бейтс, Дуглас М. (2000). Модели со смешанными эффектами в S и S-PLUS. Springer-Verlag. С. 82–93. ISBN 0-387-98957-9.

[5] "Смоделировать результаты я модели " (PDF). R-project.org (программная документация). Упаковка я. 12 мая 2019. С. 281–282.. Получено 8 июн 2019.

[1]

[2]

[3]

[4]

[а]

[5]