Теорема Уилкса - Wilks theorem - Wikipedia

В статистика Теорема Уилкса предлагает асимптотическое распределение статистики логарифмического отношения правдоподобия, которую можно использовать для получения доверительных интервалов для максимальная вероятность оценки или как статистика теста для выполнения Тест отношения правдоподобия.

Статистические тесты (например, проверка гипотезы ) обычно требуется знание распределение вероятностей теста статистика. Это часто проблема для отношения правдоподобия, где распределение вероятностей может быть очень сложно определить.

Удобный результат от Сэмюэл С. Уилкс говорит, что по мере приближения размера выборки , распределение тестовой статистики асимптотически приближается к хи-квадрат () распределение под нулевая гипотеза .[1] Здесь, обозначает отношение правдоподобия, а распределение имеет степени свободы, равные разности размерностей и , куда это полный пространство параметров и это подмножество пространства параметров, связанное с . Этот результат означает, что для больших выборок и большого разнообразия гипотез практик может вычислить отношение правдоподобия. для данных и сравните к значение, соответствующее желаемому Статистическая значимость как приблизительный статистический тест.

Теорема больше не применяется, когда любой из оцененных параметров находится на верхнем или нижнем пределе: теорема Уилкса предполагает, что «истинные», но неизвестные значения оцененных параметров лежат в пределах интерьер из поддержанный пространство параметров. Максимум правдоподобия может больше не иметь предполагаемую эллипсоидальную форму, если максимальное значение для функции правдоподобия популяции встречается при некотором граничном значении одного из параметров, то есть на краю пространство параметров. В этом случае критерий правдоподобия по-прежнему будет действительным и оптимальным, что гарантировано Лемма Неймана-Пирсона,[2] но значение ( п-значение) не может быть надежно оценен с помощью распределения хи-квадрат с числом степеней свободы, предписанным Уилксом.

Использовать

Каждая из двух конкурирующих моделей, нулевая модель и альтернативная модель, отдельно настраивается на данные и логарифмическая вероятность записано. Статистика теста (часто обозначается D) вдвое больше логарифма отношения правдоподобия, т.е., это в два раза больше логарифмической вероятности:

Модель с дополнительными параметрами (здесь альтернатива) всегда будет соответствовать, по крайней мере, так же, то есть иметь такую ​​же или большую логарифмическую вероятность, чем модель с меньшим количеством параметров (здесь ноль). Является ли соответствие значительно лучшим и, следовательно, предпочтительным, определяется путем определения вероятности (п-ценить ) стоит заметить такую ​​разницуD к только шанс, если верна модель с меньшим количеством параметров. Если нулевая гипотеза представляет собой частный случай альтернативной гипотезы, распределение вероятностей из статистика теста примерно распределение хи-квадрат с степени свободы равно ,[3] соответственно количество свободных параметров моделей альтернатива и ноль.

Например: если нулевая модель имеет 1 параметр и логарифмическую вероятность -8024, а альтернативная модель имеет 3 параметра и логарифм правдоподобия -8012, то вероятность этой разницы равна значению хи-квадрат, равному с степеней свободы и равно . Некоторые предположения[1] должны быть выполнены, чтобы статистика соответствовала распределение хи-квадрат, но эмпирический п-значения также могут быть вычислены, если эти условия не выполняются.

Примеры

Подбрасывание монет

Пример теста Пирсона - сравнение двух монет, чтобы определить, имеют ли они одинаковую вероятность выпадения орла. Наблюдения можно поместить в Таблица сопряженности со строками, соответствующими монете, и столбцами, соответствующими орлам или решкам. Элементами таблицы непредвиденных обстоятельств будет количество раз, когда каждая монета выпадала орлом или решкой. Содержание этой таблицы - наши наблюдения Икс.

Здесь Θ состоит из возможных комбинаций значений параметров , , , и , которые представляют собой вероятность того, что монеты 1 и 2 выпадут орлом или решкой. В дальнейшем и . Пространство гипотез ЧАС ограничен обычными ограничениями на распределение вероятностей, , и . Пространство нулевой гипотезы - подпространство, в котором . Письмо для лучших оценок согласно гипотезе ЧАС, оценка максимального правдоподобия дается выражением

Точно так же оценки максимального правдоподобия при нулевой гипотезе даны

который не зависит от монеты я.

Гипотезу и нулевую гипотезу можно немного переписать так, чтобы они удовлетворяли ограничениям на логарифм отношения правдоподобия, чтобы иметь желаемое хорошее распределение. Поскольку ограничение вызывает двумерное ЧАС сводиться к одномерному , асимптотическое распределение для теста будет , то распространение с одной степенью свободы.

Для общей таблицы непредвиденных обстоятельств мы можем записать статистику отношения логарифмического правдоподобия как

Недействительно для моделей со случайными или смешанными эффектами

Теорема Уилкса предполагает, что истинные, но неизвестные значения оцениваемых параметров находятся в интерьер из пространство параметров. Обычно это нарушается в случайный или же модели со смешанными эффектами, например, когда один из компонентов дисперсии незначителен по сравнению с другими. В некоторых таких случаях один компонент дисперсии может быть фактически нулевым по сравнению с другими, или в других случаях модели могут быть неправильно вложены.

Чтобы было ясно: эти ограничения теоремы Уилкса действительно нет отрицать любой мощность свойства конкретного теста отношения правдоподобия.[2] Единственная проблема в том, что распределение иногда плохой выбор для оценки Статистическая значимость результата.

Плохие примеры

Пинейро и Бейтс (2000) показали, что истинное распределение этой статистики хи-квадрат отношения правдоподобия может существенно отличаться от наивной статистики. - часто так резко.[4] Наивные предположения могут дать вероятности значимости (п-значения) которые, в среднем, слишком велики в одних случаях и слишком малы в других.

В общем, для проверки случайных эффектов они рекомендуют использовать Ограниченная максимальная вероятность (REML). По их словам, для тестирования с фиксированными эффектами «тест отношения правдоподобия для REML-соответствий невозможен», потому что изменение спецификации фиксированных эффектов меняет смысл смешанных эффектов, и поэтому ограниченная модель не вложена в более крупную модель.[4] В качестве демонстрации они устанавливают одну или две дисперсии случайных эффектов равными нулю в смоделированных тестах. В этих конкретных примерах смоделированные п-значения с k ограничения наиболее точно соответствовали смеси 50–50 и . (С k = 1, равно 0 с вероятностью 1. Это означает, что хорошее приближение )[4]

Пинейро и Бейтс также смоделировали тесты различных фиксированных эффектов. В одном тесте фактора с 4 уровнями (степени свободы = 3), они обнаружили, что смесь 50–50 и был подходящим вариантом для настоящего п-значения, полученные моделированием, - и ошибка в использовании наивного "Может быть не слишком тревожным".[4]

Однако в другом тесте фактора с 15 уровнями они нашли разумное соответствие - на 4 степени свободы больше, чем 14, которые можно было бы получить в результате наивного (неуместного) применения теоремы Уилкса, и смоделированный п-значение было в несколько раз наивным . Они пришли к выводу, что для тестирования фиксированных эффектов «разумно использовать моделирование».[а]

Смотрите также

Примечания

  1. ^ Пинейру и Бейтс (2000)[4] предоставил simulate.lme функции в их я пакет для S-PLUS и р для поддержки моделирования REML; см. исх.[5]

Рекомендации

  1. ^ а б Уилкс, Сэмюэл С. (1938). «Распределение отношения правдоподобия по большой выборке для проверки сложных гипотез». Анналы математической статистики. 9 (1): 60–62. Дои:10.1214 / aoms / 1177732360.CS1 maint: ref = harv (связь)
  2. ^ а б Нейман, Ежи; Пирсон, Эгон С. (1933). «К вопросу о наиболее эффективных проверках статистических гипотез» (PDF). Философские труды Королевского общества A: математические, физические и инженерные науки. 231 (694–706): 289–337. Bibcode:1933РСПТА.231..289Н. Дои:10.1098 / рста.1933.0009. JSTOR  91247.CS1 maint: ref = harv (связь)
  3. ^ Huelsenbeck, J.P .; Крэндалл, К. (1997). «Филогенетическая оценка и проверка гипотез с использованием максимального правдоподобия». Ежегодный обзор экологии и систематики. 28: 437–466. Дои:10.1146 / annurev.ecolsys.28.1.437.
  4. ^ а б c d е Пинейро, Хосе К.; Бейтс, Дуглас М. (2000). Модели со смешанными эффектами в S и S-PLUS. Springer-Verlag. С. 82–93. ISBN  0-387-98957-9.
  5. ^ "Смоделировать результаты я модели " (PDF). R-project.org (программная документация). Упаковка я. 12 мая 2019. С. 281–282.. Получено 8 июн 2019.

Другие источники

  • Казелла, Джордж; Бергер, Роджер Л. (2001). Статистические выводы (Второе изд.). ISBN  0-534-24312-6.CS1 maint: ref = harv (связь)
  • Настроение, A.M .; Грейбилл, Ф.А. (1963). Введение в теорию статистики (2-е изд.). Макгроу-Хилл. ISBN  978-0070428638.CS1 maint: ref = harv (связь)
  • Cox, D.R .; Хинкли, Д.В. (1974). Теоретическая статистика. Чепмен и Холл. ISBN  0-412-12420-3.CS1 maint: ref = harv (связь)
  • Стюарт, А .; Ord, K .; Арнольд, С. (1999). Продвинутая теория статистики Кендалла. . Лондон: Арнольд. ISBN  978-0-340-66230-4.CS1 maint: ref = harv (связь)

внешняя ссылка