Распределение хи-квадрат - Chi-square distribution

хи-квадрат
Функция плотности вероятности
Хи-квадрат pdf.svg
Кумулятивная функция распределения
Хи-квадрат cdf.svg
Обозначение или
Параметры (известные как «степени свободы»)
Поддержка если , в противном случае
PDF
CDF
Значить
Медиана
Режим
Дисперсия
Асимметрия
Ex. эксцесс
Энтропия
MGF
CF      [1]
PGF

В теория вероятности и статистика, то распределение хи-квадрат (также хи-квадрат или χ2-распространение) с участием k степени свободы - это распределение суммы квадратов k независимый стандартный нормальный случайные переменные. Распределение хи-квадрат - это частный случай гамма-распределение и является одним из наиболее широко используемых распределения вероятностей в выведенный статистика, особенно в проверка гипотезы и в строительстве доверительные интервалы.[2][3][4][5] Это распределение иногда называют центральное распределение хи-квадрат, частный случай более общего нецентральное распределение хи-квадрат.

Распределение хи-квадрат используется в общем тесты хи-квадрат для степень соответствия наблюдаемого распределения к теоретическому, независимость двух критериев классификации качественные данные, и в оценке доверительного интервала для совокупности среднеквадратичное отклонение нормального распределения от стандартного отклонения выборки. Многие другие статистические тесты также используют это распределение, например Дисперсионный анализ Фридмана по рангам.

Определения

Если Z1, ..., Zk находятся независимый, стандартный нормальный случайные величины, затем сумма их квадратов,

распределяется согласно распределению хи-квадрат с k степени свободы. Обычно это обозначается как

Распределение хи-квадрат имеет один параметр: положительное целое число. k который указывает количество степени свободы (номер Zя с).

Введение

Распределение хи-квадрат используется в основном при проверке гипотез и в меньшей степени для доверительных интервалов дисперсии совокупности, когда основное распределение является нормальным. В отличие от более широко известных дистрибутивов, таких как нормальное распределение и экспоненциальное распределение, распределение хи-квадрат не так часто применяется при прямом моделировании природных явлений. Среди прочего, он возникает при следующих проверках гипотез:

Это также компонент определения t-распределение и F-распределение используется в t-тестах, дисперсионном анализе и регрессионном анализе.

Основная причина того, что распределение хи-квадрат широко используется при проверке гипотез, - это его связь с нормальным распределением. Во многих проверках гипотез используется тестовая статистика, например t-статистика в t-тесте. Для этих проверок гипотез по мере увеличения размера выборки n выборочное распределение тестовой статистики приближается к нормальному распределению (Центральная предельная теорема ). Поскольку статистика теста (такая как t) асимптотически нормально распределена, при условии, что размер выборки достаточно велик, распределение, используемое для проверки гипотез, может быть аппроксимировано нормальным распределением. Проверка гипотез с использованием нормального распределения хорошо понятна и относительно проста. Простейшее распределение хи-квадрат - это квадрат стандартного нормального распределения. Таким образом, везде, где для проверки гипотез можно использовать нормальное распределение, можно использовать распределение хи-квадрат.

Предположим, что случайная величина, выбранная из стандартного нормального распределения, где среднее значение равно а дисперсия равна : . Теперь рассмотрим случайную величину . Распределение случайной величины это пример распределения хи-квадрат: Нижний индекс 1 указывает, что это конкретное распределение хи-квадрат построено только на основе одного стандартного нормального распределения. Говорят, что распределение хи-квадрат, построенное путем возведения в квадрат единственного стандартного нормального распределения, имеет 1 степень свободы. Таким образом, по мере увеличения размера выборки для проверки гипотез, распределение статистики теста приближается к нормальному распределению. Так же, как крайние значения нормального распределения имеют низкую вероятность (и дают малые значения p), экстремальные значения распределения хи-квадрат имеют низкую вероятность.

Дополнительная причина того, что распределение хи-квадрат широко используется, заключается в том, что оно проявляется как распределение большой выборки обобщенных тесты отношения правдоподобия (LRT).[6] LRT обладают несколькими желательными свойствами; в частности, простые LRT обычно обеспечивают максимальную мощность для отклонения нулевой гипотезы (Лемма Неймана – Пирсона. ), что также приводит к свойствам оптимальности обобщенных LRT. Однако приближения нормального и хи-квадрат действительны только асимптотически. По этой причине для небольшого размера выборки предпочтительнее использовать t-распределение, чем нормальное приближение или приближение хи-квадрат. Аналогичным образом, при анализе таблиц непредвиденных обстоятельств приближение хи-квадрат будет плохим для небольшого размера выборки, и предпочтительно использовать Точный тест Фишера. Рэмси показывает, что точная биномиальный тест всегда мощнее обычного приближения.[7]

Ланкастер показывает связи между биномиальным, нормальным и хи-квадратным распределениями следующим образом.[8] Де Муавр и Лаплас установили, что биномиальное распределение можно аппроксимировать нормальным распределением. В частности, они показали асимптотическую нормальность случайной величины.

где наблюдаемое количество успехов в испытания, где вероятность успеха , и .

Возведение обеих частей уравнения в квадрат дает

С помощью , , и , это уравнение упрощается до

Выражение справа имеет вид Карл Пирсон обобщил бы к форме:

где

= Совокупная статистика теста Пирсона, которая асимптотически приближается к распространение.
= количество наблюдений типа .
= ожидаемая (теоретическая) частота типа , утверждаемый нулевой гипотезой, что доля типа в населении
= количество ячеек в таблице.

В случае биномиального исхода (подбрасывание монеты) биномиальное распределение может быть аппроксимировано нормальным распределением (для достаточно больших ). Поскольку квадрат стандартного нормального распределения представляет собой распределение хи-квадрат с одной степенью свободы, вероятность такого результата, как 1 голова в 10 испытаниях, может быть аппроксимирована либо прямым использованием нормального распределения, либо распределением хи-квадрат для нормализованная квадратная разница между наблюдаемым и ожидаемым значением. Однако многие проблемы включают более двух возможных исходов бинома и вместо этого требуют 3 или более категорий, что приводит к полиномиальному распределению. Подобно тому, как де Муавр и Лаплас искали и находили нормальное приближение к биномиальному, Пирсон искал и находил вырожденное многомерное нормальное приближение к полиномиальному распределению (числа в каждой категории в сумме составляют общий размер выборки, который считается фиксированным) . Пирсон показал, что распределение хи-квадрат возникло из такого многомерного нормального приближения к полиномиальному распределению с тщательным учетом статистической зависимости (отрицательной корреляции) между числами наблюдений в разных категориях. [8]

Функция плотности вероятности

В функция плотности вероятности (pdf) распределения хи-квадрат есть

где обозначает гамма-функция, который имеет значения в закрытой форме для целых чисел .

Для вывода PDF в случаях одного, двух и степени свободы, см. Доказательства, связанные с распределением хи-квадрат.

Кумулятивная функция распределения

Чернова направлялся в CDF и хвост (1-CDF) случайной величины хи-квадрат с десятью степенями свободы ( = 10)

это кумулятивная функция распределения является:

где это нижняя неполная гамма-функция и это регуляризованная гамма-функция.

В частном случае = 2 эта функция имеет простой вид:[нужна цитата ]

а целочисленное повторение гамма-функции позволяет легко вычислить другие небольшие даже .

Таблицы кумулятивной функции распределения хи-квадрат широко доступны, и эта функция включена во многие электронные таблицы и все статистические пакеты.

Сдача , Границы Чернова на нижнем и верхнем хвостах CDF.[9] Для случаев, когда (которые включают все случаи, когда этот CDF меньше половины):

Хвостовая граница для случаев, когда , аналогично

Для другого приближение для CDF, смоделированного после куба Гаусса, см. при нецентральном распределении хи-квадрат.

Свойства

Сумма квадратов нормалей i.i.d минус их среднее значение

Если Z1, ..., Zk находятся независимый, стандартный нормальный случайные величины, тогда

где

Аддитивность

Из определения распределения хи-квадрат следует, что сумма независимых переменных хи-квадрат также имеет распределение хи-квадрат. В частности, если независимые переменные хи-квадрат с , степеней свободы соответственно, то хи-квадрат распределен с степени свободы.

Выборочное среднее

Среднее значение выборки i.i.d. переменные хи-квадрат степени распределяется по гамма-распределению с формой и масштабировать параметры:

Асимптотически, учитывая, что для масштабного параметра стремясь к бесконечности, гамма-распределение сходится к нормальному распределению с ожиданием и дисперсия , выборочное среднее сходится к:

Обратите внимание, что мы получили бы тот же результат, вызвав вместо Центральная предельная теорема, отмечая, что для каждой переменной хи-квадрат степени ожидание , и его дисперсия (и, следовательно, дисперсия выборочного среднего будучи ).

Энтропия

В дифференциальная энтропия дан кем-то

где ψ(Икс) это Дигамма функция.

Распределение хи-квадрат - это распределение вероятностей максимальной энтропии для случайной вариации для которого и фиксируются. Поскольку хи-квадрат принадлежит семейству гамма-распределений, его можно получить, подставив соответствующие значения в Ожидание логарифмического момента гаммы. Для вывода из более основных принципов см. Вывод в момент производящая функция достаточной статистики.

Нецентральные моменты

Моменты около нуля распределения хи-квадрат с степени свободы даются[10][11]

Кумулянты

В кумулянты легко получаются (формальным) разложением в степенной ряд логарифма характеристической функции:

Асимптотические свойства

Приближенная формула для медианы (из преобразования Уилсона – Хильферти) в сравнении с числовым квантилем (вверху); а также разница (синий) и относительная разница (красный) между числовым квантилем и приблизительной формулой (внизу). Для распределения хи-квадрат имеют значение только положительные целые числа степеней свободы (кружки).

Посредством Центральная предельная теорема, поскольку распределение хи-квадрат представляет собой сумму независимых случайных величин с конечным средним и дисперсией, он сходится к нормальному распределению для больших . Для многих практических целей для распределение достаточно близко к нормальное распределение чтобы разницу не принимали во внимание.[12] В частности, если , то как стремится к бесконечности, распределение имеет тенденцию к стандартному нормальному распределению. Однако сходимость идет медленно, так как перекос является и избыточный эксцесс является .

Выборочное распределение сходится к нормальности намного быстрее, чем выборочное распределение ,[13] поскольку логарифм устраняет большую часть асимметрии.[14] Другие функции распределения хи-квадрат быстрее сходятся к нормальному распределению. Вот несколько примеров:

  • Если тогда приблизительно нормально распределен со средним и единичная дисперсия (1922 г., Р. А. Фишер, см. (18.23), с. 426 Джонсона.[4]
  • Если тогда приблизительно нормально распределен со средним и дисперсия [15] Это известно как преобразование Вильсона – Хильферти, см. (18.24), с. 426 Джонсона.[4]
    • Это нормализующее преобразование непосредственно приводит к обычно используемому медианному приближению путем обратного преобразования от среднего, которое также является медианой нормального распределения.

Связанные дистрибутивы

  • Так как , (нормальное распределение )
  • (нецентральное распределение хи-квадрат с параметром нецентральности )
  • Если тогда имеет распределение хи-квадрат
  • В частном случае, если тогда имеет распределение хи-квадрат

Переменная хи-квадрат с степеней свободы определяется как сумма квадратов независимый стандартный нормальный случайные переменные.

Если это -мерный гауссовский случайный вектор с вектором среднего и ранг ковариационная матрица , тогда хи-квадрат распределен с степени свободы.

Сумма квадратов статистически независимый гауссовские переменные с единичной дисперсией, которые не имеют нулевое среднее значение, дает обобщение распределения хи-квадрат, называемое нецентральное распределение хи-квадрат.

Если вектор i.i.d. стандартные нормальные случайные величины и это симметричный, идемпотентная матрица с участием ранг , то квадратичная форма хи-квадрат распределен с степени свободы.

Если это положительно-полуопределенная ковариационная матрица со строго положительными диагональными элементами, то для и случайный -вектор не зависит от такой, что и он считает, что

[14]

Распределение хи-квадрат также естественно связано с другими распределениями, возникающими из гауссиана. Особенно,

  • является F-распределенный, если , где и статистически независимы.
  • Если и статистически независимы, то . Если и не независимы, то не имеет распределения хи-квадрат.

Обобщения

Распределение хи-квадрат получается как сумма квадратов k независимые гауссовские случайные величины с нулевым средним и единичной дисперсией. Обобщения этого распределения можно получить, суммируя квадраты других типов гауссовских случайных величин. Ниже описано несколько таких дистрибутивов.

Линейная комбинация

Если случайные величины хи-квадрат и , то замкнутое выражение для распределения не известно. Однако его можно эффективно аппроксимировать с помощью свойство характеристических функций случайных величин хи-квадрат.[17]

Распределения хи-квадрат

Нецентральное распределение хи-квадрат

Нецентральное распределение хи-квадрат получается из суммы квадратов независимых гауссовских случайных величин, имеющих единичную дисперсию и ненулевой означает.

Обобщенное распределение хи-квадрат

Обобщенное распределение хи-квадрат получается из квадратичной формы z′Az где z - гауссовский вектор с нулевым средним, имеющий произвольную ковариационную матрицу, и А - произвольная матрица.

Гамма, экспоненциальное и родственные распределения

Распределение хи-квадрат это частный случай гамма-распределение, в этом используя скоростную параметризацию гамма-распределения (или с использованием масштабной параметризации гамма-распределения), где k целое число.

Поскольку экспоненциальное распределение также является частным случаем гамма-распределения, мы также имеем, что если , тогда является экспоненциальное распределение.

В Распределение Erlang также является частным случаем гамма-распределения, и поэтому мы также имеем, что если с даже , тогда распределен Эрланг с параметром формы и масштабный параметр .

Возникновение и приложения

Распределение хи-квадрат находит множество применений в логическом выводе. статистика, например в тесты хи-квадрат и в оценке отклонения. Он затрагивает проблему оценки среднего значения нормально распределенной совокупности и проблему оценки наклона регресс линия через ее роль в Распределение Стьюдента. Входит во все дисперсионный анализ проблемы через его роль в F-распределение, которое представляет собой распределение отношения двух независимых хи-квадрат случайные переменные, каждая из которых разделена на соответствующие степени свободы.

Ниже приведены некоторые из наиболее распространенных ситуаций, в которых распределение хи-квадрат возникает из выборки с распределением по Гауссу.

  • если находятся i.i.d. случайные переменные, тогда где .
  • В рамке ниже показаны некоторые статистика на основе независимые случайные величины, которые имеют распределения вероятностей, связанные с распределением хи-квадрат:
имяСтатистика
распределение хи-квадрат
нецентральное распределение хи-квадрат
распределение ци
нецентральное распределение ци

Распределение хи-квадрат также часто встречается в магнитно-резонансная томография.[18]

Вычислительные методы

Таблица χ2 значения vs п-ценности

В п-ценность вероятность наблюдения за тестовой статистикой по крайней мере как крайний в распределении хи-квадрат. Соответственно, поскольку кумулятивная функция распределения (CDF) для соответствующих степеней свободы (df) дает вероятность получить значение менее экстремальный чем в этой точке, вычитание значения CDF из 1 дает п-ценность. Низкий п-значение ниже выбранного уровня значимости указывает Статистическая значимость, то есть достаточное свидетельство для отклонения нулевой гипотезы. Уровень значимости 0,05 часто используется как граница между значимыми и незначительными результатами.

В таблице ниже приведен ряд п-значения, соответствующие для первых 10 степеней свободы.

Степени свободы (df) ценность[19]
10.0040.020.060.150.461.071.642.713.846.6310.83
20.100.210.450.711.392.413.224.615.999.2113.82
30.350.581.011.422.373.664.646.257.8111.3416.27
40.711.061.652.203.364.885.997.789.4913.2818.47
51.141.612.343.004.356.067.299.2411.0715.0920.52
61.632.203.073.835.357.238.5610.6412.5916.8122.46
72.172.833.824.676.358.389.8012.0214.0718.4824.32
82.733.494.595.537.349.5211.0313.3615.5120.0926.12
93.324.175.386.398.3410.6612.2414.6816.9221.6727.88
103.944.876.187.279.3411.7813.4415.9918.3123.2129.59
Значение P (вероятность)0.950.900.800.700.500.300.200.100.050.010.001

Эти значения можно рассчитать, оценив квантильная функция (также известный как «обратный CDF» или «ICDF») распределения хи-квадрат;[20] е. г., χ2 ICDF для п = 0.05 и df = 7 дает 14.06714 ≈ 14.07 как в таблице выше.

История

Это распределение впервые было описано немецким статистиком. Фридрих Роберт Хельмерт в статьях 1875–1875 гг.,[21][22] где он вычислил выборочное распределение выборочной дисперсии нормальной совокупности. Таким образом, на немецком языке это традиционно называлось Helmert'sche («Гельмерт») или «Распределение Гельмерта».

Распределение было независимо переоткрыто английским математиком. Карл Пирсон в контексте степень соответствия, для чего он разработал Тест хи-квадрат Пирсона, опубликованная в 1900 г., с расчетной таблицей значений, опубликованной в (Элдертон 1902 ), собранные в (Пирсон 1914, стр. xxxi – xxxiii, 26–28, таблица XII). Название «хи-квадрат» в конечном итоге происходит от сокращения Пирсона для экспоненты в многомерное нормальное распределение с греческой буквы Чи, написание − ½χ2 для того, что появилось бы в современных обозначениях как −½ИксТΣ−1Икс (Σ - ковариационная матрица ).[23] Однако идея семейства «распределений хи-квадрат» не принадлежит Пирсону, а возникла как дальнейшее развитие благодаря Фишеру в 1920-х годах.[21]

Смотрите также

использованная литература

  1. ^ М.А.Сандерс. «Характеристическая функция центрального распределения хи-квадрат» (PDF). Архивировано из оригинал (PDF) на 2011-07-15. Получено 2009-03-06.
  2. ^ Абрамовиц, Милтон; Стегун, Ирен Энн, ред. (1983) [июнь 1964]. "Глава 26". Справочник по математическим функциям с формулами, графиками и математическими таблицами. Прикладная математика. 55 (Девятое переиздание с дополнительными исправлениями, десятое оригинальное издание с исправлениями (декабрь 1972 г.); первое изд.). Вашингтон.; Нью-Йорк: Министерство торговли США, Национальное бюро стандартов; Dover Publications. п. 940. ISBN  978-0-486-61272-0. LCCN  64-60036. Г-Н  0167642. LCCN  65-12253.
  3. ^ NIST (2006). Справочник по инженерной статистике - Распределение хи-квадрат
  4. ^ а б c Johnson, N.L .; Kotz, S .; Балакришнан, Н. (1994). «Распределения хи-квадрат, включая Чи и Рэлея». Непрерывные одномерные распределения. 1 (Второе изд.). Джон Уайли и сыновья. С. 415–493. ISBN  978-0-471-58495-7.
  5. ^ Настроение, Александр; Graybill, Франклин A .; Бос, Дуэйн К. (1974). Введение в теорию статистики (Третье изд.). Макгроу-Хилл. С. 241–246. ISBN  978-0-07-042864-5.
  6. ^ Вестфол, Питер Х. (2013). Понимание передовых статистических методов. Бока-Ратон, Флорида: CRC Press. ISBN  978-1-4665-1210-8.
  7. ^ Рэмси, PH (1988). «Оценка нормального приближения к биномиальному тесту». Журнал образовательной статистики. 13 (2): 173–82. Дои:10.2307/1164752. JSTOR  1164752.
  8. ^ а б Ланкастер, Х. (1969), Распределение хи-квадрат, Wiley
  9. ^ Dasgupta, Sanjoy D.A .; Гупта, Анупам К. (январь 2003 г.). «Элементарное доказательство теоремы Джонсона и Линденштрауса» (PDF). Случайные структуры и алгоритмы. 22 (1): 60–65. Дои:10.1002 / rsa.10073. Получено 2012-05-01.
  10. ^ Распределение хи-квадрат, от MathWorld, получено 11 февраля 2009 г.
  11. ^ М. К. Саймон, Распределения вероятностей с участием гауссовских случайных величин, Нью-Йорк: Springer, 2002, ур. (2.35), ISBN  978-0-387-34657-1
  12. ^ Коробка, Охотник и Охотник (1978). Статистика для экспериментаторов. Вайли. п.118. ISBN  978-0471093152.
  13. ^ Bartlett, M. S .; Кендалл, Д. Г. (1946). «Статистический анализ дисперсионно-неоднородности и логарифмического преобразования». Приложение к Журналу Королевского статистического общества. 8 (1): 128–138. Дои:10.2307/2983618. JSTOR  2983618.
  14. ^ а б Пиллаи, Натеш С. (2016). «Неожиданная встреча с Коши и Леви». Анналы статистики. 44 (5): 2089–2097. arXiv:1505.01957. Дои:10.1214 / 15-aos1407.
  15. ^ Wilson, E.B .; Хильферти, М. М. (1931). «Распределение хи-квадрат». Proc. Natl. Акад. Sci. Соединенные Штаты Америки. 17 (12): 684–688. Bibcode:1931ПНАС ... 17..684Вт. Дои:10.1073 / пнас.17.12.684. ЧВК  1076144. PMID  16577411.
  16. ^ Bäckström, T .; Фишер, Дж. (Январь 2018 г.). «Быстрая рандомизация для распределенного низкоскоростного кодирования речи и звука». Транзакции IEEE / ACM для обработки звука, речи и языка. 26 (1): 19–30. Дои:10.1109 / TASLP.2017.2757601.
  17. ^ Бауш, Дж. (2013). «Об эффективном вычислении линейной комбинации случайных величин хи-квадрат с применением в счетной строке Vacua». J. Phys. A: Математика. Теор. 46 (50): 505202. arXiv:1208.2691. Bibcode:2013JPhA ... 46X5202B. Дои:10.1088/1751-8113/46/50/505202.
  18. ^ den Dekker A. J., Sijbers J., (2014) «Распределение данных на магнитно-резонансных изображениях: обзор», Physica Medica, [1]
  19. ^ Тест хи-квадрат Таблица B.2. Доктор Жаклин С. Маклафлин из Университета штата Пенсильвания. В свою очередь цитируется: Р. А. Фишер и Ф. Йейтс, Статистические таблицы для биологических сельскохозяйственных и медицинских исследований, 6-е изд., Таблица IV. Были исправлены два значения: 7,82 с 7,81 и 4,60 с 4,61.
  20. ^ R Учебное пособие: Распределение хи-квадрат
  21. ^ а б Hald 1998, pp. 633–692, 27. Выборочные распределения при нормальности.
  22. ^ Ф. Р. Хельмерт, "Ueber die Wahrscheinlichkeit der Potenzsummen der Beobachtungsfehler und über einige damit im Zusammenhange stehende Fragen ", Zeitschrift für Mathematik und Physik 21, 1876, стр. 102–219
  23. ^ Р. Л. Плакетт, Карл Пирсон и критерий хи-квадрат, Международный статистический обзор, 1983 г., 61f. Также Джефф Миллер, Самые ранние известные варианты использования некоторых слов математики.

дальнейшее чтение

внешние ссылки