В статистика , особенно в проверка гипотезы , то Хотеллинга Т -квадратное распределение (Т 2 ), предложено Гарольд Хотеллинг ,[1] это многомерное распределение вероятностей это тесно связано с F -распределение и наиболее примечателен тем, что возникает как распределение набора статистика выборки которые являются естественным обобщением статистики, лежащей в основе Студенты т -распределение .
В Хотеллинга т -квадратная статистика (т 2 ) является обобщением Студенты т -статистический что используется в многомерный проверка гипотезы .[2]
Распределение
Мотивация Распределение возникает в многомерная статистика в начинании тесты различий между (многомерными) средними для разных популяций, где тесты для одномерных задач будут использовать т -тест Дистрибутив назван в честь Гарольд Хотеллинг , который разработал его как обобщение студенческого т -распределение.[1]
Определение Если вектор d { displaystyle d} является Многомерное распределение по Гауссу с нулевым средним и единицей измерения ковариационная матрица N ( 0 п , я п , п ) { Displaystyle N ( mathbf {0} _ {p}, mathbf {I} _ {p, p})} и M { displaystyle M} это п × п { displaystyle p times p} матрица с единицей масштабная матрица и м степени свободы с Распределение Уишарта W ( я п , п , м ) { Displaystyle W ( mathbf {I} _ {p, p}, m)} , то Квадратичная форма м d Т M − 1 d { displaystyle md ^ {T} M ^ {- 1} d} имеет распределение Хотеллинга, Т 2 ( п , м ) { Displaystyle Т ^ {2} (п, м)} , с параметром п { displaystyle p} и м { displaystyle m} .[3]
Если случайная величина Икс имеет Хотеллинг Т -квадратное распределение, Икс ∼ Т п , м 2 { displaystyle X sim T_ {p, m} ^ {2}} , тогда:[1]
м − п + 1 п м Икс ∼ F п , м − п + 1 { displaystyle { frac {m-p + 1} {pm}} X sim F_ {p, m-p + 1}} куда F п , м − п + 1 { displaystyle F_ {p, m-p + 1}} это F -распределение с параметрами п и м − п + 1 .
Прогнозирование статистики t-квадрат
Позволять Σ ^ { Displaystyle { шляпа { mathbf { Sigma}}}} быть выборочная ковариация :
Σ ^ = 1 п − 1 ∑ я = 1 п ( Икс я − Икс ¯ ) ( Икс я − Икс ¯ ) ′ { displaystyle { hat { mathbf { Sigma}}} = { frac {1} {n-1}} sum _ {i = 1} ^ {n} ( mathbf {x} _ {i} - { overline { mathbf {x}}}) ( mathbf {x} _ {i} - { overline { mathbf {x}}}) '} где мы обозначаем транспонировать по апостроф . Можно показать, что Σ ^ { Displaystyle { шляпа { mathbf { Sigma}}}} это положительный (полу) определенный матрица и ( п − 1 ) Σ ^ { Displaystyle (п-1) { шляпа { mathbf { Sigma}}}} следует за п -variate Распределение Уишарта с п −1 степени свободы.[4] Примерная ковариационная матрица среднего значения имеет вид Σ ^ Икс ¯ = Σ ^ / п { Displaystyle { шляпа { mathbf { Sigma}}} _ { overline { mathbf {x}}} = { шляпа { mathbf { Sigma}}} / п} .[требуется разъяснение ]
В Хотеллинга т -квадратная статистика тогда определяется как:[5]
т 2 = ( Икс ¯ − μ ) ′ Σ ^ Икс ¯ − 1 ( Икс ¯ − μ ) , { displaystyle t ^ {2} = ({ overline { mathbf {x}}} - { boldsymbol { mu}}) '{ hat { mathbf { Sigma}}} _ { overline { mathbf {x}}} ^ {- 1} ({ overline { mathbf {x}}} - { boldsymbol { mathbf { mu}}}),} который пропорционален расстояние между выборочным средним и μ { displaystyle { boldsymbol { mu}}} . Из-за этого следует ожидать, что статистика будет принимать низкие значения, если Икс ¯ ≅ μ { displaystyle { overline { mathbf {x}}} cong { boldsymbol { mu}}} , и высокие значения, если они разные.
От распределение ,
т 2 ∼ Т п , п − 1 2 = п ( п − 1 ) п − п F п , п − п , { displaystyle t ^ {2} sim T_ {p, n-1} ^ {2} = { frac {p (n-1)} {n-p}} F_ {p, n-p},} куда F п , п − п { displaystyle F_ {p, n-p}} это F -распределение с параметрами п и п − п . Чтобы рассчитать п -ценить (не связано с п здесь переменная), обратите внимание, что распределение т 2 { displaystyle t ^ {2}} эквивалентно означает, что
п − п п ( п − 1 ) т 2 ∼ F п , п − п . { displaystyle { frac {n-p} {p (n-1)}} t ^ {2} sim F_ {p, n-p}.} Затем используйте количество слева, чтобы оценить п -значение, соответствующее образцу, которое происходит от F -распределение. А область доверия также может быть определено с использованием аналогичной логики.
Мотивация Позволять N п ( μ , Σ ) { displaystyle { mathcal {N}} _ {p} ({ boldsymbol { mu}}, { mathbf { Sigma}})} обозначить п -вариантное нормальное распределение с место расположения μ { displaystyle { boldsymbol { mu}}} и известный ковариация Σ { Displaystyle { mathbf { Sigma}}} . Позволять
Икс 1 , … , Икс п ∼ N п ( μ , Σ ) { displaystyle { mathbf {x}} _ {1}, dots, { mathbf {x}} _ {n} sim { mathcal {N}} _ {p} ({ boldsymbol { mu} }, { mathbf { Sigma}})} быть п независимые одинаково распределенные (iid) случайные переменные , который можно представить как п × 1 { displaystyle p times 1} векторы-столбцы действительных чисел. Определять
Икс ¯ = Икс 1 + ⋯ + Икс п п { displaystyle { overline { mathbf {x}}} = { frac { mathbf {x} _ {1} + cdots + mathbf {x} _ {n}} {n}}} быть выборочное среднее с ковариацией Σ Икс ¯ = Σ / п { Displaystyle { mathbf { Sigma}} _ { bar { mathbf {x}}} = { mathbf { Sigma}} / n} . Можно показать, что
( Икс ¯ − μ ) ′ Σ Икс ¯ − 1 ( Икс ¯ − μ ) ∼ χ п 2 , { displaystyle ({ bar { mathbf {x}}} - { boldsymbol { mu}}) '{ mathbf { Sigma}} _ { bar { mathbf {x}}} ^ {- 1 } ({ bar { mathbf {x}}} - { boldsymbol { mathbf { mu}}}) sim chi _ {p} ^ {2},} куда χ п 2 { displaystyle chi _ {p} ^ {2}} это распределение хи-квадрат с п степени свободы.[6]
Доказательство —
Чтобы показать это, используйте тот факт, что Икс ¯ ∼ N п ( μ , Σ / п ) { displaystyle { overline { mathbf {x}}} sim { mathcal {N}} _ {p} ({ boldsymbol { mu}}, { mathbf { Sigma}} / n)} и получить характеристическая функция случайной величины у = ( Икс ¯ − μ ) ′ Σ Икс ¯ − 1 ( Икс ¯ − μ ) = ( Икс ¯ − μ ) ′ ( Σ / п ) − 1 ( Икс ¯ − μ ) { displaystyle mathbf {y} = ({ bar { mathbf {x}}} - { boldsymbol { mu}}) '{ mathbf { Sigma}} _ { bar { mathbf {x} }} ^ {- 1} ({ bar { mathbf {x}}} - { boldsymbol { mathbf { mu}}}) = ({ bar { mathbf {x}}} - { boldsymbol { mu}}) '({ mathbf { Sigma}} / n) ^ {- 1} ({ bar { mathbf {x}}} - { boldsymbol { mathbf { mu}}}) } . Как обычно, пусть | ⋅ | { displaystyle | cdot |} обозначить детерминант аргумента, как в | Σ | { displaystyle | { boldsymbol { Sigma}} |} .
По определению характеристической функции имеем:[7]
φ у ( θ ) = E е я θ у , = E е я θ ( Икс ¯ − μ ) ′ ( Σ / п ) − 1 ( Икс ¯ − μ ) = ∫ е я θ ( Икс ¯ − μ ) ′ п Σ − 1 ( Икс ¯ − μ ) ( 2 π ) − п / 2 | Σ / п | − 1 / 2 е − ( 1 / 2 ) ( Икс ¯ − μ ) ′ п Σ − 1 ( Икс ¯ − μ ) d Икс 1 ⋯ d Икс п { displaystyle { begin {align} varphi _ { mathbf {y}} ( theta) & = operatorname {E} e ^ {i theta mathbf {y}}, [5pt] & = operatorname {E} e ^ {i theta ({ overline { mathbf {x}}} - { boldsymbol { mu}}) '({ mathbf { Sigma}} / n) ^ {- 1 } ({ overline { mathbf {x}}} - { boldsymbol { mathbf { mu}}})} [5pt] & = int e ^ {i theta ({ overline { mathbf {x}}} - { boldsymbol { mu}}) 'n { mathbf { Sigma}} ^ {- 1} ({ overline { mathbf {x}}} - { boldsymbol { mathbf { mu}}})} (2 pi) ^ {- p / 2} | { boldsymbol { Sigma}} / n | ^ {- 1/2} , e ^ {- (1/2) ( { overline { mathbf {x}}} - { boldsymbol { mu}}) 'n { boldsymbol { Sigma}} ^ {- 1} ({ overline { mathbf {x}}} - { boldsymbol { mu}})} , dx_ {1} cdots dx_ {p} end {align}}} Внутри интеграла две экспоненты, поэтому, умножая экспоненты, мы складываем показатели вместе, получая:
= ∫ ( 2 π ) − п / 2 | Σ / п | − 1 / 2 е − ( 1 / 2 ) ( Икс ¯ − μ ) ′ п ( Σ − 1 − 2 я θ Σ − 1 ) ( Икс ¯ − μ ) d Икс 1 ⋯ d Икс п { displaystyle { begin {align} & = int (2 pi) ^ {- p / 2} | { boldsymbol { Sigma}} / n | ^ {- 1/2} , e ^ {- (1/2) ({ overline { mathbf {x}}} - { boldsymbol { mu}}) 'n ({ boldsymbol { Sigma}} ^ {- 1} -2i theta { boldsymbol { Sigma}} ^ {- 1}) ({ overline { mathbf {x}}} - { boldsymbol { mu}})} , dx_ {1} cdots dx_ {p} end {выровнено }}} Теперь возьмем термин | Σ / п | − 1 / 2 { displaystyle | { boldsymbol { Sigma}} / п | ^ {- 1/2}} от интеграла, и умножьте все на тождество я = | ( Σ − 1 − 2 я θ Σ − 1 ) − 1 / п | 1 / 2 ⋅ | ( Σ − 1 − 2 я θ Σ − 1 ) − 1 / п | − 1 / 2 { Displaystyle I = | ({ boldsymbol { Sigma}} ^ {- 1} -2i theta { boldsymbol { Sigma}} ^ {- 1}) ^ {- 1} / n | ^ {1 / 2} ; cdot ; | ({ boldsymbol { Sigma}} ^ {- 1} -2i theta { boldsymbol { Sigma}} ^ {- 1}) ^ {- 1} / n | ^ {-1/2}} , поместив одну из них внутрь интеграла:
= | ( Σ − 1 − 2 я θ Σ − 1 ) − 1 / п | 1 / 2 | Σ / п | − 1 / 2 ∫ ( 2 π ) − п / 2 | ( Σ − 1 − 2 я θ Σ − 1 ) − 1 / п | − 1 / 2 е − ( 1 / 2 ) п ( Икс ¯ − μ ) ′ ( Σ − 1 − 2 я θ Σ − 1 ) ( Икс ¯ − μ ) d Икс 1 ⋯ d Икс п { displaystyle { begin {align} & = | ({ boldsymbol { Sigma}} ^ {- 1} -2i theta { boldsymbol { Sigma}} ^ {- 1}) ^ {- 1} / n | ^ {1/2} | { boldsymbol { Sigma}} / n | ^ {- 1/2} int (2 pi) ^ {- p / 2} | ({ boldsymbol { Sigma} } ^ {- 1} -2i theta { boldsymbol { Sigma}} ^ {- 1}) ^ {- 1} / n | ^ {- 1/2} , e ^ {- (1/2) n ({ overline { mathbf {x}}} - { boldsymbol { mu}}) '({ boldsymbol { Sigma}} ^ {- 1} -2i theta { boldsymbol { Sigma}} ^ {- 1}) ({ overline { mathbf {x}}} - { boldsymbol { mu}})} , dx_ {1} cdots dx_ {p} end {align}}} Но член внутри интеграла - это в точности функция плотности вероятности многомерное нормальное распределение с ковариационной матрицей ( Σ − 1 − 2 я θ Σ − 1 ) − 1 / п = [ п ( Σ − 1 − 2 я θ Σ − 1 ) ] − 1 { displaystyle ({ boldsymbol { Sigma}} ^ {- 1} -2i theta { boldsymbol { Sigma}} ^ {- 1}) ^ {- 1} / n = left [n ({ boldsymbol { Sigma}} ^ {- 1} -2i theta { boldsymbol { Sigma}} ^ {- 1}) right] ^ {- 1}} и значит μ { displaystyle mu} , поэтому при интеграции по всем Икс 1 , … , Икс п { displaystyle x_ {1}, dots, x_ {p}} , он должен уступить 1 { displaystyle 1} согласно аксиомы вероятности .[требуется разъяснение ] Таким образом, мы получаем:
= | ( Σ − 1 − 2 я θ Σ − 1 ) − 1 ⋅ 1 п | 1 / 2 | Σ / п | − 1 / 2 = | ( Σ − 1 − 2 я θ Σ − 1 ) − 1 ⋅ 1 п ⋅ п ⋅ Σ − 1 | 1 / 2 = | [ ( Σ − 1 − 2 я θ Σ − 1 ) Σ ] − 1 | 1 / 2 = | я п − 2 я θ я п | − 1 / 2 { displaystyle { begin {align} & = left | ({ boldsymbol { Sigma}} ^ {- 1} -2i theta { boldsymbol { Sigma}} ^ {- 1}) ^ {- 1 } cdot { frac {1} {n}} right | ^ {1/2} | { boldsymbol { Sigma}} / n | ^ {- 1/2} & = left | ({ boldsymbol { Sigma}} ^ {- 1} -2i theta { boldsymbol { Sigma}} ^ {- 1}) ^ {- 1} cdot { frac {1} { cancel {n}} } cdot { cancel {n}} cdot { boldsymbol { Sigma}} ^ {- 1} right | ^ {1/2} & = left | left [({ cancel {{ boldsymbol { Sigma}} ^ {- 1}}} - 2i theta { cancel {{ boldsymbol { Sigma}} ^ {- 1}}}) { cancel { boldsymbol { Sigma}}} right] ^ {- 1} right | ^ {1/2} & = | mathbf {I} _ {p} -2i theta mathbf {I} _ {p} | ^ {- 1 / 2} end {выровнено}}} куда я п { displaystyle I_ {p}} является единичной матрицей размерности п { displaystyle p} . Наконец, вычисляя определитель, получаем:
= ( 1 − 2 я θ ) − п / 2 { displaystyle { begin {align} & = (1-2i theta) ^ {- p / 2} end {align}}} которая является характеристической функцией для распределение хи-квадрат с п { displaystyle p} степени свободы. ◼ { Displaystyle ; ; ; blacksquare}
Статистика по двум выборкам
Если Икс 1 , … , Икс п Икс ∼ N п ( μ , V ) { displaystyle { mathbf {x}} _ {1}, dots, { mathbf {x}} _ {n_ {x}} sim N_ {p} ({ boldsymbol { mu}}, { mathbf {V}})} и у 1 , … , у п у ∼ N п ( μ , V ) { displaystyle { mathbf {y}} _ {1}, dots, { mathbf {y}} _ {n_ {y}} sim N_ {p} ({ boldsymbol { mu}}, { mathbf {V}})} , с образцами независимо взят из двух независимый многомерные нормальные распределения с тем же средним значением и ковариацией, и мы определяем
Икс ¯ = 1 п Икс ∑ я = 1 п Икс Икс я у ¯ = 1 п у ∑ я = 1 п у у я { displaystyle { overline { mathbf {x}}} = { frac {1} {n_ {x}}} sum _ {i = 1} ^ {n_ {x}} mathbf {x} _ { i} qquad { overline { mathbf {y}}} = { frac {1} {n_ {y}}} sum _ {i = 1} ^ {n_ {y}} mathbf {y} _ {я}} как означает образец, и
Σ ^ Икс = 1 п Икс − 1 ∑ я = 1 п Икс ( Икс я − Икс ¯ ) ( Икс я − Икс ¯ ) ′ { displaystyle { hat { mathbf { Sigma}}} _ { mathbf {x}} = { frac {1} {n_ {x} -1}} sum _ {i = 1} ^ {n_ {x}} ( mathbf {x} _ {i} - { overline { mathbf {x}}}) ( mathbf {x} _ {i} - { overline { mathbf {x}}}) '} Σ ^ у = 1 п у − 1 ∑ я = 1 п у ( у я − у ¯ ) ( у я − у ¯ ) ′ { displaystyle { hat { mathbf { Sigma}}} _ { mathbf {y}} = { frac {1} {n_ {y} -1}} sum _ {i = 1} ^ {n_ {y}} ( mathbf {y} _ {i} - { overline { mathbf {y}}}) ( mathbf {y} _ {i} - { overline { mathbf {y}}}) '} как соответствующие выборочные ковариационные матрицы. потом
Σ ^ = ( п Икс − 1 ) Σ ^ Икс + ( п у − 1 ) Σ ^ у п Икс + п у − 2 { displaystyle { hat { mathbf { Sigma}}} = { frac {(n_ {x} -1) { hat { mathbf { Sigma}}} _ { mathbf {x}} + ( n_ {y} -1) { hat { mathbf { Sigma}}} _ { mathbf {y}}} {n_ {x} + n_ {y} -2}}} беспристрастный объединенная матрица ковариаций оценка (расширение совокупная дисперсия ).
Наконец, Двухвыборка Хотеллинга т -квадратная статистика является
т 2 = п Икс п у п Икс + п у ( Икс ¯ − у ¯ ) ′ Σ ^ − 1 ( Икс ¯ − у ¯ ) ∼ Т 2 ( п , п Икс + п у − 2 ) { displaystyle t ^ {2} = { frac {n_ {x} n_ {y}} {n_ {x} + n_ {y}}} ({ overline { mathbf {x}}} - { overline { mathbf {y}}}) '{ hat { mathbf { Sigma}}} ^ {- 1} ({ overline { mathbf {x}}} - { overline { mathbf {y}}) }) sim T ^ {2} (p, n_ {x} + n_ {y} -2)} Связанные понятия Его можно связать с F-распределением следующим образом:[4]
п Икс + п у − п − 1 ( п Икс + п у − 2 ) п т 2 ∼ F ( п , п Икс + п у − 1 − п ) . { displaystyle { frac {n_ {x} + n_ {y} -p-1} {(n_ {x} + n_ {y} -2) p}} t ^ {2} sim F (p, n_ {x} + n_ {y} -1-p).} Ненулевое распределение этой статистики - это нецентральное F-распределение (отношение нецентральный хи-квадрат случайная величина и независимый центральный Хи-квадрат случайная переменная)
п Икс + п у − п − 1 ( п Икс + п у − 2 ) п т 2 ∼ F ( п , п Икс + п у − 1 − п ; δ ) , { displaystyle { frac {n_ {x} + n_ {y} -p-1} {(n_ {x} + n_ {y} -2) p}} t ^ {2} sim F (p, n_ {x} + n_ {y} -1-p; delta),} с
δ = п Икс п у п Икс + п у ν ′ V − 1 ν , { displaystyle delta = { frac {n_ {x} n_ {y}} {n_ {x} + n_ {y}}} { boldsymbol { nu}} ' mathbf {V} ^ {- 1} { boldsymbol { nu}},} куда ν = Икс ¯ − у ¯ { displaystyle { boldsymbol { nu}} = mathbf {{ overline {x}} - { overline {y}}}} - вектор разницы между средними значениями населения.
В случае двух переменных формула красиво упрощается, позволяя понять, как корреляция ρ { displaystyle rho} , между переменными влияет т 2 { displaystyle t ^ {2}} . Если мы определим
d 1 = Икс ¯ 1 − у ¯ 1 , d 2 = Икс ¯ 2 − у ¯ 2 { displaystyle d_ {1} = { overline {x}} _ {1} - { overline {y}} _ {1}, qquad d_ {2} = { overline {x}} _ {2} - { overline {y}} _ {2}} и
s 1 = W 11 s 2 = W 22 ρ = W 12 / ( s 1 s 2 ) = W 21 / ( s 1 s 2 ) { displaystyle s_ {1} = { sqrt {W_ {11}}} qquad s_ {2} = { sqrt {W_ {22}}} qquad rho = W_ {12} / (s_ {1}) s_ {2}) = W_ {21} / (s_ {1} s_ {2})} тогда
т 2 = п Икс п у ( п Икс + п у ) ( 1 − р 2 ) [ ( d 1 s 1 ) 2 + ( d 2 s 2 ) 2 − 2 ρ ( d 1 s 1 ) ( d 2 s 2 ) ] { displaystyle t ^ {2} = { frac {n_ {x} n_ {y}} {(n_ {x} + n_ {y}) (1-r ^ {2})}} left [ left ({ frac {d_ {1}} {s_ {1}}} right) ^ {2} + left ({ frac {d_ {2}} {s_ {2}}} right) ^ {2 } -2 rho left ({ frac {d_ {1}} {s_ {1}}} right) left ({ frac {d_ {2}} {s_ {2}}} right) верно]} Таким образом, если различия в двух строках вектора ( Икс ¯ − у ¯ ) { displaystyle ({ overline { mathbf {x}}} - { overline { mathbf {y}}})} одного знака, как правило, т 2 { displaystyle t ^ {2}} становится меньше как ρ { displaystyle rho} становится более позитивным. Если различия противоположного знака т 2 { displaystyle t ^ {2}} становится больше как ρ { displaystyle rho} становится более позитивным.
Одномерный частный случай можно найти в T-критерий Велча .
В литературе были предложены более надежные и мощные тесты, чем двухвыборочный тест Хотеллинга, см., Например, тесты на основе расстояния между точками, которые могут применяться также, когда количество переменных сравнимо или даже больше, чем количество испытуемых.[8] [9]
Смотрите также
Рекомендации
^ а б c Хотеллинг, Х. (1931). «Обобщение коэффициента Стьюдента» . Анналы математической статистики . 2 (3): 360–378. Дои :10.1214 / aoms / 1177732979 .^ Johnson, R.A .; Wichern, D.W. (2002). Прикладной многомерный статистический анализ . 5 . Зал Прентис. ^ Эрик В. Вайсштейн, MathWorld ^ а б Mardia, K. V .; Kent, J. T .; Бибби, Дж. М. (1979). Многомерный анализ . Академическая пресса. ISBN 978-0-12-471250-8 . ^ «6.5.4.3. Отель Хотеллинга Т в квадрате " .^ Конец главы 4.2. Джонсон, Р.А. И Уичерн, Д. (2002) ^ Биллингсли, П. (1995). «26. Характеристические функции». Вероятность и мера (3-е изд.). Вайли. ISBN 978-0-471-00710-4 . ^ Мароцци, М. (2016). «Многовариантные тесты на основе межточечных расстояний с приложением к магнитно-резонансной томографии». Статистические методы в медицинских исследованиях . 25 (6): 2593–2610. Дои :10.1177/0962280214529104 . PMID 24740998 . ^ Мароцци, М. (2015). «Многофакторные многомерные тесты для многомерных исследований методом случай-контроль с малым размером выборки». Статистика в медицине . 34 (9): 1511–1526. Дои :10.1002 / sim.6418 . PMID 25630579 . внешняя ссылка
Дискретный одномерный с конечной опорой Дискретный одномерный с бесконечной поддержкой Непрерывный одномерный поддерживается на ограниченном интервале Непрерывный одномерный поддерживается на полубесконечном интервале Непрерывный одномерный поддерживается на всей реальной линии Непрерывный одномерный с поддержкой, тип которой варьируется Смешанная непрерывно-дискретная одномерная Многовариантный (совместный) Направленный Вырожденный и единственное число Семьи