Гостиницы Т-квадратное распределение - Hotellings T-squared distribution - Wikipedia

Ти Хотеллинга² распределение
	Функция плотности вероятности
	Кумулятивная функция распределения
Параметры	п - размерность случайных величин ; м - в зависимости от размера выборки
Поддерживать	если ; иначе.

В статистика, особенно в проверка гипотезы, то Хотеллинга Т-квадратное распределение (Т²), предложено Гарольд Хотеллинг,^[1] это многомерное распределение вероятностей это тесно связано с F-распределение и наиболее примечателен тем, что возникает как распределение набора статистика выборки которые являются естественным обобщением статистики, лежащей в основе Студенты т-распределение.

В Хотеллинга т-квадратная статистика (т²) является обобщением Студенты т-статистический что используется в многомерный проверка гипотезы.^[2]

Распределение

Мотивация

Распределение возникает в многомерная статистика в начинании тесты различий между (многомерными) средними для разных популяций, где тесты для одномерных задач будут использовать т-тест Дистрибутив назван в честь Гарольд Хотеллинг, который разработал его как обобщение студенческого т-распределение.^[1]

Определение

Если вектор ${ displaystyle d}$ является Многомерное распределение по Гауссу с нулевым средним и единицей измерения ковариационная матрица ${ Displaystyle N ( mathbf {0} _ {p}, mathbf {I} _ {p, p})}$ и ${ displaystyle M}$ это ${ displaystyle p times p}$ матрица с единицей масштабная матрица и м степени свободы с Распределение Уишарта ${ Displaystyle W ( mathbf {I} _ {p, p}, m)}$ , то Квадратичная форма ${ displaystyle md ^ {T} M ^ {- 1} d}$ имеет распределение Хотеллинга, ${ Displaystyle Т ^ {2} (п, м)}$ , с параметром ${ displaystyle p}$ и ${ displaystyle m}$ .^[3]

Если случайная величина Икс имеет Хотеллинг Т-квадратное распределение, ${ displaystyle X sim T_ {p, m} ^ {2}}$ , тогда:^[1]

{ displaystyle { frac {m-p + 1} {pm}} X sim F_ {p, m-p + 1}}

куда ${ displaystyle F_ {p, m-p + 1}}$ это F-распределение с параметрами п и м − п + 1.

Прогнозирование статистики t-квадрат

Позволять ${ Displaystyle { шляпа { mathbf { Sigma}}}}$ быть выборочная ковариация:

{ displaystyle { hat { mathbf { Sigma}}} = { frac {1} {n-1}} sum _ {i = 1} ^ {n} ( mathbf {x} _ {i} - { overline { mathbf {x}}}) ( mathbf {x} _ {i} - { overline { mathbf {x}}}) '}

где мы обозначаем транспонировать по апостроф. Можно показать, что ${ Displaystyle { шляпа { mathbf { Sigma}}}}$ это положительный (полу) определенный матрица и ${ Displaystyle (п-1) { шляпа { mathbf { Sigma}}}}$ следует за п-variate Распределение Уишарта с п−1 степени свободы.^[4] Примерная ковариационная матрица среднего значения имеет вид ${ Displaystyle { шляпа { mathbf { Sigma}}} _ { overline { mathbf {x}}} = { шляпа { mathbf { Sigma}}} / п}$ .^{[требуется разъяснение ]}

В Хотеллинга т-квадратная статистика тогда определяется как:^[5]

{ displaystyle t ^ {2} = ({ overline { mathbf {x}}} - { boldsymbol { mu}}) '{ hat { mathbf { Sigma}}} _ { overline { mathbf {x}}} ^ {- 1} ({ overline { mathbf {x}}} - { boldsymbol { mathbf { mu}}}),}

который пропорционален расстояние между выборочным средним и ${ displaystyle { boldsymbol { mu}}}$ . Из-за этого следует ожидать, что статистика будет принимать низкие значения, если ${ displaystyle { overline { mathbf {x}}} cong { boldsymbol { mu}}}$ , и высокие значения, если они разные.

От распределение,

{ displaystyle t ^ {2} sim T_ {p, n-1} ^ {2} = { frac {p (n-1)} {n-p}} F_ {p, n-p},}

куда ${ displaystyle F_ {p, n-p}}$ это F-распределение с параметрами п и п − п. Чтобы рассчитать п-ценить (не связано с п здесь переменная), обратите внимание, что распределение ${ displaystyle t ^ {2}}$ эквивалентно означает, что

{ displaystyle { frac {n-p} {p (n-1)}} t ^ {2} sim F_ {p, n-p}.}

Затем используйте количество слева, чтобы оценить п-значение, соответствующее образцу, которое происходит от F-распределение. А область доверия также может быть определено с использованием аналогичной логики.

Мотивация

Позволять ${ displaystyle { mathcal {N}} _ {p} ({ boldsymbol { mu}}, { mathbf { Sigma}})}$ обозначить п-вариантное нормальное распределение с место расположения ${ displaystyle { boldsymbol { mu}}}$ и известный ковариация ${ Displaystyle { mathbf { Sigma}}}$ . Позволять

{ displaystyle { mathbf {x}} _ {1}, dots, { mathbf {x}} _ {n} sim { mathcal {N}} _ {p} ({ boldsymbol { mu} }, { mathbf { Sigma}})}

быть п независимые одинаково распределенные (iid) случайные переменные, который можно представить как ${ displaystyle p times 1}$ векторы-столбцы действительных чисел. Определять

{ displaystyle { overline { mathbf {x}}} = { frac { mathbf {x} _ {1} + cdots + mathbf {x} _ {n}} {n}}}

быть выборочное среднее с ковариацией ${ Displaystyle { mathbf { Sigma}} _ { bar { mathbf {x}}} = { mathbf { Sigma}} / n}$ . Можно показать, что

{ displaystyle ({ bar { mathbf {x}}} - { boldsymbol { mu}}) '{ mathbf { Sigma}} _ { bar { mathbf {x}}} ^ {- 1 } ({ bar { mathbf {x}}} - { boldsymbol { mathbf { mu}}}) sim chi _ {p} ^ {2},}

куда ${ displaystyle chi _ {p} ^ {2}}$ это распределение хи-квадрат с п степени свободы.^[6]

Доказательство —

Чтобы показать это, используйте тот факт, что ${ displaystyle { overline { mathbf {x}}} sim { mathcal {N}} _ {p} ({ boldsymbol { mu}}, { mathbf { Sigma}} / n)}$ и получить характеристическая функция случайной величины ${ displaystyle mathbf {y} = ({ bar { mathbf {x}}} - { boldsymbol { mu}}) '{ mathbf { Sigma}} _ { bar { mathbf {x} }} ^ {- 1} ({ bar { mathbf {x}}} - { boldsymbol { mathbf { mu}}}) = ({ bar { mathbf {x}}} - { boldsymbol { mu}}) '({ mathbf { Sigma}} / n) ^ {- 1} ({ bar { mathbf {x}}} - { boldsymbol { mathbf { mu}}}) }$ . Как обычно, пусть ${ displaystyle | cdot |}$ обозначить детерминант аргумента, как в ${ displaystyle | { boldsymbol { Sigma}} |}$ .

По определению характеристической функции имеем:^[7]

{ displaystyle { begin {align} varphi _ { mathbf {y}} ( theta) & = operatorname {E} e ^ {i theta mathbf {y}}, [5pt] & = operatorname {E} e ^ {i theta ({ overline { mathbf {x}}} - { boldsymbol { mu}}) '({ mathbf { Sigma}} / n) ^ {- 1 } ({ overline { mathbf {x}}} - { boldsymbol { mathbf { mu}}})} [5pt] & = int e ^ {i theta ({ overline { mathbf {x}}} - { boldsymbol { mu}}) 'n { mathbf { Sigma}} ^ {- 1} ({ overline { mathbf {x}}} - { boldsymbol { mathbf { mu}}})} (2 pi) ^ {- p / 2} | { boldsymbol { Sigma}} / n | ^ {- 1/2} , e ^ {- (1/2) ( { overline { mathbf {x}}} - { boldsymbol { mu}}) 'n { boldsymbol { Sigma}} ^ {- 1} ({ overline { mathbf {x}}} - { boldsymbol { mu}})} , dx_ {1} cdots dx_ {p} end {align}}}

Внутри интеграла две экспоненты, поэтому, умножая экспоненты, мы складываем показатели вместе, получая:

{ displaystyle { begin {align} & = int (2 pi) ^ {- p / 2} | { boldsymbol { Sigma}} / n | ^ {- 1/2} , e ^ {- (1/2) ({ overline { mathbf {x}}} - { boldsymbol { mu}}) 'n ({ boldsymbol { Sigma}} ^ {- 1} -2i theta { boldsymbol { Sigma}} ^ {- 1}) ({ overline { mathbf {x}}} - { boldsymbol { mu}})} , dx_ {1} cdots dx_ {p} end {выровнено }}}

Теперь возьмем термин ${ displaystyle | { boldsymbol { Sigma}} / п | ^ {- 1/2}}$ от интеграла, и умножьте все на тождество ${ Displaystyle I = | ({ boldsymbol { Sigma}} ^ {- 1} -2i theta { boldsymbol { Sigma}} ^ {- 1}) ^ {- 1} / n | ^ {1 / 2} ; cdot ; | ({ boldsymbol { Sigma}} ^ {- 1} -2i theta { boldsymbol { Sigma}} ^ {- 1}) ^ {- 1} / n | ^ {-1/2}}$ , поместив одну из них внутрь интеграла:

{ displaystyle { begin {align} & = | ({ boldsymbol { Sigma}} ^ {- 1} -2i theta { boldsymbol { Sigma}} ^ {- 1}) ^ {- 1} / n | ^ {1/2} | { boldsymbol { Sigma}} / n | ^ {- 1/2} int (2 pi) ^ {- p / 2} | ({ boldsymbol { Sigma} } ^ {- 1} -2i theta { boldsymbol { Sigma}} ^ {- 1}) ^ {- 1} / n | ^ {- 1/2} , e ^ {- (1/2) n ({ overline { mathbf {x}}} - { boldsymbol { mu}}) '({ boldsymbol { Sigma}} ^ {- 1} -2i theta { boldsymbol { Sigma}} ^ {- 1}) ({ overline { mathbf {x}}} - { boldsymbol { mu}})} , dx_ {1} cdots dx_ {p} end {align}}}

Но член внутри интеграла - это в точности функция плотности вероятности многомерное нормальное распределение с ковариационной матрицей ${ displaystyle ({ boldsymbol { Sigma}} ^ {- 1} -2i theta { boldsymbol { Sigma}} ^ {- 1}) ^ {- 1} / n = left [n ({ boldsymbol { Sigma}} ^ {- 1} -2i theta { boldsymbol { Sigma}} ^ {- 1}) right] ^ {- 1}}$ и значит ${ displaystyle mu}$ , поэтому при интеграции по всем ${ displaystyle x_ {1}, dots, x_ {p}}$ , он должен уступить ${ displaystyle 1}$ согласно аксиомы вероятности.^{[требуется разъяснение ]} Таким образом, мы получаем:

{ displaystyle { begin {align} & = left | ({ boldsymbol { Sigma}} ^ {- 1} -2i theta { boldsymbol { Sigma}} ^ {- 1}) ^ {- 1 } cdot { frac {1} {n}} right | ^ {1/2} | { boldsymbol { Sigma}} / n | ^ {- 1/2} & = left | ({ boldsymbol { Sigma}} ^ {- 1} -2i theta { boldsymbol { Sigma}} ^ {- 1}) ^ {- 1} cdot { frac {1} { cancel {n}} } cdot { cancel {n}} cdot { boldsymbol { Sigma}} ^ {- 1} right | ^ {1/2} & = left | left [({ cancel {{ boldsymbol { Sigma}} ^ {- 1}}} - 2i theta { cancel {{ boldsymbol { Sigma}} ^ {- 1}}}) { cancel { boldsymbol { Sigma}}} right] ^ {- 1} right | ^ {1/2} & = | mathbf {I} _ {p} -2i theta mathbf {I} _ {p} | ^ {- 1 / 2} end {выровнено}}}

куда ${ displaystyle I_ {p}}$ является единичной матрицей размерности ${ displaystyle p}$ . Наконец, вычисляя определитель, получаем:

{ displaystyle { begin {align} & = (1-2i theta) ^ {- p / 2} end {align}}}

которая является характеристической функцией для распределение хи-квадрат с ${ displaystyle p}$ степени свободы. ${ Displaystyle ; ; ; blacksquare}$

Статистика по двум выборкам

Если ${ displaystyle { mathbf {x}} _ {1}, dots, { mathbf {x}} _ {n_ {x}} sim N_ {p} ({ boldsymbol { mu}}, { mathbf {V}})}$ и ${ displaystyle { mathbf {y}} _ {1}, dots, { mathbf {y}} _ {n_ {y}} sim N_ {p} ({ boldsymbol { mu}}, { mathbf {V}})}$ , с образцами независимо взят из двух независимый многомерные нормальные распределения с тем же средним значением и ковариацией, и мы определяем

{ displaystyle { overline { mathbf {x}}} = { frac {1} {n_ {x}}} sum _ {i = 1} ^ {n_ {x}} mathbf {x} _ { i} qquad { overline { mathbf {y}}} = { frac {1} {n_ {y}}} sum _ {i = 1} ^ {n_ {y}} mathbf {y} _ {я}}

как означает образец, и

{ displaystyle { hat { mathbf { Sigma}}} _ { mathbf {x}} = { frac {1} {n_ {x} -1}} sum _ {i = 1} ^ {n_ {x}} ( mathbf {x} _ {i} - { overline { mathbf {x}}}) ( mathbf {x} _ {i} - { overline { mathbf {x}}}) '}

{ displaystyle { hat { mathbf { Sigma}}} _ { mathbf {y}} = { frac {1} {n_ {y} -1}} sum _ {i = 1} ^ {n_ {y}} ( mathbf {y} _ {i} - { overline { mathbf {y}}}) ( mathbf {y} _ {i} - { overline { mathbf {y}}}) '}

как соответствующие выборочные ковариационные матрицы. потом

{ displaystyle { hat { mathbf { Sigma}}} = { frac {(n_ {x} -1) { hat { mathbf { Sigma}}} _ { mathbf {x}} + ( n_ {y} -1) { hat { mathbf { Sigma}}} _ { mathbf {y}}} {n_ {x} + n_ {y} -2}}}

беспристрастный объединенная матрица ковариаций оценка (расширение совокупная дисперсия ).

Наконец, Двухвыборка Хотеллинга т-квадратная статистика является

{ displaystyle t ^ {2} = { frac {n_ {x} n_ {y}} {n_ {x} + n_ {y}}} ({ overline { mathbf {x}}} - { overline { mathbf {y}}}) '{ hat { mathbf { Sigma}}} ^ {- 1} ({ overline { mathbf {x}}} - { overline { mathbf {y}}) }) sim T ^ {2} (p, n_ {x} + n_ {y} -2)}

Связанные понятия

Его можно связать с F-распределением следующим образом:^[4]

{ displaystyle { frac {n_ {x} + n_ {y} -p-1} {(n_ {x} + n_ {y} -2) p}} t ^ {2} sim F (p, n_ {x} + n_ {y} -1-p).}

Ненулевое распределение этой статистики - это нецентральное F-распределение (отношение нецентральный хи-квадрат случайная величина и независимый центральный Хи-квадрат случайная переменная)

{ displaystyle { frac {n_ {x} + n_ {y} -p-1} {(n_ {x} + n_ {y} -2) p}} t ^ {2} sim F (p, n_ {x} + n_ {y} -1-p; delta),}

с

{ displaystyle delta = { frac {n_ {x} n_ {y}} {n_ {x} + n_ {y}}} { boldsymbol { nu}} ' mathbf {V} ^ {- 1} { boldsymbol { nu}},}

куда ${ displaystyle { boldsymbol { nu}} = mathbf {{ overline {x}} - { overline {y}}}}$ - вектор разницы между средними значениями населения.

В случае двух переменных формула красиво упрощается, позволяя понять, как корреляция ${ displaystyle rho}$ , между переменными влияет ${ displaystyle t ^ {2}}$ . Если мы определим

{ displaystyle d_ {1} = { overline {x}} _ {1} - { overline {y}} _ {1}, qquad d_ {2} = { overline {x}} _ {2} - { overline {y}} _ {2}}

и

{ displaystyle s_ {1} = { sqrt {W_ {11}}} qquad s_ {2} = { sqrt {W_ {22}}} qquad rho = W_ {12} / (s_ {1}) s_ {2}) = W_ {21} / (s_ {1} s_ {2})}

тогда

{ displaystyle t ^ {2} = { frac {n_ {x} n_ {y}} {(n_ {x} + n_ {y}) (1-r ^ {2})}} left [ left ({ frac {d_ {1}} {s_ {1}}} right) ^ {2} + left ({ frac {d_ {2}} {s_ {2}}} right) ^ {2 } -2 rho left ({ frac {d_ {1}} {s_ {1}}} right) left ({ frac {d_ {2}} {s_ {2}}} right) верно]}

Таким образом, если различия в двух строках вектора ${ displaystyle ({ overline { mathbf {x}}} - { overline { mathbf {y}}})}$ одного знака, как правило, ${ displaystyle t ^ {2}}$ становится меньше как ${ displaystyle rho}$ становится более позитивным. Если различия противоположного знака ${ displaystyle t ^ {2}}$ становится больше как ${ displaystyle rho}$ становится более позитивным.

Одномерный частный случай можно найти в T-критерий Велча.

В литературе были предложены более надежные и мощные тесты, чем двухвыборочный тест Хотеллинга, см., Например, тесты на основе расстояния между точками, которые могут применяться также, когда количество переменных сравнимо или даже больше, чем количество испытуемых.^[8]^[9]

Смотрите также

Студенты т-тест в одномерной статистике
Студенты т-распределение в одномерной теории вероятностей
Многомерное распределение студентов
F-распределение (обычно представлены в виде таблиц или доступны в программных библиотеках и, следовательно, используются для тестирования Т-квадратная статистика с использованием отношения, указанного выше)
Лямбда-распределение Уилкса (в многомерная статистика, Уилкса Λ принадлежит Хотеллингу Т² в качестве Снедекора F должен Студенты т в одномерной статистике)

внешняя ссылка

Прохоров, А. (2001) [1994], Т²-распределение "Хотеллинг" Т²-распределение", Энциклопедия математики, EMS Press

[H1931-1] а ^б ^c Хотеллинг, Х. (1931). «Обобщение коэффициента Стьюдента». Анналы математической статистики. 2 (3): 360–378. Дои:10.1214 / aoms / 1177732979.

[jonhson-2] Johnson, R.A .; Wichern, D.W. (2002). Прикладной многомерный статистический анализ. 5. Зал Прентис.

[3] Эрик В. Вайсштейн, MathWorld

[MKB-4] а ^б Mardia, K. V .; Kent, J. T .; Бибби, Дж. М. (1979). Многомерный анализ. Академическая пресса. ISBN 978-0-12-471250-8.

[5] «6.5.4.3. Отель Хотеллинга Т в квадрате ".

[6] Конец главы 4.2. Джонсон, Р.А. И Уичерн, Д. (2002)

[7] Биллингсли, П. (1995). «26. Характеристические функции». Вероятность и мера (3-е изд.). Вайли. ISBN 978-0-471-00710-4.

[8] Мароцци, М. (2016). «Многовариантные тесты на основе межточечных расстояний с приложением к магнитно-резонансной томографии». Статистические методы в медицинских исследованиях. 25 (6): 2593–2610. Дои:10.1177/0962280214529104. PMID 24740998.

[9] Мароцци, М. (2015). «Многофакторные многомерные тесты для многомерных исследований методом случай-контроль с малым размером выборки». Статистика в медицине. 34 (9): 1511–1526. Дои:10.1002 / sim.6418. PMID 25630579.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

Распределения вероятностей (Список )
Дискретный одномерный с конечной опорой	Бенфорд Бернулли бета-бином биномиальный категоричный гипергеометрический Бином Пуассона Радемахер солитон дискретная униформа Zipf Ципф – Мандельброт
Дискретный одномерный с бесконечной поддержкой	бета-отрицательный бином Борель Конвей – Максвелл – Пуассон дискретная фаза Делапорте расширенный отрицательный бином Флори-Шульц Гаусс – Кузьмин геометрический логарифмический отрицательный бином Panjer параболический фрактал Пуассон Скеллам Юл – Саймон Зета
Непрерывный одномерный поддерживается на ограниченном интервале	арксинус АРГУС Лысый – Николс Бейтс бета бета прямоугольный непрерывный Бернулли Ирвин – Холл Кумарасвами логит-нормальный нецентральная бета приподнятый косинус взаимный треугольный U-квадратичный униформа Полукруг Вигнера
Непрерывный одномерный поддерживается на полубесконечном интервале	Бенини Benktander 1-го рода Benktander 2-го рода бета прайм Заусенец хи-квадрат чи Дагум Дэвис экспоненциально-логарифмический Erlang экспоненциальный F сложенный нормальный Фреше гамма гамма / Gompertz обобщенная гамма обобщенный обратный гауссовский Гомпертц наполовину логистический наполовину нормальный Хотеллинга Т-квадрат гипер-Эрланг гиперэкспоненциальный гипоэкспоненциальный обратный хи-квадрат масштабированный обратный хи-квадрат обратный гауссовский обратная гамма Колмогоров Леви журнал-Коши лог-Лаплас логистика лог-нормальный Lomax матрично-экспоненциальный Максвелл – Больцманн Максвелл – Юттнер Mittag-Leffler Накагами нецентральный хи-квадрат нецентральный F Парето фазовый поли-Вейбулл Рэлей релятивистский Брейт – Вигнер Рис сдвинутый Гомпертц усеченный нормальный Тип-2 Гамбель Weibull дискретный Weibull Лямбда Уилкса
Непрерывный одномерный поддерживается на всей реальной линии	Коши экспоненциальная степень Фишера z Гауссовский q обобщенный нормальный обобщенный гиперболический геометрическая конюшня Гамбель Holtsmark гиперболический секанс Джонсона S_U Ландо Лаплас асимметричный лаплас логистика нецентральный т нормальный (гауссовский) нормально-обратный гауссовский перекос нормально слэш стабильный Студенты т Гамбель типа 1 Трейси – Уидом дисперсия-гамма Voigt
Непрерывный одномерный с поддержкой, тип которой варьируется	обобщенный хи-квадрат обобщенное экстремальное значение обобщенный Парето Марченко – Пастур q-экспоненциальный q-Гауссовский q-Вейбулл смещенная логистика Лямбда Тьюки
Смешанная непрерывно-дискретная одномерная	выпрямленный гауссовский
Многовариантный (совместный)	Дискретный Ewens полиномиальный Дирихле-полиномиальный отрицательный полиномиальный Непрерывный Дирихле обобщенный Дирихле многомерный Лаплас многомерный нормальный многомерный стабильный многомерный т нормальная обратная гамма нормальная гамма Матричнозначный обратная матрица гамма обратный-Wishart матрица нормальная матрица т матрица гамма нормальный-обратный-Уишарт нормальный-Wishart Wishart
Направленный	Одномерный (круговой) направленный Круглая форма одномерный фон Мизеса завернутый нормально завернутый Коши завернутый экспоненциальный обернутый асимметричный лаплас завернутый Леви Двумерный (сферический) Кент Двумерный (тороидальный) двумерный фон Мизеса Многомерный фон Мизес-Фишер Bingham
Вырожденный и единственное число	Вырожденный Дельта-функция Дирака Единственное число Кантор
Семьи	Круговой соединение Пуассона эллиптический экспоненциальный естественная экспонента расположение – масштаб максимальная энтропия смесь Пирсон Твиди завернутый

Гостиницы Т-квадратное распределение - Hotellings T-squared distribution - Wikipedia

Содержание

Распределение

Мотивация

Определение

Прогнозирование статистики t-квадрат

Мотивация

Статистика по двум выборкам

Связанные понятия

Смотрите также

Рекомендации

внешняя ссылка