Новый многодиапазонный тест Duncans - Duncans new multiple range test - Wikipedia

В статистика, Новый многодиапазонный тест Дункана (MRT) это множественное сравнение процедура, разработанная Дэвид Б. Дункан в 1955 году. MRT Дункана принадлежит к общему классу процедур множественного сравнения, которые используют стьюдентизированный диапазон статистика qр сравнивать наборы средств.

Дэвид Б. Дункан разработал этот тест как модификацию Метод Стьюдента – Ньюмана – Кеулса это будет иметь большую силу. MRT Дункана особенно защищает от ложноотрицательная (тип II) ошибка за счет большего риска сделать ложноположительные (тип I) ошибки. Тест Дункана обычно используется в агрономия и другие сельскохозяйственные исследования.

Результатом теста является набор подмножеств средних значений, причем в каждом подмножестве было обнаружено, что средние значения существенно не отличаются друг от друга.

Определение

Предположения:
1. образец наблюдаемых средних , которые были получены независимо от n нормальных популяций с "истинными" средними значениями, соответственно.
2. общий стандартная ошибка . Этот стандартная ошибка неизвестно, но есть обычная оценка , который не зависит от наблюдаемых средних значений и основан на ряде степени свободы, обозначаемый . (Точнее, , имеет свойство распространяется как с степеней свободы, независимо от выборочных средних).

Точное определение теста:

Разница между любыми двумя средними в наборе из n средних является значимой при условии, что диапазон каждого и каждого подмножества, которое содержит данное среднее значение, является значительным в соответствии с тест диапазона уровней, где , и - количество средних в рассматриваемом подмножестве.

Исключение: Единственным исключением из этого правила является то, что никакое различие между двумя средними значениями не может быть объявлено значимым, если оба рассматриваемых средства содержатся в подмножестве средств, диапазон которых незначителен.

Процедура

Процедура состоит из серии попарные сравнения между средствами. Каждое сравнение выполняется на уровне значимости , определяемый количеством средств, разделяющих два сравниваемых средства ( за разделяющие средства). Тесты выполняются последовательно, где результат теста определяет, какой тест будет выполнен следующим.

Тесты выполняются в следующем порядке: наибольший минус наименьший, наибольший минус второй наименьший, до наибольшего минус второй по величине; затем второй по величине минус самый маленький, второй по величине минус второй по размеру и так далее, заканчивая вторым по величине минус самым маленьким.

За исключением одного, приведенного ниже, каждое различие является значимым, если оно превышает соответствующий кратчайший значимый диапазон; в противном случае это не имеет значения. Где самый короткий значимый диапазон - это значительный стьюдентизированный диапазон, умноженное на стандартную ошибку. Самый короткий значимый диапазон обозначим как , куда является числовым средним в подмножестве. Единственным исключением из этого правила является то, что никакое различие между двумя средними не может быть объявлено значимым, если оба рассматриваемых средства содержатся в подмножестве средств, которое имеет незначительный диапазон.

Алгоритм проведения теста следующий:

       1. Ранжируйте средние выборки от наибольшего к наименьшему. 2. Для каждого  выборочное среднее, от наибольшего к наименьшему, выполните следующие действия: 2.1 для каждого выборочного среднего (обозначено ), от самых маленьких до . 2.1.1 сравнить  до критического значения ,       2.1.2 если  не превышает критического значения, подмножество  объявлен несущественно другим: 2.1.2.1 Перейти к следующей итерации цикла 2. 2.1.3 В противном случае продолжите цикл 2.1.

Критические ценности

В тесте Дункана с несколькими диапазонами используется студентизированное распределение диапазона для определения критических значений для сравнения средних. Обратите внимание, что разные сравнения между средними значениями могут различаться по уровням значимости, поскольку уровень значимости зависит от размера рассматриваемого подмножества средних.

Обозначим как квантиль студентизированное распределение диапазона, с p наблюдениями, и степени свободы для второго образца (см. стьюдентизованный диапазон для получения дополнительной информации). как стандартизованное критическое значение, определяемое правилом:

Если p = 2

Еще

Кратчайший критический диапазон (фактическое критическое значение теста) рассчитывается как:.За -> ∞, таблица существует для точного значения Q (см. Ссылку). Здесь необходимо одно предостережение: обозначения для Q и R в литературе неодинаковы, где Q иногда обозначается как самый короткий значимый интервал, и R как значимый квантиль за студентизированное распределение диапазона (В статье Дункана 1955 года оба обозначения используются в разных частях).

Числовой пример

Разберем на примере 5 лечебных средств:

ЛечениеТ1Т2Т3Т4Т5
Средства лечения9.815.417.621.610.8
Классифицировать53214


Со стандартной ошибкой , и (степени свободы для оценки стандартной ошибки). Используя известную таблицу для Q, можно достичь значений :




Теперь мы можем получить значения самого короткого значимого диапазона по формуле:

Достижение:




Затем проверяются наблюдаемые различия между средними значениями, начиная с наибольшего и наименьшего значений, которые сравниваются с наименьшим значимым диапазоном. Затем вычисляется разница между наибольшим и вторым наименьшим и сравнивается с наименее значимой разницей. .

Если наблюдаемая разница больше соответствующего кратчайшего значимого диапазона, то мы заключаем, что рассматриваемая пара средних значений значительно отличается. Если наблюдаемая разница меньше соответствующего кратчайшего значимого диапазона, все различия, имеющие одно и то же верхнее среднее значение, считаются незначительными. , чтобы предотвратить противоречия (различия, имеющие одинаковое верхнее среднее, короче по построению).

В нашем случае сравнение даст:












Мы видим, что есть существенные различия между всеми парами обработок, кроме (T3, T2) и (T5, T1). График, подчеркивающий те средства, которые существенно не отличаются, показан ниже:
Т1 Т5 Т2 Т3 Т4

Уровни защиты и значимости на основе степеней свободы

Новый многодиапазонный тест, предложенный Дунканом, использует специальные уровни защиты, основанные на степени свободы. Позволять быть уровнем защиты для проверки значимости разницы между двумя средствами; это вероятность что существенная разница между двумя средними не будет обнаружена, если средние значения генеральной совокупности равны. Дункан считает, что у человека есть p-1 степени свободы для тестирования p ранжированного среднего, и, следовательно, можно проводить независимые тесты p-1, каждое с уровнем защиты . Следовательно, уровень совместной защиты составляет:

куда

то есть вероятность того, что не будет обнаружено значительных различий в проведении независимых тестов p-1, каждое на уровне защиты , является в соответствии с гипотезой о том, что все p средние по совокупности равны. В общем: разница между любыми двумя средними в наборе из n средних значима при условии, что диапазон каждого и каждого подмножества, который содержит данное среднее значение, является значимым в соответствии с –Уровневый тест диапазона, где p - количество средних в рассматриваемом подмножестве.

За , уровень защиты можно табулировать для различных значений r следующим образом:

Уровень защиты вероятность ложного отклонения
р = 20.950.05
р = 30.9030.097
р = 40.8570.143
р = 50.8150.185
р = 60.7740.226
р = 70.7350.265

Обратите внимание, что хотя в этой процедуре используется Студентизированный диапазон, его коэффициент ошибок не основан ни на экспериментах (как у Тьюки), ни на основе сравнений. Многодиапазонный тест Дункана не контролирует частота ошибок в семье. См. Дополнительную информацию в разделе «Критика».

Байесовская процедура множественного сравнения Дункана

Дункан (1965) также дал первую байесовскую процедуру множественного сравнения для попарные сравнения среди средств в односторонней схеме. Эта процедура множественного сравнения отличается от описанной выше.

Байесовская MCP Дункана обсуждает различия между упорядоченными групповыми средними, где рассматриваемая статистика попарное сравнение (эквивалент не определен для свойства подмножества, имеющего «существенно отличающееся» свойство).

Дункан смоделировал последствия равенства двух или более средств с помощью аддитивного функции потерь внутри и через попарные сравнения. Если предположить то же самое функция потерь для парных сравнений необходимо указать только одну константу K, и это указывает на относительную серьезность ошибок типа I и типа II в каждом парном сравнении.

Исследование, проведенное Джульеттой Поппер Шаффер (1998), показало, что метод, предложенный Дунканом, был модифицирован для обеспечения слабого контроля FWE и с использованием эмпирической оценки отклонение популяции, имеет хорошие свойства как с байесовской точки зрения, как метод минимального риска, так и с точки зрения частотного анализа, с хорошей средней мощностью.

Кроме того, результаты указывают на значительное сходство рисков и средних значений. мощность между модифицированной процедурой Дункана и Бенджамини и Hochberg (1995) Уровень ложного обнаружения -контрольная процедура, с таким же слабым контролем семейных ошибок.

Критика

Тест Дункана критиковался многими статистиками как слишком либеральный, в том числе Генри Шеффе, и Джон В. Тьюки Дункан утверждал, что более либеральная процедура была подходящей, потому что в реальной практике глобальная нулевая гипотеза H0 = «Все средние равны» часто ложно, и поэтому традиционные статистики чрезмерно защищают возможно ложную нулевую гипотезу от ошибок типа I. Согласно Дункану, следует корректировать уровни защиты для различных сравнений p-средних в соответствии с обсуждаемой проблемой. Пример, обсужденный Дунканом в его статье 1955 года, представляет собой сравнение многих средних (например, 100), когда интересуются только сравнения с двумя средними и тремя средними, а также общие сравнения p-средних (определение наличия некоторой разницы между p-means) не представляют особого интереса (например, если p равно 15 или больше). Тест множественного диапазона Дункана очень «либерален» с точки зрения ошибок типа I. Следующий пример поясняет, почему:

Предположим, что кто-то действительно заинтересован, как предположил Дункан, только при правильном ранжировании подмножеств размера 4 или ниже. Предположим также, что выполняется простое попарное сравнение с уровнем защиты . Учитывая общий набор из 100 средних, давайте посмотрим на нулевые гипотезы теста:

Есть нулевые гипотезы для правильного ранжирования каждых 2 средних. Уровень значимости каждой гипотезы равен

Есть нулевые гипотезы для правильного ранжирования каждых 3 средних. Уровень значимости каждой гипотезы равен

Есть нулевые гипотезы для правильного ранжирования каждых 4 средних. Уровень значимости каждой гипотезы равен

Как мы видим, у теста есть две основные проблемы, касающиеся ошибок типа I:

  1. Тесты Дункана основаны на Процедура Ньюмана – Кеулса, что не защищает частота ошибок в семье (хотя и защищает альфа-уровень сравнения)
  2. Тест Дункана намеренно повышает альфа-уровни (Частота ошибок типа I ) на каждом шаге Процедура Ньюмана – Кеулса (уровни значимости ).

Поэтому рекомендуется не использовать описанную процедуру.

Позже Дункан разработал тест Дункана – Уоллера, основанный на байесовских принципах. Он использует полученное значение F для оценки априорной вероятности нулевая гипотеза быть правдой.

Разные подходы к проблеме

Если кто-то все еще хочет решить проблему поиска похожих подмножеств групповых средних, в литературе можно найти другие решения.

Тест дальности Тьюки обычно используется для сравнения пар средних, эта процедура контролирует частота ошибок в семье в сильном смысле.

Другое решение - выполнить T-критерий Стьюдента всех пар средств, а затем использовать процедуру FDR Controlling (для контроля ожидаемой доли неправильно отклоненных нулевые гипотезы ).

Другие возможные решения, которые не включают проверку гипотез, но приводят к разделению подмножеств, включают Кластеризация & Иерархическая кластеризация. Эти решения отличаются от подхода, представленного в этом методе:

  • Основываясь на расстоянии / плотности, а не на распределении.
  • Требуется большая группа средств для получения значимых результатов или работа со всем набором данных.

Рекомендации

  • Дункан, Д. Б. (1955). «Множественный диапазон и множественные тесты F». Биометрия. 11: 1–42. Дои:10.2307/3001478.
  • Шаффер, Джульетта Поппер (1999). «Полубайесовское исследование процедуры множественного сравнения Байеса Дункана». Журнал статистического планирования и вывода. 82 (1–2): 197–213. Дои:10.1016 / S0378-3758 (99) 00042-7.
  • Берри, Дональд А .; Хохберг, Йосеф (1999). «Байесовские взгляды на множественные сравнения». Журнал статистического планирования и вывода. 82 (1–2): 215–227. Дои:10.1016 / S0378-3758 (99) 00044-0.
  • Парсад, Раджендер. «Процедуры множественного сравнения». I.A.S.R.I, Библиотечная авеню, Нью-Дели, 110012. Цитировать журнал требует | журнал = (помощь)
Таблицы для использования диапазона и студентизированного диапазона в проверке гипотез
  • Х. Леон Хартер, Шампань, Иллинойс; Н. Балакришнан, Университет Макмастера, Гамильтон, Онтарио, Канада; Твердый переплет - опубликовано 27 октября 1997 г.

внешняя ссылка