Проблема множественных сравнений - Multiple comparisons problem

Пример совпадения, произведенного дноуглубительные работы (показывает корреляцию между количеством букв в слове-победителе орфографической пчелы и количеством людей в Соединенных Штатах, убитых ядовитыми пауками). Учитывая достаточно большой пул переменных за тот же период времени, можно найти пару графиков, показывающих корреляция без причинной связи.

В статистика, то множественные сравнения, множественность или же проблема множественного тестирования возникает, когда рассматривается набор статистические выводы одновременно[1] или выводит подмножество параметров, выбранных на основе наблюдаемых значений.[2] В некоторых областях он известен как эффект поиска в другом месте.

Чем больше выводов сделано, тем больше вероятность появления ошибочных выводов. Чтобы этого не произошло, было разработано несколько статистических методов, позволяющих напрямую сравнивать уровни значимости для одиночных и множественных сравнений. Эти методы обычно требуют более строгого порога значимости для индивидуальных сравнений, чтобы компенсировать количество сделанных выводов.

История

Интерес к проблеме множественных сравнений начался в 1950-х годах с работ Tukey и Шеффе. Другие методы, такие как закрытая процедура тестирования (Marcus et al., 1976) и Метод Холма – Бонферрони (1979), появившиеся позже. В 1995 году работа над коэффициент ложного обнаружения началось. В 1996 г. прошла первая конференция по множественным сравнениям. Израиль. За этим последовали конференции по всему миру, обычно проводимые примерно раз в два года.[3]

Определение

Множественные сравнения возникают, когда статистический анализ включает в себя несколько одновременных статистических тестов, каждый из которых может привести к «открытию» одного и того же набора данных или зависимых наборов данных. Заявленный уровень достоверности обычно применяется только к каждому тесту, рассматриваемому индивидуально, но часто желательно иметь уровень достоверности для всего семейства одновременных тестов.[4] Неспособность компенсировать множественные сравнения может иметь важные последствия в реальном мире, о чем свидетельствуют следующие примеры:

  • Предположим, что лечение - это новый способ обучения студентов письму, а контроль - это стандартный способ обучения письму. Учащиеся двух групп можно сравнить по грамматике, орфографии, организации, содержанию и так далее. По мере того как сравнивается больше атрибутов, становится все более вероятным, что экспериментальная и контрольная группы будут различаться по крайней мере по одному атрибуту из-за случайных ошибка выборки один.
  • Предположим, мы рассматриваем эффективность препарат, средство, медикамент с точки зрения уменьшения любого из ряда симптомов заболевания. По мере рассмотрения большего числа симптомов становится все более вероятным, что лекарство будет выглядеть лучше существующих препаратов с точки зрения хотя бы одного симптома.

В обоих примерах по мере увеличения числа сравнений становится более вероятным, что сравниваемые группы будут различаться по крайней мере по одному атрибуту. Наша уверенность в том, что результат будет обобщен на независимые данные, как правило, будет слабее, если он будет наблюдаться в рамках анализа, включающего несколько сравнений, а не анализа, включающего только одно сравнение.

Например, если один тест выполняется на уровне 5% и соответствующая нулевая гипотеза верна, вероятность неверного отклонения нулевой гипотезы составляет всего 5%. Однако, если проведено 100 тестов и все соответствующие нулевые гипотезы верны, ожидаемое число неправильных отказов (также известных как ложные срабатывания или же Ошибки типа I ) равно 5. Если тесты статистически независимы друг от друга, вероятность хотя бы одного неправильного отказа составляет 99,4%.

Обратите внимание, что, конечно, проблема множественных сравнений возникает не в каждой ситуации, когда несколько гипотез проверяются эмпирически, будь то последовательно или параллельно (одновременно);[5] грубо говоря, проблема множественных сравнений возникает всякий раз, когда несколько гипотез проверяются на одном и том же наборе данных (или наборах данных, которые не являются независимыми) или когда одна и та же гипотеза проверяется на нескольких наборах данных.

Проблема множественных сравнений также относится к доверительные интервалы. Единый доверительный интервал с 95% вероятность покрытия Уровень будет содержать параметр населения в 95% экспериментов. Однако, если одновременно рассматривать 100 доверительных интервалов, каждый с вероятностью охвата 95%, ожидаемое количество непокрывающих интервалов равно 5. Если интервалы статистически независимы друг от друга, вероятность того, что хотя бы один интервал не содержит совокупность параметр 99,4%.

Были разработаны методы для предотвращения увеличения количества ложноположительных результатов и показателей неполного охвата, которые возникают при использовании нескольких статистических тестов.

Классификация нескольких тестов гипотез

В следующей таблице определены возможные результаты при проверке нескольких нулевых гипотез. Предположим, у нас есть число м нулевых гипотез, обозначаемых: ЧАС1ЧАС2, ..., ЧАСм.Используя статистический тест, мы отклоняем нулевую гипотезу, если тест объявлен значимым. Мы не отклоняем нулевую гипотезу, если тест несущественен. Суммируя каждый тип результата по всем ЧАСя дает следующие случайные величины:

Нулевая гипотеза верна (H0)Альтернативная гипотеза верна (HА)Общий
Тест объявлен значимымVSр
Тест объявлен несущественнымUТ
Общийм

В м гипотезы проверки которых верны нулевые гипотезы, р - наблюдаемая случайная величина, а S, Т, U, и V ненаблюдаемы случайные переменные.

Контрольные процедуры

Если м проводятся независимые сравнения, частота ошибок в семье (FWER), определяется как

Следовательно, если тесты не являются абсолютно положительно зависимыми (т. Е. Идентичными), увеличивается по мере увеличения числа сравнений. Если мы не предполагаем, что сравнения независимы, мы все равно можем сказать:

что следует из Неравенство Буля. Пример:

Есть разные способы гарантировать, что частота ошибок в семье не превышает . Наиболее консервативный метод, свободный от зависимостей и предположений о распределении, - это метод Коррекция Бонферрони . Чуть менее консервативную поправку можно получить, решив уравнение для коэффициента ошибок семейства независимые сравнения для . Это дает , который известен как Поправка Шидака. Другая процедура - это Метод Холма – Бонферрони, который равномерно обеспечивает большую мощность, чем простая поправка Бонферрони, проверяя только самое низкое значение p () по самому строгому критерию, а более высокие значения p () против все менее строгих критериев.[6].

Для непрерывных задач можно использовать Байесовский логика для вычисления от переднего объемного соотношения. Непрерывные обобщения Бонферрони и Поправка Шидака представлены в [7].

Коррекция множественного тестирования

Коррекция множественного тестирования относится к повторному вычислению вероятностей, полученных в результате многократного статистического теста. Чтобы сохранить предписанную частоту ошибок для семейства α в анализе, включающем более одного сравнения, частота ошибок для каждого сравнения должна быть более высокой, чемα. Из неравенства Буля следует, что если каждое из м выполняются тесты, чтобы выявить частоту ошибок I типаα/м, общая частота ошибок не превыситα. Это называется Коррекция Бонферрони, и является одним из наиболее часто используемых подходов для множественных сравнений.

В некоторых ситуациях поправка Бонферрони в значительной степени консервативна, т. Е. Фактическая частота ошибок в семье намного меньше предписанного уровня.α. Это происходит, когда статистика теста сильно зависит (в крайнем случае, когда тесты полностью зависимы, частота ошибок на уровне семьи без корректировки множественных сравнений и частота ошибок для каждого теста идентичны). Например, при анализе фМРТ[8][9] проведено более 100 000 тестов. воксели в мозгу. Метод Бонферрони требует, чтобы p-значения были меньше 0,05 / 100000, чтобы объявить значимость. Поскольку соседние воксели имеют тенденцию быть сильно коррелированными, этот порог обычно слишком строгий.

Поскольку простые методы, такие как метод Бонферрони, могут быть консервативными, большое внимание было уделено разработке более совершенных методов, позволяющих поддерживать общий уровень ложноположительных результатов без чрезмерного увеличения количества ложноотрицательных результатов. Такие методы можно разделить на общие категории:

  • Методы, в которых можно доказать, что общая альфа никогда не превышает 0,05 (или какое-либо другое выбранное значение) ни при каких условиях. Эти методы обеспечивают «строгий» контроль против ошибок типа I во всех условиях, включая частично правильную нулевую гипотезу.
  • Методы, в которых можно доказать, что общая альфа не превышает 0,05, за исключением определенных определенных условий.
  • Методы, основанные на омнибусный тест прежде чем перейти к множественным сравнениям. Обычно эти методы требуют значительного ANOVA, MANOVA, или же Тест дальности Тьюки. Эти методы обычно обеспечивают только «слабый» контроль ошибок типа I, за исключением определенного количества гипотез.
  • Эмпирические методы, которые адаптивно контролируют долю ошибок типа I, используя характеристики корреляции и распределения наблюдаемых данных.

Появление компьютеризированных повторная выборка методы, такие как самонастройка и Моделирование Монте-Карло, дала начало многим методам последней категории. В некоторых случаях, когда выполняется повторная выборка с исчерпывающей перестановкой, эти тесты обеспечивают точный и строгий контроль над частотой ошибок типа I. в других случаях, таких как бутстраповская выборка, они обеспечивают только приблизительный контроль.

Масштабное множественное тестирование

Традиционные методы корректировки множественных сравнений сосредоточены на корректировке небольшого количества сравнений, часто дисперсионный анализ. Другой набор методов был разработан для «крупномасштабного множественного тестирования», в котором выполняются тысячи или даже большее количество тестов. Например, в геномика, при использовании таких технологий, как микрочипы можно измерить уровни экспрессии десятков тысяч генов и определить генотипы миллионов генетических маркеров. Особенно в области генетическая ассоциация исследований, возникла серьезная проблема с отсутствием репликации - результат был статистически значимым в одном исследовании, но не мог быть воспроизведен в последующем исследовании. Такое отсутствие репликации может иметь множество причин, но широко распространено мнение, что одной из причин является неспособность полностью учесть последствия выполнения множественных сравнений.[10]

В разных областях науки множественное тестирование выполняется по-разному. Утверждалось, что если статистические тесты выполняются только тогда, когда есть веские основания ожидать, что результат будет верным, корректировки множественных сравнений не нужны.[11] Также утверждалось, что использование множественных исправлений тестирования является неэффективным способом выполнения эмпирическое исследование, поскольку множественные настройки тестирования позволяют контролировать ложные срабатывания за счет многих других ложные отрицания. С другой стороны, утверждалось, что прогресс в измерение и информационные технологии значительно упростили создание больших наборов данных для разведочный анализ, что часто приводит к проверке большого количества гипотез без предварительной основы для ожидания того, что многие из гипотез верны. В этой ситуации очень высокий ложноположительные ставки ожидаются, если не сделаны корректировки множественных сравнений.

Для задач крупномасштабного тестирования, целью которых является получение окончательных результатов, частота ошибок в семье остается наиболее приемлемым параметром для определения уровней значимости статистических тестов. В качестве альтернативы, если исследование рассматривается как исследовательское или если значительные результаты могут быть легко повторно протестированы в независимом исследовании, контроль коэффициент ложного обнаружения (FDR)[12][13][14] часто предпочтительнее. FDR, в общих чертах определяемый как ожидаемая доля ложноположительных результатов среди всех значимых тестов, позволяет исследователям идентифицировать набор «потенциальных положительных результатов», которые можно более тщательно оценить в ходе последующего исследования.[15]

Практика попытки множества нескорректированных сравнений в надежде найти значимое - известная проблема, независимо от того, применяется ли она непреднамеренно или преднамеренно, иногда называется «р-хакингом».[16][17]

Оценка верности альтернативных гипотез

А нормальный квантильный график для смоделированного набора тестовых статистик, которые стандартизированы для Z-баллы при нулевой гипотезе. Отклонение верхнего хвоста распределения от ожидаемого тренда по диагонали происходит из-за наличия значительно более крупных значений тестовой статистики, чем можно было бы ожидать, если бы все нулевые гипотезы были верны. Красная точка соответствует четвертой по величине наблюдаемой статистике теста, которая составляет 3,13, по сравнению с ожидаемым значением 2,06. Синяя точка соответствует пятой наименьшей тестовой статистике, которая составляет -1,75 по сравнению с ожидаемым значением -1,96. График предполагает, что маловероятно, что все нулевые гипотезы верны, и что большинство или все случаи истинной альтернативной гипотезы являются результатом отклонений в положительном направлении.

Основной вопрос, который возникает в начале анализа большого набора результатов тестирования, заключается в том, есть ли доказательства того, что какая-либо из альтернативных гипотез верна. Один простой мета-тест, который можно применить, когда предполагается, что тесты независимы друг от друга, - это использовать распределение Пуассона в качестве модели количества значимых результатов на заданном уровне α, которые могут быть получены, когда все нулевые гипотезы верны.[нужна цитата ] Если наблюдаемое количество положительных результатов значительно больше, чем следовало ожидать, это говорит о том, что среди значимых результатов, вероятно, будут некоторые истинные положительные результаты. Например, если выполнено 1000 независимых тестов, каждое на уровне α = 0,05, мы ожидаем, что 0,05 × 1000 = 50 значимых тестов будут выполнены, когда все нулевые гипотезы верны. На основании распределения Пуассона со средним значением 50 вероятность наблюдения более 61 значимого критерия составляет менее 0,05, поэтому, если наблюдается более 61 значимого результата, весьма вероятно, что некоторые из них соответствуют ситуациям, в которых выполняется альтернативная гипотеза. Недостатком этого подхода является то, что он переоценивает доказательства того, что некоторые из альтернативных гипотез верны, когда статистика тестов положительно коррелированы, что часто встречается на практике.[нужна цитата ]. С другой стороны, подход остается в силе даже при наличии корреляции между статистикой теста, пока можно показать, что распределение Пуассона дает хорошее приближение для количества значимых результатов. Этот сценарий возникает, например, при извлечении значительных частых наборов элементов из наборов транзакционных данных. Более того, тщательный двухэтапный анализ может ограничить FDR на заранее заданном уровне.[18]

Еще один распространенный подход, который можно использовать в ситуациях, когда статистика тестов может быть стандартизирован до Z-баллы сделать нормальный квантильный график тестовой статистики. Если наблюдаемые квантили заметно больше рассредоточенный чем нормальные квантили, это говорит о том, что некоторые из значимых результатов могут быть действительно положительными.[нужна цитата ]

Смотрите также

Ключевые идеи
Общие методы альфа-корректировки для множественных сравнений
Связанные понятия

Рекомендации

  1. ^ Миллер, Р. (1981). Одновременный статистический вывод 2-е изд.. Springer Verlag Нью-Йорк. ISBN  978-0-387-90548-8.
  2. ^ Бенджамини, Ю. (2010). «Одновременный и выборочный вывод: текущие успехи и будущие проблемы». Биометрический журнал. 52 (6): 708–721. Дои:10.1002 / bimj.200900299. PMID  21154895.
  3. ^ [1]
  4. ^ Катнер, Майкл; Нахтсхайм, Кристофер; Нетер, Джон; Ли, Уильям (2005). Прикладные линейные статистические модели. стр.744 –745.
  5. ^ Георгиев, Георгий (22.08.2017). «Многовариантное тестирование - лучшие практики и инструменты для тестов MVT (A / B / n)». Блог веб-аналитики, статистики и интернет-маркетинга на основе данных | Analytics-Toolkit.com. Получено 2020-02-13.
  6. ^ Aickin, M; Генслер, Х (май 1996 г.). «Корректировка для множественного тестирования при сообщении результатов исследования: методы Бонферрони и Холма». Am J Public Health. 86 (5): 726–728. Дои:10.2105 / ajph.86.5.726. ЧВК  1380484. PMID  8629727.
  7. ^ Байер, Адриан Э .; Селяк, Урош (2020). «Эффект поиска в другом месте с объединенной байесовской и частотной точки зрения». Журнал космологии и физики астрономических частиц. 2020 (10): 009–009. arXiv:2007.13821. Дои:10.1088/1475-7516/2020/10/009.
  8. ^ Logan, B.R .; Роу, Д. Б. (2004). «Оценка пороговых методов в анализе фМРТ». NeuroImage. 22 (1): 95–108. CiteSeerX  10.1.1.10.421. Дои:10.1016 / j.neuroimage.2003.12.047. PMID  15110000.
  9. ^ Logan, B.R .; Гелязкова, М.П .; Роу, Д. Б. (2008). «Оценка методов пространственной пороговой обработки в анализе фМРТ». Картирование человеческого мозга. 29 (12): 1379–1389. Дои:10.1002 / hbm.20471. PMID  18064589.
  10. ^ Цюй, Хуэй-Ци; Тьен, Мэтью; Полихронак, Константин (01.10.2010). «Статистическая значимость в исследованиях генетических ассоциаций». Клиническая и следственная медицина. 33 (5): E266 – E270. ISSN  0147-958X. ЧВК  3270946. PMID  20926032.
  11. ^ Ротман, Кеннет Дж. (1990). «Для множественных сравнений корректировок не требуется». Эпидемиология. 1 (1): 43–46. Дои:10.1097/00001648-199001000-00010. JSTOR  20065622. PMID  2081237.
  12. ^ Бенджамини, Йоав; Хохберг, Йосеф (1995). «Контроль ложного обнаружения: практичный и эффективный подход к множественному тестированию». Журнал Королевского статистического общества, серия B. 57 (1): 125–133. JSTOR  2346101.
  13. ^ Стори, JD; Тибширани, Роберт (2003). «Статистическая значимость для полногеномных исследований». PNAS. 100 (16): 9440–9445. Bibcode:2003ПНАС..100.9440С. Дои:10.1073 / пнас.1530509100. JSTOR  3144228. ЧВК  170937. PMID  12883005.
  14. ^ Эфрон, Брэдли; Тибширани, Роберт; Стори, Джон Д .; Тушер, Вирджиния (2001). «Эмпирический байесовский анализ эксперимента с микрочипами». Журнал Американской статистической ассоциации. 96 (456): 1151–1160. Дои:10.1198/016214501753382129. JSTOR  3085878.
  15. ^ Благородный, Уильям С. (2009-12-01). «Как работает коррекция множественного тестирования?». Природа Биотехнологии. 27 (12): 1135–1137. Дои:10.1038 / nbt1209-1135. ISSN  1087-0156. ЧВК  2907892. PMID  20010596.
  16. ^ Янг, С.С., Карр, А. (2011). «Деминг, данные и наблюдательные исследования» (PDF). Значимость. 8 (3): 116–120. Дои:10.1111 / j.1740-9713.2011.00506.x.CS1 maint: несколько имен: список авторов (связь)
  17. ^ Смит, Г. Д., Шах, Э. (2002). «Извлечение данных, предвзятость или смешение». BMJ. 325 (7378): 1437–1438. Дои:10.1136 / bmj.325.7378.1437. ЧВК  1124898. PMID  12493654.CS1 maint: несколько имен: список авторов (связь)
  18. ^ Кирш, А; Митценмахер, М; Pietracaprina, A; Пуччи, G; Упфаль, Э; Вандин, Ф (июнь 2012 г.). «Эффективный строгий подход для определения статистически значимых часто встречающихся наборов элементов». Журнал ACM. 59 (3): 12:1–12:22. arXiv:1002.1104. Дои:10.1145/2220357.2220359.

дальнейшее чтение

  • Ф. Бец, Т. Хотхорн, П. Вестфол (2010), Множественные сравнения с использованием R, CRC Press
  • С. Дудуа и М. Дж. ван дер Лаан (2008), Множественные процедуры тестирования в применении к геномике, Springer
  • Фаркомени, А. (2008). «Обзор современной проверки множественных гипотез, с особым вниманием к количеству ложных открытий». Статистические методы в медицинских исследованиях. 17: 347–388. Дои:10.1177/0962280206079046.
  • Phipson, B .; Смит, Г. К. (2010). «P-значения перестановок никогда не должны быть нулевыми: вычисление точных P-значений при случайном построении перестановок». Статистические приложения в генетике и молекулярной биологии. Дои:10.2202/1544-6155.1585.
  • П. Х. Вестфолл и С. С. Янг (1993), Множественное тестирование на основе повторной выборки: примеры и методы корректировки p-значения, Wiley
  • П. Вестфолл, Р. Тобиас, Р. Вольфингер (2011) Множественные сравнения и множественное тестирование с использованием SAS, 2-е изд., Институт САС
  • Галерея примеров неправдоподобных корреляций, полученных с помощью драгирования данных