Смещение выборки - Sampling bias - Wikipedia

В статистика, систематическая ошибка выборки это предвзятость в котором образец собирается таким образом, что некоторые члены предполагаемого численность населения иметь более низкий или более высокий вероятность выборки чем другие. Это приводит к предвзятая выборка, неслучайная выборка[1] популяции (или нечеловеческих факторов), в которой не все люди или экземпляры были отобраны с одинаковой вероятностью.[2] Если это не учитывать, результаты могут быть ошибочно отнесены к изучаемому явлению, а не к методу исследования. отбор проб.

Медицинские источники иногда называют систематическую ошибку выборки предвзятость установления.[3][4] Предвзятость установления имеет в основном то же определение:[5][6] но все же иногда классифицируется как отдельный вид систематической ошибки.[5]

Отличие от систематической ошибки отбора

Систематическая ошибка выборки обычно классифицируется как подтип критерий отбора,[7] иногда специально называемый смещение выборки,[8][9][10] но некоторые относят это к отдельному виду предвзятости.[11]Различие, хотя и не общепринятое, смещения выборки состоит в том, что оно подрывает внешняя валидность теста (возможность обобщения его результатов на всю популяцию), а критерий отбора в основном адреса внутренняя валидность на предмет различий или сходств, обнаруженных в данном образце. В этом смысле ошибки, возникающие в процессе сбора выборки или когорты, вызывают смещение выборки, тогда как ошибки в любом последующем процессе вызывают смещение выборки.

Однако систематическая ошибка выборки и систематическая ошибка выборки часто используются как синонимы.[12]

Типы

  • Выбор из конкретная реальная площадь. Например, опрос старшеклассников для измерения употребления незаконных наркотиков подростками будет предвзятым, поскольку он не включает учащихся, обучающихся на дому, или бросивших школу. Выборка также является смещенной, если одни члены недопредставлены или перепредставлены по сравнению с другими в генеральной совокупности. Например, интервью «с улицы», в ходе которого отбираются люди, проходящие мимо определенного места, будет иметь слишком большое количество здоровых людей, которые с большей вероятностью будут находиться вне дома, чем люди с хроническими заболеваниями. Это может быть крайней формой смещенной выборки, потому что некоторые члены совокупности полностью исключены из выборки (то есть у них есть нулевая вероятность быть выбранными).
  • Самостоятельный выбор предвзятость (см. также Ошибка отсутствия ответа ), что возможно в тех случаях, когда изучаемая группа людей имеет какую-либо форму контроля над тем, участвовать ли в ней (как действующие стандарты этика исследований между людьми требуется для многих форм обучения в реальном времени и некоторых продольных форм обучения). Решение участников об участии может быть коррелировано с характеристиками, которые влияют на исследование, что делает участников нерепрезентативной выборкой. Например, люди, у которых есть твердое мнение или существенные знания, могут с большей готовностью тратить время на ответы на вопросы опроса, чем те, у кого их нет. Другой пример онлайн-опросы и опросы по телефону, которые являются предвзятыми выборками, поскольку респонденты выбираются самостоятельно. Те люди, которые имеют высокую мотивацию к ответу, обычно люди, которые придерживаются твердого мнения, перепредставлены, а люди, которые безразличны или апатичны, с меньшей вероятностью ответят. Это часто приводит к поляризации ответов, когда крайним точкам зрения придается непропорциональный вес в резюме. В результате такие опросы считаются ненаучными.
  • Предварительная проверка участников исследования, или Реклама для волонтеров в определенных группах. Например, исследование с целью «доказать», что курение не влияет на физическую форму, может набираться в местном фитнес-центре, но рекламироваться для курильщиков во время продвинутых занятий аэробикой и для некурящих во время сеансов похудания.
  • Исключение систематическая ошибка возникает в результате исключения определенных групп из выборки, например исключение субъектов, у которых недавно мигрировал в исследуемую область (это может произойти, когда новоприбывшие отсутствуют в регистре, используемом для идентификации исходного населения). Исключение субъектов, которые покидают изучаемую зону во время последующего наблюдения, скорее эквивалентно выбыванию или отсутствию ответа, критерий отбора в том, что это скорее влияет на внутреннюю валидность исследования.
  • Предвзятость здорового пользователя, когда изучаемая популяция, вероятно, более здорова, чем население в целом. Например, человек со слабым здоровьем вряд ли будет работать физическим мастером.
  • Заблуждение Берксона, когда исследуемая популяция выбрана из больницы и поэтому менее здорова, чем население в целом. Это может привести к ложной отрицательной корреляции между заболеваниями: больной без диабета более вероятно иметь другое заболевание, такое как холецистит, так как у них должна была быть причина попасть в больницу.
  • Превышение, соответствие для очевидного смущающий это на самом деле результат воздействия[требуется разъяснение ]. Контрольная группа становится более похожей на пациенты в отношении воздействия, чем на население в целом.
  • Предубеждение в отношении выживаемости, в котором выбираются только «уцелевшие» предметы, игнорируя выпавшие из поля зрения. Например, при использовании данных о текущих компаниях в качестве индикатора делового климата или экономики игнорируются предприятия, которые потерпели неудачу и больше не существуют.
  • Предвзятость Мальмквиста, эффект в наблюдательной астрономии, который приводит к предпочтительному обнаружению действительно ярких объектов.

Выборка на основе симптомов

Изучение медицинских условий начинается с анекдотических отчетов. По своему характеру такие отчеты включают только те, которые направлены для диагностики и лечения. Ребенку, который не может учиться в школе, чаще ставят диагноз: дислексия чем ребенок, который борется, но проходит. Ребенок, обследованный на одно состояние, с большей вероятностью будет проверен и диагностирован с другими состояниями, коморбидность статистика. Поскольку определенные диагнозы становятся связаны с проблемами поведения или Интеллектуальная недееспособность родители пытаются предотвратить стигматизацию своих детей с помощью этих диагнозов, что вносит дополнительную предвзятость. Исследования, тщательно отобранные из целых популяций, показывают, что многие состояния встречаются гораздо чаще и обычно намного мягче, чем считалось ранее.

Обрезать выборку в племенных исследованиях

Простой пример родословной смещения выборки

Генетики ограничены в способах получения данных о человеческих популяциях. В качестве примера рассмотрим человеческую характеристику. Мы заинтересованы в том, чтобы определить, наследуется ли характеристика как простой менделевский черта. Следуя законам Менделирующее наследование, если родители в семье не имеют характеристики, но несут ее аллель, они являются носителями (например, невыразительный гетерозигота ). В этом случае у каждого из детей будет 25% шанс показать характеристику. Проблема возникает из-за того, что мы не можем сказать, в каких семьях есть оба родителя в качестве носителей (гетерозиготные), если в них нет ребенка, который проявляет эту характеристику. Описание следует из учебника Саттона.[13]

На рисунке показаны родословные всех возможных семей с двумя детьми, когда родители являются носителями (Аа).

  • Неусеченный выбор. В идеальном мире мы должны быть в состоянии обнаружить все такие семьи с геном, включая тех, которые являются просто носителями. В этой ситуации анализ был бы свободен от предвзятости установления, а родословные были бы в рамках «неуклонного отбора». На практике большинство исследований выявляют и включают семьи в исследование на основании того, что они имели затронутых лиц.
  • Обрезать выделение. Когда страдает отдельные лица имеют равные шансы быть включенными в исследование, это называется усеченным отбором, означающим непреднамеренное исключение (усечение) семей, которые являются носителями гена. Поскольку отбор осуществляется на индивидуальном уровне, семьи с двумя или более затронутыми детьми будут иметь более высокую вероятность включения в исследование.
  • Полный выбор усечения это частный случай, когда каждый семья с больным ребенком имеет равные шансы быть отобранным для исследования.

Вероятность каждой из выбранных семей представлена ​​на рисунке, а также дана частота выборки затронутых детей. В этом простом случае исследователь будет искать частоту47 или58 для характеристики, в зависимости от используемого типа усечения.

Эффект пещерного человека

Пример смещения отбора называется «эффектом пещерного человека». Большая часть нашего понимания доисторический народов происходит из пещер, таких как наскальные рисунки сделано почти 40 000 лет назад. Если бы существовали современные картины на деревьях, шкурах животных или склонах холмов, их бы давно смыло. Точно так же свидетельства костров, кучи, места захоронения и т.д., скорее всего, останутся нетронутыми до современной эпохи в пещерах. Доисторические люди ассоциируются с пещерами, потому что там до сих пор существуют данные, не обязательно потому, что большинство из них прожили в пещерах большую часть своей жизни.[14]

Проблемы из-за смещения выборки

Смещение выборки проблематично, потому что возможно, что статистика вычисление выборки систематически ошибочно. Систематическая ошибка выборки может привести к систематической переоценке или недооценке соответствующих параметр в населении. Систематическая ошибка выборки возникает на практике, поскольку практически невозможно гарантировать абсолютную случайность выборки. Если степень искажения невелика, то выборку можно рассматривать как разумное приближение к случайной выборке. Кроме того, если выборка не отличается заметно по измеряемой величине, то смещенная выборка все же может быть разумной оценкой.

Слово предвзятость имеет сильный негативный оттенок. Действительно, предубеждения иногда возникают из-за преднамеренного намерения ввести в заблуждение или других научное мошенничество. В статистическом использовании систематическая ошибка представляет собой просто математическое свойство, независимо от того, является ли оно преднамеренным или бессознательным, или вызвано несовершенством инструментов, используемых для наблюдения. Хотя некоторые люди могут намеренно использовать предвзятую выборку для получения вводящих в заблуждение результатов, чаще предвзятая выборка является просто отражением трудности получения действительно репрезентативной выборки или незнания предвзятости в их процессе измерения или анализа. Примером того, как может существовать игнорирование предвзятости, является широко распространенное использование соотношения (также известного как «коэффициент»). сложить изменение ) как мера различия в биологии. Поскольку легче достичь большого отношения с двумя маленькими числами с заданной разницей и относительно труднее достичь большого отношения с двумя большими числами с большей разницей, при сравнении относительно больших числовых измерений могут быть упущены большие существенные различия. Некоторые называют это «предвзятостью демаркации», потому что использование соотношения (деления) вместо разницы (вычитания) переводит результаты анализа из науки в псевдонауку (см. Проблема демаркации ).

В некоторых выборках используется предвзятый статистический план, который, тем не менее, позволяет оценивать параметры. Соединенные штаты. Национальный центр статистики здравоохранения например, преднамеренное превышение выборки среди меньшинств во многих своих общенациональных обследованиях, чтобы получить достаточную точность для оценок внутри этих групп.[15] Эти обследования требуют использования весов выборки (см. Ниже) для получения правильных оценок по всем этническим группам. При соблюдении определенных условий (главным образом, при правильном вычислении и использовании весов) эти выборки позволяют точно оценить параметры совокупности.

Исторические примеры

Пример необъективной выборки: по состоянию на июнь 2008 г. 55% веб-браузеров (Internet Explorer ) в использовании не прошел Кислота2 тест. Из-за характера теста выборка состояла в основном из веб-разработчиков.[16]

Классический пример предвзятости выборки и вводящих в заблуждение результатов произошел в 1936 году. На заре опросов общественного мнения американцы Литературный дайджест журнал собрал более двух миллионов почтовых опросов и предсказал, что республиканский кандидат в Президентские выборы в США, Альф Лэндон, победил бы действующего президента, Франклин Рузвельт, с большим отрывом. Результат был прямо противоположным. Обзор «Литературный дайджест» представляет собой выборку, собранную среди читателей журнала, дополненную записями зарегистрированных владельцев автомобилей и пользователей телефонов. Эта выборка включала чрезмерное представительство людей, которые были богатыми, которые как группа с большей вероятностью проголосовали бы за кандидата от республиканцев. Напротив, опрос только 50 тысяч граждан, выбранных Джордж Гэллап организация успешно предсказала результат, что привело к популярности Gallup опрос.

Другой классический пример произошел в 1948 президентские выборы. В ночь выборов Чикаго Трибьюн напечатал заголовок ДЬЮИ ПОБЕЖДАЕТ ТРУМЭНА, что оказалось ошибкой. Утром ухмылка избранный президент, Гарри С. Трумэн, был сфотографирован с газетой с таким заголовком. Причина, по которой Tribune ошиблась, заключается в том, что их редактор доверял результатам телефонный опрос. Опросные исследования были тогда в зачаточном состоянии, и лишь немногие ученые осознавали, что выборка пользователей телефонов не является репрезентативной для населения в целом. Телефоны еще не получили широкого распространения, а те, у кого они были, обычно были зажиточными и имели стабильные адреса. (Во многих городах Bell System телефонный справочник содержит те же имена, что и Социальный регистр ). Кроме того, опросу Gallup, на котором основывалась заголовок Tribune, было более двух недель на момент публикации.[17]

Более свежий пример - COVID-19 пандемия, где вариации смещения выборки в COVID-19 тестирование было показано, что они объясняют широкие различия в обоих показатели летальности и возрастное распределение случаев в разных странах.[18][19]

Статистические поправки для смещенной выборки

Если из выборки исключаются целые сегменты населения, то корректировки, которые могут дать оценки, репрезентативные для всего населения, отсутствуют. Но если некоторые группы недопредставлены и степень недопредставленности может быть определена количественно, то веса выборки могут исправить смещение. Однако успех исправления ограничен выбранной моделью выбора. Если некоторые переменные отсутствуют, методы, используемые для исправления смещения, могут быть неточными.[20]

Например, гипотетическая популяция может включать 10 миллионов мужчин и 10 миллионов женщин. Предположим, что необъективная выборка из 100 пациентов включала 20 мужчин и 80 женщин. Исследователь может исправить этот дисбаланс, добавив гирю 2,5 для каждого мужчины и 0,625 для каждой женщины. Это приведет к корректировке любых оценок для достижения того же ожидаемого значения, что и для выборки, в которую входят ровно 50 мужчин и 50 женщин, если только мужчины и женщины не различаются по вероятности участия в опросе.

Смотрите также

Рекомендации

  1. ^ Медицинский словарь - «Смещение выборки» Проверено 23 сентября, 2009 г. В архиве 10 марта 2016 г. Wayback Machine
  2. ^ TheFreeDictionary - предвзятый образец Проверено 23 сентября 2009. Сайт в свою очередь цитирует: Медицинский словарь Мосби, 8-е издание.
  3. ^ Вайзинг, Курт (2005). ДНК-фингерпринтинг растений: принципы, методы и применение. Лондон: Taylor & Francis Group. п.180. ISBN  978-0-8493-1488-9.
  4. ^ Страница 34 в: Отбор и тесты на нарушение равновесия при сложных демографических данных и предвзятости установления Франческ Калафель и Майо, Анна Рамирес и Сориано. Июль 2008 г.
  5. ^ а б Паначек: Ошибка в исследовании В архиве 2016-08-17 в Wayback Machine Общество академической неотложной медицины. Проверено 14 ноября, 2009 г.
  6. ^ Медицинский словарь medilexicon - «Установление предвзятости» В архиве 2016-08-06 в Wayback Machine Проверено 14 ноября, 2009 г.
  7. ^ Словарь терминов по раку - предвзятость при выборе В архиве 2009-06-09 на Wayback Machine Проверено 23 сентября, 2009 г.
  8. ^ Ардс, Шейла; Чанг, Чанджин; Майерс, Сэмюэл Л. (1998). «Влияние смещения выборки на расовые различия в сообщениях о жестоком обращении с детьми». Жестокое обращение с детьми и пренебрежение. 22 (2): 103–115. Дои:10.1016 / S0145-2134 (97) 00131-2. PMID  9504213.
  9. ^ Кортес, Коринна; Мохри, Мехриар; Райли, Майкл; Ростамизаде, Афшин (2008). Теория коррекции смещения выборки (PDF). Теория алгоритмического обучения. Конспект лекций по информатике. 5254. С. 38–53. arXiv:0805.2775. CiteSeerX  10.1.1.144.4478. Дои:10.1007/978-3-540-87987-9_8. ISBN  978-3-540-87986-2.
  10. ^ Кортес, Коринна; Мохри, Мехриар (2014). «Теория адаптации предметной области и коррекции смещения выборки и алгоритм регрессии» (PDF). Теоретическая информатика. 519: 103–126. CiteSeerX  10.1.1.367.6899. Дои:10.1016 / j.tcs.2013.09.027.
  11. ^ Фадем, Барбара (2009). Поведенческая наука. Липпинкотт Уильямс и Уилкинс. п. 262. ISBN  978-0-7817-8257-9.
  12. ^ Уоллес, Роберт (2007). Максси-Розенау-Ласт Общественное здравоохранение и профилактическая медицина (15-е изд.). McGraw Hill Professional. п. 21. ISBN  978-0-07-159318-2.
  13. ^ Саттон, Гарри Элдон (1988). Введение в генетику человека (4-е изд.). Харкорт Брейс Йованович. ISBN  978-0-15-540099-3.
  14. ^ Берк, Ричард А. (июнь 1983 г.). "Введение в предвзятость выборки в социологических данных". Американский социологический обзор. 48 (3): 386–398. Дои:10.2307/2095230. JSTOR  2095230.
  15. ^ Национальный центр статистики здравоохранения (2007 г.). Здоровье меньшинств.
  16. ^ «Статистика браузера». Refsnes Data. Июнь 2008 г.. Получено 2008-07-05.
  17. ^ На основе http://www.uh.edu/engines/epi1199.htm получено 29 сентября 2007 г.
  18. ^ Уорд, Д. (апрель 2020 г.) "Ошибка выборки: объяснение широких различий в показателях летальности от COVID-19". Технический отчет. WardEnvironment. https://doi.org/10.13140/RG.2.2.24953.62564/1
  19. ^ Уорд, Дэн. (Май 2020 г.). «Ошибка выборки: объяснение различий в возрастном распределении случаев COVID-19». https://doi.org/10.13140/RG.2.2.27321.19047/2. Технический отчет. WardEnvironment.
  20. ^ Cuddeback, Гэри; Уилсон, Орм, Комбс-Орм (2004). «Обнаружение и статистическое исправление систематической ошибки при выборе образца» (PDF). Журнал исследований социальных служб. 30 (3): 19–33. Дои:10.1300 / J079v30n03_02. Получено 2016-09-20.CS1 maint: несколько имен: список авторов (связь)