Парадокс Берксона - Berksons paradox - Wikipedia

Пример парадокса Берксона:
На рисунке 1 предположим, что талант и привлекательность в популяции не коррелируют.
На рисунке 2 кто-то, отобравший население с использованием знаменитостей, может ошибочно сделать вывод о том, что талант отрицательно коррелирует с привлекательностью, поскольку люди, которые не являются ни талантливыми, ни привлекательными, обычно не становятся знаменитостями.

Парадокс Берксона, также известный как Предвзятость Берксона, коллайдер предвзятость или Заблуждение Берксона, является результатом условная возможность и статистика что часто оказывается нелогичный, а значит правдоподобный парадокс. Это усложняющий фактор, возникающий при статистических проверках пропорций. В частности, он возникает, когда есть предвзятость установления присущие дизайну исследования. Эффект связан с объясняя явление в Байесовские сети, и кондиционирование на коллайдере в графические модели.

Часто описывается в полях медицинская статистика или же биостатистика, как в оригинальном описании проблемы Джозеф Берксон.

Примеры

Обзор

Иллюстрация парадокса Берксона. Верхний график представляет фактическое распределение, в котором наблюдается положительная корреляция между качеством гамбургеров и картофеля фри. Однако человек, который не ест в любом месте, где оба являются плохими, наблюдает только распределение на нижнем графике, которое, по-видимому, показывает отрицательную корреляцию.

Самый распространенный пример парадокса Берксона - это ложное наблюдение отрицательный корреляция между двумя положительными чертами, т.е. между членами популяции, у которых есть какая-то положительная черта, обычно не хватает второй. Парадокс Берксона возникает, когда это наблюдение кажется верным, когда на самом деле два свойства не связаны - или даже положительно коррелированные - потому что члены популяции, где оба отсутствуют, не наблюдаются одинаково. Например, человек может на собственном опыте заметить, что рестораны быстрого питания в их районе, где подают хорошие гамбургеры, как правило, подают плохой картофель фри и наоборот; но потому что они, вероятно, не будут есть где-нибудь обе были плохими, они не учитывают большое количество ресторанов в этой категории, что ослабит или даже изменит корреляцию.

Оригинальная иллюстрация

Оригинальная иллюстрация Берксона включает ретроспективное исследование, посвященное изучению фактор риска для болезни в статистическая выборка из больница стационарное население. Поскольку образцы берутся у пациентов стационара, а не у населения, это может привести к ложной отрицательной связи между заболеванием и фактором риска. Например, если фактором риска является диабет и заболевание холецистит, больничный пациент без диабет более с большей вероятностью болеет холециститом, чем представитель населения в целом, так как у пациента должна быть какая-то причина, не связанная с диабетом (возможно, вызывающая холецистит), чтобы попасть в больницу. Этот результат будет получен независимо от того, существует ли какая-либо связь между диабетом и холециститом в общей популяции.

Пример Элленберга

Пример представлен Джордан Элленберг: Предположим, Алекс будет встречаться с мужчиной только в том случае, если его вежливость плюс его красота превышает некоторый порог. Тогда более приятным мужчинам не обязательно быть такими красивыми, чтобы попасть в пул знакомств Алекса. Так, среди мужчин, с которыми встречается Алекс, Алекс может заметить, что более хорошие в среднем менее красивы (и наоборот), даже если эти черты не коррелируют в общей популяции. Обратите внимание, что это не означает, что мужчины в пуле знакомств проигрывают мужчинам в популяции. Напротив, критерий отбора Алекса означает, что у Алекса высокие стандарты. Средний симпатичный мужчина, с которым встречается Алекс, на самом деле более красив, чем средний мужчина в популяции (поскольку даже среди хороших мужчин самая уродливая часть населения пропускается). Отрицательная корреляция Берксона - это эффект, который возникает в пул свиданий: грубые мужчины, с которыми встречается Алекс, должно быть, были даже больше красивый, чтобы квалифицироваться.

Количественный пример

В качестве количественного примера предположим, что у коллекционера 1000 почтовые марки, из которых 300 - красивые, 100 - редкие, 30 - красивые и редкие. 10% всех его марок - редкие, и 10% его красивых марок - редкие, поэтому красота ничего не говорит о редкости. Он выставляет на обозрение 370 красивых или редких марок. Чуть более 27% выставленных марок являются редкими (100/370), но все же только 10% красивых марок являются редкими (и 100% из 70 выставленных некрасивых марок редки). Если наблюдатель рассматривает только выставленные марки, он увидит ложную отрицательную связь между красивостью и редкостью в результате критерий отбора (то есть непривлекательность явно указывает на редкость на дисплее, но не в общей коллекции).

Заявление

Два независимый события становятся условно зависимый (отрицательно зависимый) при условии, что хотя бы одно из них происходит. Символически:

Если

{ Displaystyle 0

,

{ Displaystyle 0

, и

{ Displaystyle P (A | B) = P (A)}

, тогда

{ Displaystyle P (A | B, A чашка B)

.

Мероприятие ${ displaystyle A}$ и событие ${ displaystyle B}$ может или не может произойти

${ Displaystyle P (A | B)}$ , а условная возможность, - вероятность наблюдения события ${ displaystyle A}$ при условии ${ displaystyle B}$ правда.
Пояснение: Событие ${ displaystyle A}$ и ${ displaystyle B}$ независимы друг от друга

${ Displaystyle P (A | B, A чашка B)}$ вероятность наблюдения события ${ displaystyle A}$ при условии ${ displaystyle B}$ и ( ${ displaystyle A}$ или же ${ displaystyle B}$ ) происходит. Это также можно записать как ${ Displaystyle P (A | B cap (A чашка B))}$

Пояснение: Вероятность ${ displaystyle A}$ учитывая оба ${ displaystyle B}$ и ( ${ displaystyle A}$ или же ${ displaystyle B}$ ) меньше вероятности ${ displaystyle A}$ данный ( ${ displaystyle A}$ или же ${ displaystyle B}$ )

Другими словами, при наличии двух независимых событий, если вы рассматриваете только результаты, в которых происходит хотя бы одно, то они становятся отрицательно зависимыми, как показано выше.

Объяснение

Причина в том, что условный вероятность события ${ displaystyle A}$ происходящее, данный что это или ${ displaystyle B}$ возникает, накачивается: выше, чем безусловный вероятность, потому что у нас есть не входит случаи, когда ни один происходить.

{ Displaystyle P (A | A чашка B)> P (A)}

условная вероятность завышена относительно безусловной

В табличной форме это можно увидеть следующим образом: желтые области - это результаты, в которых происходит хотя бы одно событие (и ~ А означает "не А").

	А	~ А
B	А и Б	~ А и Б
~ B	A и ~ B	~ A и ~ B

Например, если у вас есть образец ${ displaystyle 100}$ , и оба ${ displaystyle A}$ и ${ displaystyle B}$ происходят независимо половину времени ( ${ Displaystyle P (A) = P (B) = 1/2}$ ), получаем:

	А	~ А
B	25	25
~ B	25	25

Так что в ${ displaystyle 75}$ результаты, либо ${ displaystyle A}$ или же ${ displaystyle B}$ происходит, из которых ${ displaystyle 50}$ имеют ${ displaystyle A}$ происходящее. Сравнивая условную вероятность ${ displaystyle A}$ к безусловной вероятности ${ displaystyle A}$ :

{ Displaystyle P (A | A чашка B) = 50/75 = 2/3> P (A) = 50/100 = 1/2}

Мы видим, что вероятность ${ displaystyle A}$ выше ( ${ displaystyle 2/3}$ ) в подмножестве результатов, где ( ${ displaystyle A}$ или же ${ displaystyle B}$ ) встречается, чем в общей популяции ( ${ displaystyle 1/2}$ ). С другой стороны, вероятность ${ displaystyle A}$ учитывая оба ${ displaystyle B}$ и ( ${ displaystyle A}$ или же ${ displaystyle B}$ ) - это просто безусловная вероятность ${ displaystyle A}$ , ${ Displaystyle P (A)}$ , поскольку ${ displaystyle A}$ не зависит от ${ displaystyle B}$ . В числовом примере мы условились находимся в верхнем ряду:

	А	~ А
B	25	25
~ B	25	25

Здесь вероятность ${ displaystyle A}$ является ${ displaystyle 25/50 = 1/2}$ .

Парадокс Берксона возникает потому, что условная вероятность ${ displaystyle A}$ данный ${ displaystyle B}$ внутри подмножества из трех ячеек равна условной вероятности в генеральной совокупности, но безусловная вероятность в пределах подмножества завышена по сравнению с безусловной вероятностью в генеральной совокупности, следовательно, внутри подмножества наличие ${ displaystyle B}$ уменьшает условную вероятность ${ displaystyle A}$ (вернемся к его общей безусловной вероятности):

{ Displaystyle P (A | B, A чашка B) = P (A | B) = P (A)}

{ Displaystyle P (A | A чашка B)> P (A)}

Смотрите также

Парадокс Симпсона

внешняя ссылка

Numberphile: Разве Голливуд портит книги? - Образовательное видео о парадоксе Берксона в массовой культуре.