Ложные отношения - Spurious relationship
В статистика, а ложные отношения или ложная корреляция[1][2] это математическая связь в котором два или более события или переменных связанный но нет причинно связанный из-за совпадения или присутствия определенного третьего, невидимого фактора (называемого «общей реакционной переменной», «смешивающим фактором» или «скрытая переменная ").
Примеры
Хорошо известный случай ложных отношений можно найти в Временные ряды литература, где ложная регрессия является регрессией, которая предоставляет вводящие в заблуждение статистические доказательства линейная связь между независимыми нестационарный переменные. На самом деле нестационарность может быть связана с наличием единичный корень в обеих переменных.[3][4] В частности, любые два номинальные экономические переменные вероятно, будут коррелированы друг с другом, даже если ни один из них не оказывает причинно-следственного воздействия на другого, потому что каждый равен реальная переменная раз уровень цены, и общее присутствие уровня цен в двух рядах данных придает им корреляцию. (Смотрите также Ложная корреляция соотношений.)
Пример ложных отношений можно увидеть, исследуя городские мороженое продажи. Эти продажи являются самыми высокими, когда процент утопающих в городе бассейны самый высокий. Утверждать, что продажа мороженого вызывает утопление, или наоборот, значило бы предполагать ложные отношения между ними. На самом деле жара может быть причиной обоих. Волна тепла - это пример скрытой или невидимой переменной, также известной как смешивающая переменная.
Другой часто упоминаемый пример - серия голландских статистических данных, показывающих положительную корреляцию между количеством аистов, гнездящихся в серии родников, и количеством человеческих младенцев, родившихся в то время. Конечно, причинной связи не было; они были коррелированы друг с другом только потому, что были коррелированы с погодой за девять месяцев до наблюдений.[5] Однако Höfer et al. (2004) показали, что корреляция сильнее, чем просто погодные колебания, поскольку он мог показать в Германии после воссоединения, что, хотя количество клинических родов не было связано с ростом популяции аистов, роды вне больниц коррелировали с популяцией аистов.[6]
В редких случаях между двумя совершенно несвязанными переменными может возникнуть ложная связь без какой-либо смешивающей переменной, как это было в случае успеха Вашингтон Редскинз профессиональная футбольная команда в конкретной игре перед каждым выборы президента и успех политической партии действующего президента на указанных выборах. За 16 выборов подряд с 1940 по 2000 гг. Правило Краснокожих правильно соответствовало, сохранит ли политическая партия действующего президента президентский пост или потеряет его. Вскоре после этого правило перестало действовать. Спортивное бюро Элиаса обнаружил корреляцию в 2000 году; в 2004, 2012 и 2016 годах результаты игры Redskins и выборов не совпадали.[7][8][9]
Проверка гипотезы
Часто проверяют нулевую гипотезу об отсутствии корреляции между двумя переменными и заранее решают отклонить гипотезу, если бы корреляция, вычисленная на основе выборки данных, имела бы место менее чем (скажем) в 5% выборок данных, если бы нулевая гипотеза была верной. В то время как истинная нулевая гипотеза будет принята в 95% случаев, в остальных 5% случаев, когда истинный нуль или корреляция отсутствует, нулевая корреляция будет ошибочно отклонена, что приведет к принятию ложной корреляции (событие, известное как Ошибка типа I ). Здесь ложная корреляция в выборке возникла в результате случайного выбора выборки, которая не отражала истинные свойства основной совокупности.
Обнаружение ложных отношений
Термин «ложные отношения» обычно используется в статистика и в частности в экспериментальное исследование методы, оба из которых пытаются понять и предсказать прямые причинно-следственные связи (X → Y). Не причинная корреляция может быть ложно создана антецедентом, который вызывает оба (W → X и W → Y). Переменные-посредники, (X → W → Y), если не обнаружено, оценивает общий эффект, а не прямой эффект без поправки на опосредованную переменную M. Из-за этого экспериментально установлено корреляции не представляют причинно-следственные связи если нельзя исключить ложные отношения.
Эксперименты
В экспериментах ложные отношения часто можно определить по контролирующий для других факторов, включая те, которые были теоретически определены как возможные мешающие факторы. Например, рассмотрим исследователя, пытающегося определить, убивает ли новый препарат бактерии; когда исследователь применяет препарат к бактериальной культуре, бактерии погибают. Но чтобы исключить наличие мешающей переменной, другая культура подвергается условиям, которые максимально идентичны тем, с которыми сталкивается первая культура, но вторая культура не подвергается действию наркотика. Если в этих условиях присутствует невидимый смешивающий фактор, эта контрольная культура также погибнет, так что по результатам первой культуры нельзя будет сделать вывод об эффективности препарата. С другой стороны, если контрольная культура не погибает, исследователь не может отвергнуть гипотезу об эффективности препарата.
Неэкспериментальный статистический анализ
Дисциплины, данные которых в основном не экспериментальны, такие как экономика, обычно используют данные наблюдений для установления причинно-следственных связей. Свод статистических методов, используемых в экономике, называется эконометрика. Основной статистический метод в эконометрике - многовариантный. регрессивный анализ. Обычно линейные отношения, такие как
выдвинута гипотеза, в которой является зависимой переменной (предполагается, что это вызванная переменная), за j = 1, ..., k это jth независимая переменная (предполагается, что это причинная переменная), и - член ошибки (содержащий комбинированные эффекты всех других причинных переменных, которые не должны коррелировать с включенными независимыми переменными). Если есть основания полагать, что ни один из s вызвано у, то оценки коэффициентов получены. Если нулевая гипотеза, что отвергается, то альтернативная гипотеза о том, что и что то же самое причины у не может быть отклонен. С другой стороны, если нулевая гипотеза, что не может быть отвергнута, то эквивалентно гипотеза об отсутствии причинного эффекта на у не может быть отклонен. Здесь понятие причинности является одним из сопутствующая причинность: Если истинное значение , затем изменение приведет к изменению у пока не некоторые другие причинные переменные, либо включенные в регрессию, либо неявные в термине ошибки, изменяются таким образом, чтобы точно компенсировать ее влияние; таким образом изменение в является не достаточно изменитьу. Аналогичным образом изменение является не обязательно изменить у, потому что изменение у может быть вызвано чем-то неявным в термине ошибки (или какой-либо другой причинной объясняющей переменной, включенной в модель).
Регрессионный анализ контролирует другие релевантные переменные, включая их в качестве регрессоров (независимых переменных). Это помогает избежать ошибочного вывода о причинно-следственной связи из-за наличия третьей, лежащей в основе, переменной, которая влияет как на потенциально причинную переменную, так и на потенциально вызванную переменную: ее влияние на потенциально вызванную переменную фиксируется путем прямого включения ее в регрессию, поэтому этот эффект не будет рассматриваться как ложный эффект рассматриваемой потенциально причинной переменной. Кроме того, использование многомерной регрессии помогает избежать ошибочного вывода о том, что косвенный эффект, скажем, Икс1 (например., Икс1 → Икс2 → у) является прямым эффектом (Икс1 → у).
Подобно тому, как экспериментатор должен быть осторожен при использовании экспериментального плана, который учитывает все смешивающие факторы, так и пользователь множественной регрессии должен быть осторожен, чтобы контролировать все смешивающие факторы, включая их в регрессоры. Если смешивающий фактор не включен в регрессию, его влияние отражается в члене ошибки по умолчанию, и если результирующий член ошибки коррелирует с одним (или несколькими) включенными регрессорами, то оцененная регрессия может быть смещенной или непоследовательной ( видеть смещение пропущенной переменной ).
В дополнение к регрессионному анализу данные можно изучить, чтобы определить, Причинность Грейнджера существуют. Наличие причинности Грейнджера указывает на то, что Икс предшествует у, и это Икс содержит уникальную информацию оу.
Другие отношения
Существует несколько других взаимосвязей, определяемых в статистическом анализе следующим образом.
- Прямые отношения
- Посреднические отношения
- Модерирование отношений
Смотрите также
- Причинно-следственная связь
- Корреляция не подразумевает причинно-следственной связи
- Иллюзорная корреляция
- Спецификация модели
- Смещение пропущенной переменной
- Постфактум заблуждение
- Проверка статистической модели
Сноски
- ^ Бернс, Уильям К. "Ложные корреляции ", 1997.
- ^ Жемчужина, Иудея. "Серия лекций 81-го факультета Калифорнийского университета в Лос-Анджелесе". singapore.cs.ucla.edu. Получено 2019-11-10.
- ^ Юля, Г. Удный (1926-01-01). «Почему мы иногда получаем бессмысленные корреляции между временными рядами? - Исследование выборки и природы временных рядов». Журнал Королевского статистического общества. 89 (1): 1–63. Дои:10.2307/2341482. JSTOR 2341482. S2CID 126346450.
- ^ Грейнджер, Клайв В. Дж .; Гизель, Эрик; Swanson, Norman R .; Уотсон, Марк У. (23 июля 2001 г.). Очерки по эконометрике: сборник статей Клайва В. Дж. Грейнджера. Издательство Кембриджского университета. ISBN 9780521796491.
- ^ Сапсфорд, Роджер; Юпп, Виктор, ред. (2006). Сбор и анализ данных. Мудрец. ISBN 0-7619-4362-5.
- ^ Хёфер, Томас; Hildegard Przyrembel; Сильвия Верлегер (2004). «Новое свидетельство теории аиста». Детская и перинатальная эпидемиология. 18 (1): 18–22. Дои:10.1111 / j.1365-3016.2003.00534.x. PMID 14738551.
- ^ Хофхаймер, Билл (30 октября 2012 г.). "'Redskins Rule »: Хирдт из MNF о пересечении футбола и политики». ESPN. Получено 16 октября, 2016.
- ^ Манкер, Роб (7 ноября 2012 г.). "Правило краснокожих: победа Барака Обамы над Миттом Ромни решает проблему первого поражения президента".. Чикаго Трибьюн. Получено 8 ноября, 2012.
- ^ Поль, Роберт С. (2013-08-20). Городские легенды и исторические предания Вашингтона. История Press. С. 78–80. ISBN 9781625846648.
Рекомендации
- Banerjee, A .; Dolado, J .; Galbraith, J. W .; Хендри, Д. Ф. (1993). Коинтеграция, исправление ошибок и эконометрический анализ нестационарных данных. Издательство Оксфордского университета. С. 70–81. ISBN 0-19-828810-7.
- Жемчуг, Иудея (2000). Причинная связь: модели, рассуждения и выводы. Издательство Кембриджского университета. ISBN 0521773628.
внешняя ссылка
- Ложные корреляции - сборник примеров