Причинный граф - Causal graph

В статистике, эконометрике, эпидемиологии, генетике и смежных дисциплинах, причинные графы (также известный как диаграммы пути, причинный Байесовские сети или DAG) являются вероятностные графические модели используется для кодирования предположений о процессе создания данных. Их также можно рассматривать как схему алгоритма, с помощью которого Природа присваивает значения переменным в интересующей области.

Графики причинно-следственных связей могут использоваться для коммуникации и вывода. Как устройства связи, графики обеспечивают формальное и прозрачное представление причинных допущений, которые исследователи могут пожелать передать и защитить. В качестве инструментов вывода графики позволяют исследователям оценить величину эффекта на основании неэкспериментальных данных.[1][2][3][4][5] выводить проверяемый последствия закодированных предположений,[1][6][7][8] проверка на внешнюю валидность,[9] и управлять недостающими данными[10] и систематическая ошибка выбора.[11]

Причинные графы впервые были использованы генетиком Сьюэлл Райт[12] в рубрике «путевые диаграммы». Позже они были приняты социологами.[13][14][15][16][17][18] и, в меньшей степени, экономистами.[19] Эти модели изначально были ограничены линейными уравнениями с фиксированными параметрами. Современные разработки расширили графические модели до непараметрического анализа и, таким образом, достигли универсальности и гибкости, которые преобразовали причинно-следственный анализ в компьютерных науках, эпидемиологии,[20] и общественные науки.[21]

Конструкция и терминология

Причинный граф можно построить следующим образом. Каждая переменная в модели имеет соответствующую вершину или узел, а стрелка нарисована от переменной. Икс к переменной Y в любое время Y считается, что он реагирует на изменения в Икс когда все другие переменные остаются постоянными. Переменные, связанные с Y через прямые стрелки называются родители из Y, или "прямые причины Y, "и обозначаются Платить).

Причинно-следственные модели часто включают «условия ошибки» или «пропущенные факторы», которые представляют все неизмеряемые факторы, влияющие на переменную. Y когда Платить) остаются постоянными. В большинстве случаев термины ошибки исключаются из графика. Однако, если автор графа подозревает, что условия ошибок любых двух переменных являются зависимыми (например, две переменные имеют ненаблюдаемую или скрытую общую причину), то между ними рисуется двунаправленная дуга. Таким образом, наличие скрытых переменных принимается во внимание через корреляции, которые они вызывают между ошибочными членами, представленными двунаправленными дугами.

Основные инструменты

Основным инструментом графического анализа является d-разделение, что позволяет исследователям определить путем проверки, подразумевает ли причинная структура, что два набора переменных независимы при наличии третьего набора. В рекурсивных моделях без коррелированных условий ошибок (иногда называемых Марковский), эти условные независимости представляют все проверяемые следствия модели.[22]

Пример

Предположим, мы хотим оценить влияние посещения элитного колледжа на будущие доходы. Простая регрессия заработка на рейтинг колледжа не даст объективной оценки целевого эффекта, потому что элитные колледжи очень избирательны, и учащиеся их, вероятно, будут иметь квалификацию для высокооплачиваемой работы до посещения школы. Предполагая, что причинно-следственные связи линейны, это базовое знание можно выразить следующим образом: модель структурного уравнения (SEM) спецификация.

Модель 1

куда представляет квалификацию человека до поступления в колледж, представляет квалификацию после колледжа, содержит атрибуты, отражающие качество обучения в колледже, и заработная плата человека.

Рисунок 1: Неидентифицированная модель со скрытыми переменными ( и ) показано явно
Рисунок 2: Неидентифицированная модель с обобщенными скрытыми переменными

Рисунок 1 представляет собой причинно-следственный график, представляющий эту спецификацию модели. Каждая переменная в модели имеет соответствующий узел или вершину в графе. Кроме того, для каждого уравнения стрелки нарисованы от независимых переменных к зависимым переменным. Эти стрелки отражают направление причинно-следственной связи. В некоторых случаях мы можем обозначить стрелку соответствующим структурным коэффициентом, как на рисунке 1.

Если и ненаблюдаемые или скрытые переменные, их влияние на и можно отнести к их ошибочным условиям. Удалив их, мы получим следующую спецификацию модели:

Модель 2

Исходная информация, указанная в Модели 1, подразумевает, что срок погрешности , , коррелирует с C 's срок ошибки, . В результате мы добавляем двунаправленную дугу между S и C, как на рисунке 2.

Рисунок 3: Идентифицированная модель со скрытыми переменными ( и ) показано явно
Рисунок 4: Идентифицированная модель с обобщенными скрытыми переменными

С коррелирует с и поэтому, , является эндогенный и не указан в Модели 2. Однако, если мы включим силу заявления человека в колледж, , как показано на рисунке 3, мы получаем следующую модель:

Модель 3

Удалив скрытые переменные из спецификации модели, мы получим:

Модель 4

с коррелирует с .

Сейчас же, идентифицируется и может быть оценено с помощью регрессии на и . Это можно проверить с помощью критерий однодверности,[1][23] необходимое и достаточное графическое условие для идентификации структурных коэффициентов, например , используя регрессию.

Рекомендации

  1. ^ а б c Жемчуг, Иудея (2000). Причинно-следственная связь. Кембридж, Массачусетс: MIT Press.
  2. ^ Тиан, Джин; Жемчуг, Иудея (2002). «Общее условие идентификации причинных эффектов». Труды восемнадцатой национальной конференции по искусственному интеллекту. ISBN  978-0-262-51129-2.
  3. ^ Шпицер Илья; Жемчуг, Иудея (2008). «Полные методы идентификации причинной иерархии» (PDF). Журнал исследований в области машинного обучения. 9: 1941–1979.
  4. ^ Huang, Y .; Валторта, М. (2006). «Идентифицируемость в каузальных байесовских сетях: надежный и полный алгоритм». Труды AAAI.
  5. ^ Барейнбойм, Элиас; Жемчуг, Иудея (2012). "Причинно-следственный вывод суррогатных экспериментов: z-идентификация". Материалы двадцать восьмой конференции по неопределенности в искусственном интеллекте. arXiv:1210.4842. Bibcode:2012arXiv1210.4842B. ISBN  978-0-9749039-8-9.
  6. ^ Тиан, Джин; Жемчуг, Иудея (2002). «О проверяемых последствиях причинных моделей со скрытыми переменными». Материалы восемнадцатой конференции по неопределенности в искусственном интеллекте. С. 519–27. arXiv:1301.0608. Bibcode:2013arXiv1301.0608T. ISBN  978-1-55860-897-9.
  7. ^ Шпицер Илья; Жемчуг, Иудея (2008). «Дремлющая независимость». Труды AAAI.
  8. ^ Чен, Брайант; Жемчуг, Иудея (2014). «Проверяемые последствия моделей линейных структурных уравнений». Труды AAAI.
  9. ^ Барейнмбойм, Элиас; Жемчуг, Иудея (2014). «Внешняя валидность: от исчисления к переносимости между популяциями». Статистическая наука. 29 (4): 579–595. arXiv:1503.01603. Дои:10.1214 / 14-стс486.
  10. ^ Мохан, Картика; Перл, Иудея; Тиан, Джин (2013). «Графические модели для вывода с отсутствующими данными». Достижения в системах обработки нейронной информации.
  11. ^ Барейнбойм, Элиас; Тиан, Джин; Жемчуг, Иудея (2014). «Восстановление от смещения отбора в причинно-следственных и статистических выводах». Труды AAAI.
  12. ^ Райт, С. (1921). «Корреляция и причинно-следственная связь». Журнал сельскохозяйственных исследований. 20: 557–585.
  13. ^ Блэлок, Х. М. (1960). «Корреляционный анализ и причинно-следственные выводы». Американский антрополог. 62 (4): 624–631. Дои:10.1525 / aa.1960.62.4.02a00060.
  14. ^ Дункан, О. Д. (1966). «Анализ пути: социологические примеры». Американский журнал социологии. 72: 1–16. Дои:10.1086/224256.
  15. ^ Дункан, О. Д. (1976). «Введение в модели структурных уравнений». Американский журнал социологии. 82 (3): 731–733. Дои:10.1086/226377.
  16. ^ Йореског, К. Г. (1969). «Общий подход к подтверждающему анализу факторов максимального правдоподобия». Психометрика. 34 (2): 183–202. Дои:10.1007 / bf02289343.
  17. ^ Goldberger, A. S .; Дункан, О. Д. (1973). Модели структурных уравнений в социальных науках. Нью-Йорк: Seminar Press.
  18. ^ Гольдбергер, А. С. (1972). «Модели структурных уравнений в социальных науках». Econometrica. 40 (6): 979–1001. Дои:10.2307/1913851. JSTOR  1913851.
  19. ^ Уайт, Халберт; Чалак, Карим; Лу, Сюнь (2011). «Связь причинности Грейнджера и жемчужной каузальной модели с устанавливаемыми системами». Причинная связь в вызовах временных рядов в машинном обучении. 5.
  20. ^ Ротман, Кеннет Дж .; Гренландия, Сандер; Лэш, Тимоти (2008). Современная эпидемиология. Липпинкотт Уильямс и Уилкинс.
  21. ^ Morgan, S.L .; Уиншип, К. (2007). Контрфактические выводы и причинный вывод: методы и принципы социальных исследований. Нью-Йорк: Издательство Кембриджского университета.
  22. ^ Гейгер, Дэн; Жемчуг, Иудея (1993). «Логико-алгоритмические свойства условной независимости». Анналы статистики. 21 (4): 2001–2021. CiteSeerX  10.1.1.295.2043. Дои:10.1214 / aos / 1176349407.
  23. ^ Chen, B .; Перл, Дж (2014). «Графические инструменты для моделирования линейных структурных уравнений». Технический отчет.