Структура популяции (генетика) - Population structure (genetics)

Структура населения (или стратификация населения) - наличие систематической разницы в аллель частоты между субпопуляциями в Население в результате не-случайная вязка между людьми. Это может быть информативным генетическое происхождение, а в контексте медицинской генетики это важный смешивающая переменная в полногеномные исследования ассоциации (GWAS).

Причины

Основная причина структуры населения в половым путем вид не-случайная вязка между группами: если все особи в популяции спариваются случайным образом, то частота аллели между группами должно быть похоже. Структура населения обычно возникает из-за физического разделения расстоянием или препятствиями, такими как горы и реки, за которыми следуют генетический дрейф. Другие причины включают: поток генов от миграций, узкие места населения и расширения, эффекты основателя, эволюционное давление, случайный случай и (у людей) культурные факторы.[1][2]

Исследования ассоциаций

Структура населения может быть проблемой для ассоциативных исследований, таких как исследования случай-контроль, где связь может быть обнаружена из-за основной структуры населения, а не из-за болезни, связанной локус. По аналогии можно представить себе сценарий, в котором определенные маленькие бусинки сделаны из определенного типа уникальной пены, и дети, как правило, подавляются этими бусинками; можно было бы ошибочно заключить, что пеноматериал вызывает удушье, хотя на самом деле это небольшой размер бусинок. Кроме того, в исследовании может не быть обнаружен реальный локус, вызывающий заболевание, если этот локус менее распространен в популяции, из которой выбираются пациенты. По этой причине в 1990-е годы было обычным делом использовать семейные данные, когда влияние структуры населения можно было легко контролировать с помощью таких методов, как тест на нарушение равновесия передачи (TDT). Но если структура известна или предполагаемая структура найдена, есть несколько возможных способов реализовать эту структуру в исследованиях ассоциаций и, таким образом, компенсировать любую систематическую ошибку населения. Большинство современных полногеномных ассоциативных исследований придерживаются мнения, что проблема структуры популяции поддается решению,[3] и что логистические преимущества использования несвязанных случаев и контролей делают эти исследования предпочтительнее исследований семейных ассоциаций.

Два наиболее широко используемых подхода к этой проблеме включают: геномный контроль, что является относительно непараметрический метод контроля наддува статистика тестов,[4] и структурированные методы ассоциации,[5] которые используют генетическую информацию для оценки и контроля структуры популяции. Анализ главных компонентов доказали свою эффективность Алкес Прайс и коллеги.[6] Также возможно исправить структуру и смешение из-за загадочной родственности, выведя матрицу родства и включив ее в линейный смешанная модель.[7][8]

Геномный контроль

Предположение об однородности популяции в ассоциативных исследованиях, особенно в исследованиях случай-контроль, легко может быть нарушено и может привести к обоим ошибки типа I и типа II. Поэтому важно, чтобы модели, использованные в исследовании, компенсировали структуру населения. Проблема в исследованиях «случай-контроль» состоит в том, что, если есть генетическая причастность к заболеванию, популяция случая, скорее всего, будет родственной, чем люди в контрольной популяции. Это означает, что предположение о независимости наблюдений нарушено. Часто это приводит к переоценке значимости ассоциации, но это зависит от того, как была выбрана выборка. Если по совпадению в подгруппе случаев наблюдается более высокая частота аллелей, вы обнаружите связь с любым признаком, который более распространен в данной популяции.[9] Этот вид ложной ассоциации увеличивается по мере роста выборки, поэтому проблема должна вызывать особую озабоченность в крупномасштабных исследованиях ассоциаций, когда локусы оказывают только относительно небольшое влияние на признак. Метод, который в некоторых случаях может компенсировать описанные выше проблемы, был разработан Девлином и Родером (1999).[4] Он использует как частотник и Байесовский подход (последний уместен при работе с большим количеством гены-кандидаты ).

Частотный способ корректировки структуры населения работает с использованием маркеров, которые не связаны с рассматриваемым признаком, для корректировки любого увеличения статистики, вызванного структурой населения. Метод был впервые разработан для бинарных признаков, но с тех пор был обобщен для количественных.[10] Для бинарного метода, который применяется к обнаружению генетических различий между случайной и контрольной популяциями, Девлин и Родер (1999) используют Тест тренда Армитиджа

и тестовое задание для аллельных частот

АллелиааАаAAВсего
случайр0р1р2р
Контрольs0s1s2S
Всегоп0п1п2N

Если население в Равновесие Харди – Вайнберга две статистики примерно равны. Под нулевая гипотеза при отсутствии стратификации населения тест тренда является асимптотическим распространение с одной степенью свободы. Идея в том, что статистика завышена на фактор так что где зависит от эффекта расслоения. Вышеупомянутый метод основан на предположении, что коэффициент инфляции является константой, что означает, что локусы должны иметь примерно равные скорости мутаций, не должны подвергаться разному отбору в двух популяциях, а степень неравновесия Харди-Вайнберга измеряется в единицах Райта коэффициент инбридинга F не должны различаться между разными локусами. Последний из них вызывает наибольшее беспокойство. Если эффект стратификации одинаков для разных локусов можно оценить по несвязанным маркерам

где L - количество несвязанных маркеров. Знаменатель выводится из гамма-распределение в качестве надежной оценки . Предлагались и другие оценки, например, Райх и Гольдштейн.[11] предложил вместо этого использовать среднее значение статистики. Это не единственный способ оценить но согласно Bacanu et al.[12] это подходящая оценка, даже если некоторые из несвязанных маркеров фактически находятся в неравновесном состоянии с локусом, вызывающим заболевание, или сами связаны с заболеванием. При нулевой гипотезе и при корректировке стратификации с использованием L несвязанные гены, примерно распределены. С этой поправкой общий коэффициент ошибок типа I должен быть примерно равен даже когда население расслоено. Девлин и Редер (1999)[4] в основном рассматривал ситуацию, когда дает уровень достоверности 95% и не меньшие p-значения. Marchini et al. (2004)[13] демонстрирует с помощью моделирования, что геномный контроль может привести к антиконсервативному значению p, если это значение очень мало и две популяции (случай и контроль) чрезвычайно различны. Это было особенно проблемой, если количество несвязанных маркеров составляло порядка 50-100. Это может привести к ложным срабатываниям (на этом уровне значимости).

Демографический вывод

Структура населения - важный аспект эволюционного и популяционная генетика. Такие события, как миграции и взаимодействия между группами, оставляют генетический отпечаток на популяциях. Смешанные группы населения будут иметь гаплотип куски от их предковых групп, которые со временем постепенно сокращаются из-за рекомбинация. Используя этот факт и сопоставляя общие гаплотипы отдельных людей в наборе генетических данных, исследователи могут отслеживать и датировать происхождение популяции и реконструировать исторические события, такие как взлет и падение империй, работорговля, колониализм и рост населения.[14]

Структура населения может быть выведена из данных с использованием различных методов, таких как уменьшение размерности и кластерный анализ,[15][16] или допуская статистическую модель данных и оценивая ее параметры с помощью оценка максимального правдоподобия.[17]

Многие статистические методы полагаются на простые модели населения, чтобы вывести исторические демографические изменения, такие как наличие узких мест в населении, события примеси или время расхождения населения. Часто эти методы основываются на предположении панмиктия, или однородность в наследственной популяции. Неправильная спецификация таких моделей, например, из-за того, что не принимается во внимание наличие структуры в наследственной популяции, может привести к сильно смещенным оценкам параметров.[18] Имитационные исследования показывают, что историческая структура популяции может даже иметь генетические эффекты, которые легко можно неверно истолковать как исторические изменения в размере популяции или наличие событий примеси, даже если таких событий не было.[19]

использованная литература

  1. ^ Кардон Л. Р., Палмер Л. Дж. (Февраль 2003 г.). «Стратификация населения и ложная аллельная ассоциация». Ланцет. 361 (9357): 598–604. Дои:10.1016 / S0140-6736 (03) 12520-2. PMID  12598158. S2CID  14255234.
  2. ^ Гил МакВин (2001). «Структура населения» (PDF). Архивировано из оригинал (PDF) на 2018-11-23. Получено 2020-11-14.
  3. ^ Причард Дж. К., Розенберг Н. А. (июль 1999 г.). «Использование несвязанных генетических маркеров для выявления стратификации населения в ассоциативных исследованиях». Американский журнал генетики человека. 65 (1): 220–8. Дои:10.1086/302449. ЧВК  1378093. PMID  10364535.
  4. ^ а б c Девлин Б., Рёдер К. (декабрь 1999 г.). «Геномный контроль для ассоциативных исследований». Биометрия. 55 (4): 997–1004. Дои:10.1111 / j.0006-341X.1999.00997.x. PMID  11315092.
  5. ^ Причард Дж. К., Стивенс М., Розенберг Н. А., Доннелли П. (июль 2000 г.). «Картирование ассоциаций в структурированных популяциях». Американский журнал генетики человека. 67 (1): 170–81. Дои:10.1086/302959. ЧВК  1287075. PMID  10827107.
  6. ^ Прайс А.Л., Паттерсон Н.Дж., Пленге Р.М., Вайнблатт М.Э., Шадик Н.А., Рейх Д. (август 2006 г.). «Анализ основных компонентов корректирует стратификацию в полногеномных ассоциативных исследованиях». Природа Генетика. 38 (8): 904–9. Дои:10,1038 / ng1847. PMID  16862161. S2CID  8127858.
  7. ^ Yu J, Pressoir G, Briggs WH, Vroh Bi I., Yamasaki M, Doebley JF и др. (Февраль 2006 г.). «Единый метод смешанной модели для сопоставления ассоциаций, учитывающий несколько уровней взаимосвязи». Природа Генетика. 38 (2): 203–8. Дои:10,1038 / ng1702. PMID  16380716. S2CID  8507433.
  8. ^ Loh PR, Tucker G, Bulik-Sullivan BK, Vilhjálmsson BJ, Finucane HK, Салем Р.М. и др. (Март 2015 г.). «Эффективный байесовский анализ смешанной модели увеличивает силу ассоциации в больших когортах». Природа Генетика. 47 (3): 284–90. Дои:10,1038 / нг.3190. ЧВК  4342297. PMID  25642633.
  9. ^ Lander ES, Schork NJ (сентябрь 1994 г.). «Генетическое вскрытие сложных признаков». Наука. 265 (5181): 2037–48. Дои:10.1126 / science.8091226. PMID  8091226.
  10. ^ Бакану С.А., Девлин Б., Рёдер К. (январь 2002 г.). «Ассоциативные исследования количественных признаков в структурированных популяциях». Генетическая эпидемиология. 22 (1): 78–93. Дои:10.1002 / gepi.1045. PMID  11754475.
  11. ^ Райх Д.Е., Гольдштейн Д.Б. (январь 2001 г.). «Обнаружение ассоциации в исследовании случай-контроль при корректировке стратификации населения». Генетическая эпидемиология. 20 (1): 4–16. Дои:10.1002 / 1098-2272 (200101) 20: 1 <4 :: AID-GEPI2> 3.0.CO; 2-T. PMID  11119293.
  12. ^ Бакану С.А., Девлин Б., Рёдер К. (июнь 2000 г.). «Сила геномного контроля». Американский журнал генетики человека. 66 (6): 1933–44. Дои:10.1086/302929. ЧВК  1378064. PMID  10801388.
  13. ^ Марчини Дж., Кардон Л. Р., Филлипс М. С., Доннелли П. (май 2004 г.). «Влияние структуры человеческой популяции на большие исследования генетических ассоциаций». Природа Генетика. 36 (5): 512–7. Дои:10.1038 / ng1337. PMID  15052271. S2CID  11694537.
  14. ^ Hellenthal G, Busby GB, Band G, Wilson JF, Capelli C, Falush D, Myers S (февраль 2014 г.). «Генетический атлас истории человеческой примеси». Наука. 343 (6172): 747–751. Дои:10.1126 / science.1243518. ЧВК  4209567. PMID  24531965.
  15. ^ Паттерсон Н., Прайс А.Л., Рейх Д. (декабрь 2006 г.). «Структура населения и собственный анализ». PLoS Genetics. 2 (12): e190. Дои:10.1371 / journal.pgen.0020190. ЧВК  1713260. PMID  17194218.
  16. ^ Фришо Э, Матье Ф, Труийон Т, Бушар Дж, Франсуа О. (апрель 2014 г.). «Быстрая и эффективная оценка индивидуальных коэффициентов происхождения». Генетика. 196 (4): 973–83. Дои:10.1534 / genetics.113.160572. ЧВК  3982712. PMID  24496008.
  17. ^ Александр DH, Novembre J, Lange K (сентябрь 2009 г.). «Быстрая модельная оценка происхождения у неродственных людей». Геномные исследования. 19 (9): 1655–64. Дои:10.1101 / гр.094052.109. ЧВК  2752134. PMID  19648217.
  18. ^ Шерри Е.М., Томас М.Г., Маника А., Гунц П., Сток Дж. Т., Стрингер С. и др. (Август 2018 г.). «Развивались ли наши виды в разделенных популяциях по всей Африке, и почему это имеет значение?». Тенденции в экологии и эволюции. 33 (8): 582–594. Дои:10.1016 / j.tree.2018.05.005. ЧВК  6092560. PMID  30007846.
  19. ^ Родригес В., Мазет О, Груси С., Арредондо А., Корухо Дж. М., Бойтар С., Чихи Л. (декабрь 2018 г.). «IICR и нестационарное структурированное слияние: к демографическому выводу с произвольными изменениями в структуре населения». Наследственность. 121 (6): 663–678. Дои:10.1038 / s41437-018-0148-0. ЧВК  6221895. PMID  30293985.