Оценка гаплотипа - Haplotype estimation

В генетика, оценка гаплотипа (также известный как «поэтапный») относится к процессу статистической оценки гаплотипы из генотип данные. Чаще всего возникает ситуация, когда генотипы собираются на множестве полиморфных сайтов у группы людей. Например, в генетике человека полногеномные ассоциации исследований собирать генотипы у тысяч людей в количестве от 200 000 до 5 000 000 SNP с помощью микрочипов. Методы оценки гаплотипов используются при анализе этих наборов данных и позволяют вменение генотипа [1][2] аллелей из справочных баз данных, таких как Проект HapMap и проект 1000 геномов.

Генотипы и гаплотипы

Генотипы измеряют неупорядоченную комбинацию аллелей на каждом участке, тогда как гаплотипы - это две последовательности аллелей, унаследованные вместе от родителей человека. Когда есть гетерозиготный генотипов, присутствующих в индивидуальном наборе генотипов, будет возможные пары гаплотипов, которые могут лежать в основе генотипов. Например, когда , мы имеем следующие гаплотипы: AA / TT, AT / TA, TA / AT и TT / AA. Если отсутствуют генотипы, количество возможных пар гаплотипов увеличивается.

Методы оценки гаплотипа

Для оценки гаплотипов было предложено множество статистических методов. Некоторые из самых ранних подходов использовали простую полиномиальную модель, в которой каждому возможному гаплотипу, соответствующему выборке, давали неизвестный частотный параметр, и эти параметры оценивались с помощью Алгоритм ожидания – максимизации. Эти подходы были способны обрабатывать только небольшое количество сайтов одновременно, хотя позже были разработаны последовательные версии, в частности метод SNPHAP.

Наиболее точные и широко используемые методы оценки гаплотипов используют некоторую форму скрытая марковская модель (HMM) для выполнения вывода. Давно ФАЗА[3] был самым точным методом. PHASE был первым методом использования идей из коалесцентная теория по поводу совместного распределения гаплотипов. Этот метод использовал Выборка Гиббса подход, при котором гаплотипы каждого индивидуума обновлялись в зависимости от текущих оценок гаплотипов из всех других образцов. Аппроксимация распределения гаплотипа, обусловленного набором других гаплотипов, использовалась для условных распределений сэмплера Гиббса. ФАЗА использовалась для оценки гаплотипов из Проект HapMap. ФАЗА была ограничена своей скоростью и неприменима к наборам данных из общегеномных ассоциативных исследований.

FastPHASE [4] и методы BEAGLE [5] представили модели кластеров гаплотипов, применимые к GWAS -размерные наборы данных. Впоследствии IMPUTE2[6] и MaCH[7] были введены методы, похожие на подход PHASE, но намного быстрее. Эти методы итеративно обновляют оценки гаплотипов каждой выборки в зависимости от подмножества K оценок гаплотипов других выборок. IMPUTE2 представил идею тщательного выбора подмножества гаплотипов для повышения точности. Точность увеличивается с K, но с квадратичным вычислительная сложность.

Метод SHAPEIT1 значительно продвинулся за счет введения линейного метод сложности, который работает только с пространством гаплотипов, соответствующих генотипам человека.[8] Впоследствии метод HAPI-UR предложил очень похожий метод.[9] SHAPEIT2 [10] сочетает в себе лучшие функции SHAPEIT1 и IMPUTE2 для повышения эффективности и точности.

Смотрите также

Рекомендации

  1. ^ Marchini, J .; Хауи, Б. (2010). «Вменение генотипа для полногеномных ассоциативных исследований». Природа Обзоры Генетика. 11 (7): 499–511. Дои:10.1038 / nrg2796. PMID  20517342. S2CID  1465707.
  2. ^ Howie, B .; Fuchsberger, C .; Стивенс, М .; Marchini, J .; Абекасис, Г. А. Р. (2012). «Быстрое и точное вменение генотипа в полногеномных ассоциативных исследованиях за счет предварительной фазы». Природа Генетика. 44 (8): 955–959. Дои:10.1038 / ng.2354. ЧВК  3696580. PMID  22820512.
  3. ^ Стивенс, М .; Smith, N.J .; Доннелли, П. (2001). «Новый статистический метод реконструкции гаплотипа по данным населения». Американский журнал генетики человека. 68 (4): 978–989. Дои:10.1086/319501. ЧВК  1275651. PMID  11254454.
  4. ^ Scheet, P .; Стивенс, М. (2006). «Быстрая и гибкая статистическая модель для крупномасштабных данных о генотипе популяции: приложения для определения отсутствующих генотипов и гаплотипической фазы». Американский журнал генетики человека. 78 (4): 629–644. Дои:10.1086/502802. ЧВК  1424677. PMID  16532393.
  5. ^ Браунинг, S. R .; Браунинг, Б. Л. (2007). «Быстрое и точное определение фазы гаплотипа и вывод отсутствующих данных для исследований ассоциации всего генома путем использования кластеризации локализованных гаплотипов». Американский журнал генетики человека. 81 (5): 1084–1097. Дои:10.1086/521987. ЧВК  2265661. PMID  17924348.
  6. ^ Howie, B.N .; Donnelly, P .; Маркини, Дж. (2009). Щорк, Николай Дж (ред.). «Гибкий и точный метод вменения генотипа для следующего поколения исследований общегеномной ассоциации». PLOS Genetics. 5 (6): e1000529. Дои:10.1371 / journal.pgen.1000529. ЧВК  2689936. PMID  19543373.
  7. ^ Li, Y .; Willer, C.J .; Ding, J .; Scheet, P .; Абекасис, Г. А. Р. (2010). «MaCH: Использование данных о последовательности и генотипе для оценки гаплотипов и ненаблюдаемых генотипов». Генетическая эпидемиология. 34 (8): 816–834. Дои:10.1002 / gepi.20533. ЧВК  3175618. PMID  21058334.
  8. ^ Delaneau, O .; Marchini, J .; Загуры, Дж. Ф. О. (2011). «Метод фазирования линейной сложности для тысяч геномов». Методы природы. 9 (2): 179–181. Дои:10.1038 / nmeth.1785. PMID  22138821. S2CID  13765612.
  9. ^ Williams, A. L .; Patterson, N .; Glessner, J .; Hakonarson, H .; Райх, Д. (2012). «Фазирование многих тысяч генотипированных образцов». Американский журнал генетики человека. 91 (2): 238–251. Дои:10.1016 / j.ajhg.2012.06.013. ЧВК  3415548. PMID  22883141.
  10. ^ Delaneau, O .; Zagury, J. F .; Маркини, Дж. (2012). «Улучшенная фазировка всей хромосомы для генетических исследований болезней и популяций». Методы природы. 10 (1): 5–6. Дои:10.1038 / nmeth.2307. PMID  23269371. S2CID  205421216.