Модели эволюции ДНК - Models of DNA evolution

Ряд различных Марков модели эволюции последовательности ДНК Были предложены. Эти модели замещения различаются параметрами, используемыми для описания скорости, с которой нуклеотид заменяет другой в процессе эволюции. Эти модели часто используются в молекулярный филогенетический анализ. В частности, они используются при расчете вероятности дерева (в Байесовский и максимальная вероятность подходы к оценке деревьев), и они используются для оценки эволюционного расстояния между последовательностями на основе наблюдаемых различий между последовательностями.

Вступление

Эти модели являются феноменологическим описанием эволюции ДНК как цепочки из четырех дискретных состояний. Эти марковские модели не описывают явным образом механизм мутации или действие естественного отбора. Скорее они описывают относительную скорость различных изменений. Например, мутационные предубеждения и очищающий отбор в пользу консервативных изменений, вероятно, обе стороны ответственны за относительно высокую скорость переходы в сравнении с трансверсии в развивающихся последовательностях. Однако модель Кимуры (K80), описанная ниже, пытается только уловить эффект обеих сил в параметре, который отражает относительную скорость переходов к трансверсиям.

Эволюционный анализ последовательностей проводится в самых разных временных масштабах. Таким образом, эти модели удобно выражать в терминах мгновенных скоростей изменения между различными состояниями ( Q матрицы ниже). Если нам дано начальное (наследственное) состояние в одной позиции, модель Q матрицу и длину ветви, выражающую ожидаемое количество изменений, которые должны произойти с момента предка, то мы можем вывести вероятность того, что дочерняя последовательность будет иметь каждое из четырех состояний. Математические детали этого преобразования из матрицы скорости в матрицу вероятности описаны в раздел математики моделей замещения из модель замещения страница. Выражая модели в терминах мгновенных скоростей изменения, мы можем избежать оценки большого количества параметров для каждой ветви филогенетического дерева (или каждого сравнения, если анализ включает множество парных сравнений последовательностей).

Модели, описанные на этой странице, описывают эволюцию одного сайта в рамках набора последовательностей. Они часто используются для анализа эволюции всего локус делая упрощающее предположение, что разные сайты развиваются независимо и одинаково распределены. Это предположение может быть оправданным, если предполагается, что сайты развиваются. нейтрально. Если основной эффект естественного отбора на эволюцию последовательностей заключается в ограничении некоторых сайтов, то можно использовать модели межсайтовой гетерогенности по скорости. Этот подход позволяет оценить только одну матрицу относительных скоростей замещения и другой набор параметров, описывающих дисперсию общей скорости замещения по сайтам.

Эволюция ДНК как цепь Маркова с непрерывным временем

Цепи Маркова с непрерывным временем

Непрерывное время Цепи Маркова имеют обычные матрицы перехода, которые, кроме того, параметризованы по времени, . В частности, если состояния, то матрица перехода

где каждая отдельная запись, относится к вероятности того, что состояние изменится на состояние во время .

Пример: Мы хотели бы смоделировать процесс замены в последовательностях ДНК (т.е. Юкс – Кантор, Кимура, и Т. Д.) в режиме непрерывного времени. Соответствующие матрицы переходов будут выглядеть так:

где верхний левый и нижний правый блоки 2 × 2 соответствуют вероятности перехода а верхний правый и нижний левый блоки 2 × 2 соответствуют вероятности трансверсии.

Предположение: Если когда-нибудь , цепь Маркова находится в состоянии , то вероятность того, что в момент , он будет в состоянии зависит только от , и . Затем это позволяет нам записать эту вероятность как .

Теорема: Матрицы переходов с непрерывным временем удовлетворяют:

Примечание: Здесь возможна путаница между двумя значениями слова переход. (i) В контексте Цепи Маркова, переход - это общий термин для перехода между двумя состояниями. (ii) В контексте нуклеотидные изменения в последовательностях ДНК, переход - это особый термин для обмена между двумя пуринами (A ↔ G) или двумя пиримидинами (C ↔ T) (дополнительные сведения см. в статье о переходы в генетике ). Напротив, обмен между одним пурином и одним пиримидином называется трансверсия.

Вывод динамики замещения

Рассмотрим последовательность ДНК фиксированной длины. м эволюционирует во времени за счет замены базы. Предположим, что процессы, за которыми следуют м сайты марковски независимы, одинаково распределены и этот процесс постоянен во времени. Для конкретного сайта пусть

- набор возможных состояний сайта, и

их соответствующие вероятности во время . Для двух разных , позволять скорость перехода из состояния заявить . Аналогично для любого , пусть общая скорость изменения от быть

Изменения в распределении вероятностей за небольшие промежутки времени даны

Другими словами (выражаясь частотным языком), частота вовремя равна частоте во время минус частота потерял плюс частота Вновь созданный с.

Аналогично для вероятностей , и . Эти уравнения можно компактно записать как

куда

известен как матрица ставок. Обратите внимание, что по определению сумма записей в каждой строке равно нулю. Следует, что

Для стационарный процесс, куда не зависит от времени т, это дифференциальное уравнение можно решить. Первый,

куда обозначает экспоненциальный матрицы . Как результат,

Эргодичность

Если цепь Маркова несводимый, т.е. если всегда можно выйти из состояния в состояние (возможно в несколько этапов), то это тоже эргодический. В результате он имеет уникальный стационарное распределение , куда соответствует доле времени, проведенного в состоянии после того, как цепь Маркова проработает бесконечное количество времени. В эволюции ДНК, в предположении общего процесса для каждого сайта, стационарные частоты соответствуют равновесным базовым составам. Действительно, отметим, что, поскольку стационарное распределение удовлетворяет , мы видим, что когда текущее распределение это стационарное распределение у нас есть

Другими словами, частоты не изменяй.

Обратимость времени

Определение: Стационарный марковский процесс есть обратимый по времени если (в установившемся состоянии) величина изменения из состояния к равно сумме изменения от к , (хотя два состояния могут возникать с разными частотами). Это означает, что:

Не все стационарные процессы обратимы, однако наиболее часто используемые модели эволюции ДНК предполагают обратимость во времени, что считается разумным предположением.

В предположении обратимости времени пусть , то легко увидеть, что:

Определение Симметричный член называется возможность обмена между штатами и . Другими словами, - доля частоты состояния это результат переходов из состояния заявить .

Следствие 12 недиагональных элементов матрицы ставок, (обратите внимание, что недиагональные записи определяют диагональные записи, так как строки сумма к нулю) полностью определяется 9 числами; это: 6 членов взаимозаменяемости и 3 стационарные частоты , (поскольку сумма стационарных частот равна 1).

Масштабирование длин ветвей

Сравнивая существующие последовательности, можно определить степень расхождения последовательностей. Это необработанное измерение расхождения предоставляет информацию о количестве изменений, произошедших на пути, разделяющем последовательности. Простой подсчет различий ( Расстояние Хэмминга ) между последовательностями часто будет недооценивать количество замен из-за множественных совпадений (см. гомоплазия ). Пытаться оценить точное количество произошедших изменений сложно и обычно не требуется. Вместо этого длина ветвей (и длина пути) в филогенетическом анализе обычно выражается в ожидаемом количестве изменений на сайт. Длина пути - это произведение продолжительности пути во времени и средней скорости замен. Хотя их продукт можно оценить, скорость и время невозможно определить по расхождению последовательностей.

Описание матриц ставок на этой странице точно отражает относительную величину различных замен, но эти матрицы ставок нет масштабируется так, что длина ветви 1 дает одно ожидаемое изменение. Это масштабирование может быть выполнено путем умножения каждого элемента матрицы на один и тот же коэффициент или просто путем масштабирования длин ветвей. Если мы используем β для обозначения коэффициента масштабирования и ν для обозначения длины ветви, измеренной в ожидаемом количестве замен на сайт, тогда βν используется в приведенных ниже формулах вероятности перехода вместо μт. Обратите внимание, что ν - это параметр, который оценивается на основе данных и называется длиной ветви, а β - это просто число, которое может быть вычислено из матрицы скорости (это не отдельный бесплатный параметр).

Значение β можно найти, установив ожидаемую скорость потока состояний равной 1. Диагональные элементы матрицы скорости ( Q matrix) представляют -1 кратную скорость выхода из каждого состояния. За обратимый во времени мы знаем частоты равновесных состояний (это просто πя значение параметра для состояния я). Таким образом, мы можем найти ожидаемую скорость изменения, вычислив сумму потоков из каждого состояния, взвешенную по доле сайтов, которые, как ожидается, будут в этом классе. Установка β равной величине, обратной этой сумме, гарантирует, что масштабируемый процесс будет иметь ожидаемый поток 1:

Например, в Jukes-Cantor коэффициент масштабирования будет 4 / (3 мкм) потому что скорость выхода из каждого состояния 3 мкм / 4.

Наиболее распространенные модели эволюции ДНК

Модель JC69 (Джукс и Кантор, 1969)

JC69, Джукс и Кантор Модель 1969 г.,[1] самый простой модель замещения. Есть несколько предположений. Предполагает равные базовые частоты и равный частота мутаций. Таким образом, единственный параметр этой модели - , общий коэффициент замещения. Как упоминалось ранее, эта переменная становится постоянной, когда мы нормализуем среднюю скорость до 1.

Вероятность перехода из исходного состояния до конечного состояния как функция длины ветви () для JC69. Красная кривая: состояния нуклеотидов и разные. Синяя кривая: начальное и конечное состояния одинаковы. Спустя долгое время вероятности стремятся к частотам равновесия нуклеотидов (0,25: пунктирная линия).

Когда длина ветки, , измеряется в ожидаемом количестве изменений на сайте, тогда:

Стоит отметить, что что обозначает сумму любого столбца (или строки) матрицы умноженное на время и, таким образом, означает ожидаемое количество замен во времени (длительность ветки) для каждого конкретного сайта (на сайт), когда скорость замещения равна .

Учитывая пропорцию сайтов, которые различаются между двумя последовательностями, оценка Джукса-Кантора эволюционного расстояния (с точки зрения ожидаемого числа изменений) между двумя последовательностями дается выражением

В в этой формуле часто называют -расстояние. Это достаточная статистика для расчета поправки на расстояние Джукса-Кантора, но этого недостаточно для расчета эволюционного расстояния в более сложных моделях, которые следуют ниже (также обратите внимание, что используемый в последующих формулах не идентичен "-расстояние").

Модель K80 (Кимура 1980)

К80, Кимура Модель 1980 года,[2] часто упоминается как Двухпараметрическая модель Кимуры (или K2P модель), различает переходы (, т.е. от пурина к пурину, или , т.е. от пиримидина до пиримидина) и трансверсии (от пурина к пиримидину или наоборот). В первоначальном описании модели Кимурой α и β использовались для обозначения скоростей этих типов замен, но теперь более обычным явлением является установка скорости трансверсий на 1 и использование κ для обозначения отношения скорости перехода / трансверсии (как делается ниже). Модель K80 предполагает, что все базы одинаково часты ().

Матрица ставок со столбцами, соответствующими , , , и , соответственно.

Двухпараметрическое расстояние Кимуры определяется как:

куда п доля сайтов, показывающих переходные различия и q - это доля сайтов, демонстрирующих трансверсионные различия.

Модель К81 (Кимура 1981)

К81, Кимура Модель 1981 года,[3] часто называют Трехпараметрическая модель Кимуры (Модель K3P) или модель трех замещающих типов Кимуры (K3ST), имеет различные показатели для переходы и два различных типа трансверсии. Два трансверсия типы - это те, которые сохраняют слабые / сильные свойства нуклеотидов (т.е. и , обозначается символом [3]) и те, которые сохраняют амино / кето-свойства нуклеотидов (т. е. и , обозначается символом [3]). Модель K81 предполагает, что все равновесные базовые частоты равны (т. Е. ).

Матрица ставок со столбцами, соответствующими , , , и , соответственно.

Модель K81 используется гораздо реже, чем модель K80 (K2P) для оценки расстояний, и она редко является наиболее подходящей моделью в филогенетике максимального правдоподобия. Несмотря на эти факты, модель K81 продолжала изучаться в контексте математической филогенетики.[4][5][6] Одним из важных свойств является способность выполнять Преобразование Адамара предполагая, что паттерны сайтов были созданы на дереве с нуклеотидами, развивающимися по модели K81.[7][8][9]

При использовании в контексте филогенетики преобразование Адамара обеспечивает элегантное и полностью обратимое средство для вычисления ожидаемых частот паттернов сайтов с учетом набора длин ветвей (или наоборот). В отличие от многих расчетов максимального правдоподобия, относительные значения для , , и могут различаться по ветвям, и преобразование Адамара может даже предоставить свидетельство того, что данные не соответствуют дереву. Преобразование Адамара также можно комбинировать с широким спектром методов для учета неоднородности скорости между сайтами,[10] использование непрерывных распределений, а не дискретных приближений, обычно используемых в филогенетике максимального правдоподобия[11] (хотя нужно пожертвовать обратимостью преобразования Адамара, чтобы использовать определенные распределения неоднородности скорости между сайтами[10]).

Модель F81 (Felsenstein 1981)

F81, Фельзенштейна Модель 1981 года,[12] является расширением модели JC69, в которой базовые частоты могут изменяться от 0,25 ()

Матрица оценок:

Когда длина ветви, ν, измеряется в ожидаемом количестве изменений на сайт, тогда:

Модель HKY85 (Хасэгава, Кишино и Яно 1985)

HKY85, модель Hasegawa, Kishino и Yano 1985,[13] можно рассматривать как сочетание расширений, сделанных в моделях Kimura80 и Felsenstein81. А именно, различает скорость переходы и трансверсии (с использованием параметра κ), и он допускает неравные базовые частоты (). [Фельзенштейн описал аналогичную (но не эквивалентную) модель в 1984 году, используя другую параметризацию;[14] эта последняя модель упоминается как модель F84.[15] ]

Матрица ставок

Если выразить длину ветви, ν с точки зрения ожидаемого количества изменений на сайте, тогда:

а формулы для других комбинаций состояний можно получить, подставив соответствующие базовые частоты.

Модель Т92 (Тамура 1992)

Т92, модель Тамура 1992 г.,[16] представляет собой математический метод, разработанный для оценки количества замен нуклеотидов на сайт между двумя последовательностями ДНК путем расширения Двухпараметрический метод Кимуры (1980) к случаю, когда Содержание G + C предвзятость существует. Этот метод будет полезен, когда есть сильные смещения перехода-трансверсии и G + C-содержимого, как в случае Дрозофила митохондриальная ДНК.[16]

T92 включает в себя один составной параметр базовой частоты (также отметил )

Поскольку T92 перекликается с Правило второй четности Чаргаффа - спаривание нуклеотидов действительно имеет одинаковую частоту на одной цепи ДНК, G и C с одной стороны, и A и T с другой стороны - из этого следует, что четыре частоты основания могут быть выражены как функция от

и

Матрица ставок

Эволюционное расстояние между двумя последовательностями ДНК согласно этой модели определяется выражением

куда и является содержанием G + C ().

Модель TN93 (Тамура и Ней 1993)

TN93, Tamura и Nei Модель 1993 года,[17] различает два разных типа переход; т.е. () может иметь другую ставку, чем (). Трансверсии Предполагается, что все они происходят с одной и той же скоростью, но эта скорость может отличаться от обеих скоростей для переходов.

TN93 также допускает неравные базовые частоты ().

Матрица ставок

Модель GTR (Таваре 1986)

ОТО, Обобщенная обратимая во времени модель Таваре 1986,[18] является наиболее общим нейтральным, независимым, конечным узлом, обратимый во времени модель возможна. Впервые в общем виде он был описан Симон Таваре в 1986 г.[18]

Параметры ОТО состоят из вектора равновесной базовой частоты, , что дает частоту, с которой каждая база встречается на каждом сайте, и матрица скоростей

Где

- параметры скорости перехода.

Следовательно, ОТО (для четырех символов, как это часто бывает в филогенетике) требует 6 параметров скорости замещения, а также 4 параметра равновесной базовой частоты. Однако обычно это устраняется до 9 параметров плюс , общее количество замен в единицу времени. При замере времени в заменах (= 1) осталось всего 8 свободных параметров.

В общем, чтобы вычислить количество параметров, необходимо подсчитать количество элементов выше диагонали в матрице, то есть для n значений признаков на сайт. , а затем добавьте п для равновесных базовых частот и вычтите 1, потому что фиксированный. Один получает

Например, для аминокислотной последовательности (есть 20 «стандартных» аминокислот, которые составляют белки ), можно найти 209 параметров. Однако при изучении кодирующих областей генома чаще работают с кодон модель замещения (кодон состоит из трех оснований и кодирует одну аминокислоту в белке). Есть кодонов, но скорость переходов между кодонами, которые различаются более чем на одно основание, предполагается равной нулю. Следовательно, есть параметры.

Смотрите также

Рекомендации

  1. ^ Jukes TH, Cantor CR (1969). Эволюция белковых молекул. Нью-Йорк: Academic Press. С. 21–132.
  2. ^ Кимура М. (декабрь 1980 г.). «Простой метод оценки скорости эволюции замен оснований посредством сравнительных исследований нуклеотидных последовательностей». Журнал молекулярной эволюции. 16 (2): 111–20. Bibcode:1980JMolE..16..111K. Дои:10.1007 / BF01731581. PMID  7463489. S2CID  19528200.
  3. ^ а б c Кимура М. (январь 1981 г.). «Оценка эволюционных расстояний между гомологичными нуклеотидными последовательностями». Труды Национальной академии наук Соединенных Штатов Америки. 78 (1): 454–8. Bibcode:1981PNAS ... 78..454K. Дои:10.1073 / pnas.78.1.454. ЧВК  319072. PMID  6165991.
  4. ^ Башфорд Дж. Д., Джарвис П. Д., Самнер Дж. Г., Steel MA (2004-02-25). «Симметрия U (1) × U (1) × U (1) модели Кимуры 3ST и филогенетические ветвящиеся процессы». Журнал физики A: математические и общие. 37 (8): L81 – L89. arXiv:q-bio / 0310037. Дои:10.1088 / 0305-4470 / 37/8 / L01. S2CID  7845860.
  5. ^ Самнер Дж. Г., Чарльстон Массачусетс, Джермейн Л.С., Джарвис П.Д. (август 2008 г.). "Марковские инварианты, плетизмы и филогенетика". Журнал теоретической биологии. 253 (3): 601–15. Дои:10.1016 / j.jtbi.2008.04.001. PMID  18513747.
  6. ^ Самнер Дж. Г., Джарвис П. Д., Голландия, Б. Р. (декабрь 2014 г.). «Тензорный подход к инверсии филогенетических моделей на основе групп». BMC Эволюционная биология. 14 (1): 236. Дои:10.1186 / s12862-014-0236-6. ЧВК  4268818. PMID  25472897.
  7. ^ Hendy MD, Penny D, Steel MA (апрель 1994). «Дискретный анализ Фурье для эволюционных деревьев». Труды Национальной академии наук Соединенных Штатов Америки. 91 (8): 3339–43. Bibcode:1994PNAS ... 91.3339H. Дои:10.1073 / пнас.91.8.3339. ЧВК  43572. PMID  8159749.
  8. ^ Хенди, доктор медицины (2005). «Спряжение Адамара: аналитический инструмент для филогенетики». В Gascuel O (ред.). Математика эволюции и филогении. Издательство Оксфордского университета. С. 143–177. ISBN  978-0198566106.
  9. ^ Hendy MD, Snir S (июль 2008 г.). «Сопряжение Адамара для 3ST модели Кимуры: комбинаторное доказательство с использованием наборов путей». IEEE / ACM Transactions по вычислительной биологии и биоинформатике. 5 (3): 461–71. Дои:10.1109 / TCBB.2007.70227. PMID  18670048. S2CID  20633916.
  10. ^ а б Уодделл П.Дж., Пенни Д., Мур Т. (август 1997 г.). «Сопряжения Адамара и моделирование эволюции последовательностей с неравными скоростями по сайтам». Молекулярная филогенетика и эволюция. 8 (1): 33–50. Дои:10.1006 / mpev.1997.0405. PMID  9242594.
  11. ^ Ян З (сентябрь 1994 г.). «Филогенетическая оценка максимального правдоподобия из последовательностей ДНК с переменной скоростью по сайтам: приблизительные методы». Журнал молекулярной эволюции. 39 (3): 306–14. Bibcode:1994JMolE..39..306Y. CiteSeerX  10.1.1.305.951. Дои:10.1007 / BF00160154. PMID  7932792. S2CID  17911050.
  12. ^ Фельзенштейн Дж (1981). «Эволюционные деревья из последовательностей ДНК: подход максимального правдоподобия». Журнал молекулярной эволюции. 17 (6): 368–76. Bibcode:1981JMolE..17..368F. Дои:10.1007 / BF01734359. PMID  7288891. S2CID  8024924.
  13. ^ Хасэгава М, Кишино Х, Яно Т (1985). «Датирование расщепления человека и обезьяны по молекулярным часам митохондриальной ДНК». Журнал молекулярной эволюции. 22 (2): 160–74. Bibcode:1985JMolE..22..160H. Дои:10.1007 / BF02101694. PMID  3934395. S2CID  25554168.
  14. ^ Кишино Х., Хасегава М. (август 1989 г.). «Оценка максимального правдоподобия топологий эволюционного дерева на основе данных последовательности ДНК и порядка ветвления в гоминоиде». Журнал молекулярной эволюции. 29 (2): 170–9. Bibcode:1989JMolE..29..170K. Дои:10.1007 / BF02100115. PMID  2509717. S2CID  8045061.
  15. ^ Фельзенштейн Дж, Черчилль Г.А. (январь 1996 г.). «Подход с использованием скрытой марковской модели к изменению скорости эволюции сайтов». Молекулярная биология и эволюция. 13 (1): 93–104. Дои:10.1093 / oxfordjournals.molbev.a025575. PMID  8583911.
  16. ^ а б Тамура К. (июль 1992 г.). «Оценка количества замен нуклеотидов при сильных смещениях трансверсии перехода и содержания G + C». Молекулярная биология и эволюция. 9 (4): 678–87. Дои:10.1093 / oxfordjournals.molbev.a040752. PMID  1630306.
  17. ^ Тамура К., Ней М. (май 1993 г.). «Оценка количества нуклеотидных замен в контрольной области митохондриальной ДНК у человека и шимпанзе». Молекулярная биология и эволюция. 10 (3): 512–26. Дои:10.1093 / oxfordjournals.molbev.a040023. PMID  8336541.
  18. ^ а б Таваре С (1986). «Некоторые вероятностные и статистические проблемы анализа последовательностей ДНК» (PDF). Лекции по математике в естественных науках. 17: 57–86.

дальнейшее чтение

  • Гу X, Ли WH (сентябрь 1992 г.). «Более высокие показатели замены аминокислот у грызунов, чем у человека». Молекулярная филогенетика и эволюция. 1 (3): 211–4. Дои:10.1016 / 1055-7903 (92) 90017-Б. PMID  1342937.
  • Ли У.Х., Эллсуорт Д.Л., Крушкал Дж., Чанг Б.Х., Хьюетт-Эммет Д. (февраль 1996 г.). «Скорость замены нуклеотидов у приматов и грызунов и гипотеза эффекта времени поколения». Молекулярная филогенетика и эволюция. 5 (1): 182–7. Дои:10.1006 / mpev.1996.0012. PMID  8673286.

внешняя ссылка