Модели эволюции ДНК - Models of DNA evolution

Ряд различных Марков модели эволюции последовательности ДНК Были предложены. Эти модели замещения различаются параметрами, используемыми для описания скорости, с которой нуклеотид заменяет другой в процессе эволюции. Эти модели часто используются в молекулярный филогенетический анализ. В частности, они используются при расчете вероятности дерева (в Байесовский и максимальная вероятность подходы к оценке деревьев), и они используются для оценки эволюционного расстояния между последовательностями на основе наблюдаемых различий между последовательностями.

Вступление

Эти модели являются феноменологическим описанием эволюции ДНК как цепочки из четырех дискретных состояний. Эти марковские модели не описывают явным образом механизм мутации или действие естественного отбора. Скорее они описывают относительную скорость различных изменений. Например, мутационные предубеждения и очищающий отбор в пользу консервативных изменений, вероятно, обе стороны ответственны за относительно высокую скорость переходы в сравнении с трансверсии в развивающихся последовательностях. Однако модель Кимуры (K80), описанная ниже, пытается только уловить эффект обеих сил в параметре, который отражает относительную скорость переходов к трансверсиям.

Эволюционный анализ последовательностей проводится в самых разных временных масштабах. Таким образом, эти модели удобно выражать в терминах мгновенных скоростей изменения между различными состояниями ( Q матрицы ниже). Если нам дано начальное (наследственное) состояние в одной позиции, модель Q матрицу и длину ветви, выражающую ожидаемое количество изменений, которые должны произойти с момента предка, то мы можем вывести вероятность того, что дочерняя последовательность будет иметь каждое из четырех состояний. Математические детали этого преобразования из матрицы скорости в матрицу вероятности описаны в раздел математики моделей замещения из модель замещения страница. Выражая модели в терминах мгновенных скоростей изменения, мы можем избежать оценки большого количества параметров для каждой ветви филогенетического дерева (или каждого сравнения, если анализ включает множество парных сравнений последовательностей).

Модели, описанные на этой странице, описывают эволюцию одного сайта в рамках набора последовательностей. Они часто используются для анализа эволюции всего локус делая упрощающее предположение, что разные сайты развиваются независимо и одинаково распределены. Это предположение может быть оправданным, если предполагается, что сайты развиваются. нейтрально. Если основной эффект естественного отбора на эволюцию последовательностей заключается в ограничении некоторых сайтов, то можно использовать модели межсайтовой гетерогенности по скорости. Этот подход позволяет оценить только одну матрицу относительных скоростей замещения и другой набор параметров, описывающих дисперсию общей скорости замещения по сайтам.

Эволюция ДНК как цепь Маркова с непрерывным временем

Цепи Маркова с непрерывным временем

Непрерывное время Цепи Маркова имеют обычные матрицы перехода, которые, кроме того, параметризованы по времени, ${displaystyle t}$ . В частности, если ${displaystyle E_ {1}, E_ {2}, E_ {3}, E_ {4}}$ состояния, то матрица перехода

{displaystyle P (t) = {ig (} P_ {ij} (t) {ig)}}

где каждая отдельная запись,

{displaystyle P_ {ij} (t)}

относится к вероятности того, что состояние

{displaystyle E_ {i}}

изменится на состояние

{displaystyle E_ {j}}

во время

{displaystyle t}

.

Пример: Мы хотели бы смоделировать процесс замены в последовательностях ДНК (т.е. Юкс – Кантор, Кимура, и Т. Д.) в режиме непрерывного времени. Соответствующие матрицы переходов будут выглядеть так:

{displaystyle P (t) = {egin {pmatrix} p_ {mathrm {AA}} (t) & p_ {mathrm {AG}} (t) & p_ {mathrm {AC}} (t) & p_ {mathrm {AT}} ( t) p_ {mathrm {GA}} (t) & p_ {mathrm {GG}} (t) & p_ {mathrm {GC}} (t) & p_ {mathrm {GT}} (t) p_ {mathrm {CA} } (t) & p_ {mathrm {CG}} (t) & p_ {mathrm {CC}} (t) & p_ {mathrm {CT}} (t) p_ {mathrm {TA}} (t) & p_ {mathrm {TG }} (t) & p_ {mathrm {TC}} (t) & p_ {mathrm {TT}} (t) end {pmatrix}}}

где верхний левый и нижний правый блоки 2 × 2 соответствуют вероятности перехода а верхний правый и нижний левый блоки 2 × 2 соответствуют вероятности трансверсии.

Предположение: Если когда-нибудь ${displaystyle t_ {0}}$ , цепь Маркова находится в состоянии ${displaystyle E_ {i}}$ , то вероятность того, что в момент ${displaystyle t_ {0} + t}$ , он будет в состоянии ${displaystyle E_ {j}}$ зависит только от ${displaystyle i}$ , ${displaystyle j}$ и ${displaystyle t}$ . Затем это позволяет нам записать эту вероятность как ${displaystyle p_ {ij} (t)}$ .

Теорема: Матрицы переходов с непрерывным временем удовлетворяют:

{displaystyle P (t + au) = P (t) P (au)}

Примечание: Здесь возможна путаница между двумя значениями слова переход. (i) В контексте Цепи Маркова, переход - это общий термин для перехода между двумя состояниями. (ii) В контексте нуклеотидные изменения в последовательностях ДНК, переход - это особый термин для обмена между двумя пуринами (A ↔ G) или двумя пиримидинами (C ↔ T) (дополнительные сведения см. в статье о переходы в генетике ). Напротив, обмен между одним пурином и одним пиримидином называется трансверсия.

Вывод динамики замещения

Рассмотрим последовательность ДНК фиксированной длины. м эволюционирует во времени за счет замены базы. Предположим, что процессы, за которыми следуют м сайты марковски независимы, одинаково распределены и этот процесс постоянен во времени. Для конкретного сайта пусть

{displaystyle {mathcal {E}} = {A ,, G ,, C ,, T}}

- набор возможных состояний сайта, и

{displaystyle mathbf {p} (t) = (p_ {A} (t) ,, p_ {G} (t) ,, p_ {C} (t) ,, p_ {T} (t))}

их соответствующие вероятности во время ${displaystyle t}$ . Для двух разных ${displaystyle x, yin {mathcal {E}}}$ , позволять ${displaystyle mu _ {xy}}$ скорость перехода из состояния ${displaystyle x}$ заявить ${displaystyle y}$ . Аналогично для любого ${displaystyle x}$ , пусть общая скорость изменения от ${displaystyle x}$ быть

{displaystyle mu _ {x} = sum _ {yeq x} mu _ {xy} ,.}

Изменения в распределении вероятностей ${displaystyle p_ {A} (t)}$ за небольшие промежутки времени ${displaystyle Delta t}$ даны

{displaystyle p_ {A} (t + Delta t) = p_ {A} (t) -p_ {A} (t) mu _ {A} Delta t + sum _ {xeq A} p_ {x} (t) mu _ {xA} Дельта t ,.}

Другими словами (выражаясь частотным языком), частота ${displaystyle A}$ вовремя ${displaystyle t + Delta t}$ равна частоте во время ${displaystyle t}$ минус частота потерял ${displaystyle A}$ плюс частота Вновь созданный ${displaystyle A}$ с.

Аналогично для вероятностей ${displaystyle p_ {G} (t)}$ , ${displaystyle p_ {C} (t)}$ и ${displaystyle p_ {T} (t)}$ . Эти уравнения можно компактно записать как

{displaystyle mathbf {p} (t + Delta t) = mathbf {p} (t) + mathbf {p} (t) QDelta t ,,}

куда

{displaystyle Q = {egin {pmatrix} -mu _ {A} & mu _ {AG} & mu _ {AC} & mu _ {AT} mu _ {GA} & - mu _ {G} & mu _ {GC} & mu _ {GT} mu _ {CA} & mu _ {CG} & - mu _ {C} & mu _ {CT} mu _ {TA} & mu _ {TG} & mu _ {TC} & - mu _ {T} конец {pmatrix}}}

известен как матрица ставок. Обратите внимание, что по определению сумма записей в каждой строке ${displaystyle Q}$ равно нулю. Следует, что

{displaystyle mathbf {p} '(t) = mathbf {p} (t) Q ,.}

Для стационарный процесс, куда ${displaystyle Q}$ не зависит от времени т, это дифференциальное уравнение можно решить. Первый,

{displaystyle P (t) = exp (tQ),}

куда ${displaystyle exp (tQ)}$ обозначает экспоненциальный матрицы ${displaystyle tQ}$ . Как результат,

{displaystyle mathbf {p} (t) = mathbf {p} (0) P (t) = mathbf {p} (0) exp (tQ) ,.}

Эргодичность

Если цепь Маркова несводимый, т.е. если всегда можно выйти из состояния ${displaystyle x}$ в состояние ${displaystyle y}$ (возможно в несколько этапов), то это тоже эргодический. В результате он имеет уникальный стационарное распределение ${displaystyle {oldsymbol {pi}} = {pi _ {x} ,, xin {mathcal {E}}}}$ , куда ${displaystyle pi _ {x}}$ соответствует доле времени, проведенного в состоянии ${displaystyle x}$ после того, как цепь Маркова проработает бесконечное количество времени. В эволюции ДНК, в предположении общего процесса для каждого сайта, стационарные частоты ${displaystyle pi _ {A} ,, pi _ {G} ,, pi _ {C} ,, pi _ {T}}$ соответствуют равновесным базовым составам. Действительно, отметим, что, поскольку стационарное распределение ${displaystyle {oldsymbol {pi}}}$ удовлетворяет ${displaystyle {oldsymbol {pi}} Q = 0}$ , мы видим, что когда текущее распределение ${displaystyle mathbf {p} (t)}$ это стационарное распределение ${displaystyle {oldsymbol {pi}}}$ у нас есть

{displaystyle {mathbf {p} '(t) = mathbf {p} (t) Q = {oldsymbol {pi}}} Q = 0 ,.}

Другими словами, частоты ${displaystyle p_ {A} (t) ,, p_ {G} (t) ,, p_ {C} (t) ,, p_ {T} (t)}$ не изменяй.

Обратимость времени

Определение: Стационарный марковский процесс есть обратимый по времени если (в установившемся состоянии) величина изменения из состояния ${displaystyle x}$ к ${displaystyle y}$ равно сумме изменения от ${displaystyle y}$ к ${displaystyle x}$ , (хотя два состояния могут возникать с разными частотами). Это означает, что:

{displaystyle pi _ {x} mu _ {xy} = pi _ {y} mu _ {yx}}

Не все стационарные процессы обратимы, однако наиболее часто используемые модели эволюции ДНК предполагают обратимость во времени, что считается разумным предположением.

В предположении обратимости времени пусть ${displaystyle s_ {xy} = mu _ {xy} / pi _ {y}}$ , то легко увидеть, что:

{displaystyle s_ {xy} = s_ {yx}}

Определение Симметричный член ${displaystyle s_ {xy}}$ называется возможность обмена между штатами ${displaystyle x}$ и ${displaystyle y}$ . Другими словами, ${displaystyle s_ {xy}}$ - доля частоты состояния ${displaystyle x}$ это результат переходов из состояния ${displaystyle y}$ заявить ${displaystyle x}$ .

Следствие 12 недиагональных элементов матрицы ставок, ${displaystyle Q}$ (обратите внимание, что недиагональные записи определяют диагональные записи, так как строки ${displaystyle Q}$ сумма к нулю) полностью определяется 9 числами; это: 6 членов взаимозаменяемости и 3 стационарные частоты ${displaystyle pi _ {x}}$ , (поскольку сумма стационарных частот равна 1).

Масштабирование длин ветвей

Сравнивая существующие последовательности, можно определить степень расхождения последовательностей. Это необработанное измерение расхождения предоставляет информацию о количестве изменений, произошедших на пути, разделяющем последовательности. Простой подсчет различий ( Расстояние Хэмминга ) между последовательностями часто будет недооценивать количество замен из-за множественных совпадений (см. гомоплазия ). Пытаться оценить точное количество произошедших изменений сложно и обычно не требуется. Вместо этого длина ветвей (и длина пути) в филогенетическом анализе обычно выражается в ожидаемом количестве изменений на сайт. Длина пути - это произведение продолжительности пути во времени и средней скорости замен. Хотя их продукт можно оценить, скорость и время невозможно определить по расхождению последовательностей.

Описание матриц ставок на этой странице точно отражает относительную величину различных замен, но эти матрицы ставок нет масштабируется так, что длина ветви 1 дает одно ожидаемое изменение. Это масштабирование может быть выполнено путем умножения каждого элемента матрицы на один и тот же коэффициент или просто путем масштабирования длин ветвей. Если мы используем β для обозначения коэффициента масштабирования и ν для обозначения длины ветви, измеренной в ожидаемом количестве замен на сайт, тогда βν используется в приведенных ниже формулах вероятности перехода вместо μт. Обратите внимание, что ν - это параметр, который оценивается на основе данных и называется длиной ветви, а β - это просто число, которое может быть вычислено из матрицы скорости (это не отдельный бесплатный параметр).

Значение β можно найти, установив ожидаемую скорость потока состояний равной 1. Диагональные элементы матрицы скорости ( Q matrix) представляют -1 кратную скорость выхода из каждого состояния. За обратимый во времени мы знаем частоты равновесных состояний (это просто π_я значение параметра для состояния я). Таким образом, мы можем найти ожидаемую скорость изменения, вычислив сумму потоков из каждого состояния, взвешенную по доле сайтов, которые, как ожидается, будут в этом классе. Установка β равной величине, обратной этой сумме, гарантирует, что масштабируемый процесс будет иметь ожидаемый поток 1:

{displaystyle eta = 1 / left (-sum _ {i} pi _ {i} mu _ {ii} ight)}

Например, в Jukes-Cantor коэффициент масштабирования будет 4 / (3 мкм) потому что скорость выхода из каждого состояния 3 мкм / 4.

Наиболее распространенные модели эволюции ДНК

Модель JC69 (Джукс и Кантор, 1969)

JC69, Джукс и Кантор Модель 1969 г.,^[1] самый простой модель замещения. Есть несколько предположений. Предполагает равные базовые частоты ${displaystyle left (pi _ {A} = pi _ {G} = pi _ {C} = pi _ {T} = {1 over 4} ight)}$ и равный частота мутаций. Таким образом, единственный параметр этой модели - ${displaystyle mu}$ , общий коэффициент замещения. Как упоминалось ранее, эта переменная становится постоянной, когда мы нормализуем среднюю скорость до 1.

{displaystyle Q = {egin {pmatrix} {*} & {mu over 4} & {mu over 4} & {mu over 4} {mu over 4} & {*} & {mu over 4} & {mu over 4} {mu over 4} & {mu over 4} & {*} & {mu over 4} {mu over 4} & {mu over 4} & {mu over 4} & {*} end {pmatrix} }}

Вероятность

{displaystyle P_ {ij}}

перехода из исходного состояния

{displaystyle i}

до конечного состояния

{displaystyle j}

как функция длины ветви (

{displaystyle u}

) для JC69. Красная кривая: состояния нуклеотидов

{displaystyle i}

и

{displaystyle j}

разные. Синяя кривая: начальное и конечное состояния одинаковы. Спустя долгое время вероятности стремятся к частотам равновесия нуклеотидов (0,25: пунктирная линия).

{displaystyle P = {egin {pmatrix} {{1 over 4} + {3 over 4} e ^ {- tmu}} & {{1 over 4} - {1 over 4} e ^ {- tmu}} & { {1 больше 4} - {1 больше 4} e ^ {- tmu}} & {{1 больше 4} - {1 больше 4} e ^ {- tmu}} {{1 больше 4} - {1 больше 4 4} e ^ {- tmu}} & {{1 больше 4} + {3 больше 4} e ^ {- tmu}} & {{1 больше 4} - {1 больше 4} e ^ {- tmu}} & {{1 больше 4} - {1 больше 4} e ^ {- tmu}} {{1 больше 4} - {1 больше 4} e ^ {- tmu}} & {{1 больше 4} - {1 больше 4} e ^ {- tmu}} & {{1 больше 4} + {3 больше 4} e ^ {- tmu}} & {{1 больше 4} - {1 больше 4} e ^ {- tmu}} {{1 больше 4} - {1 больше 4} e ^ {- tmu}} & {{1 больше 4} - {1 больше 4} e ^ {- tmu}} & {{1 больше 4} - { 1 больше 4} e ^ {- tmu}} & {{1 больше 4} + {3 больше 4} e ^ {- tmu}} end {pmatrix}}}

Когда длина ветки, ${displaystyle u}$ , измеряется в ожидаемом количестве изменений на сайте, тогда:

{displaystyle P_ {ij} (u) = left {{egin {array} {cc} {1 over 4} + {3 over 4} e ^ {- 4u / 3} & {mbox {if}} i = j {1 больше 4} - {1 больше 4} e ^ {- 4u / 3} & {mbox {if}} ieq jend {array}} ight.}

Стоит отметить, что ${displaystyle u = {3 over 4} tmu = ({mu over 4} + {mu over 4} + {mu over 4}) t}$ что обозначает сумму любого столбца (или строки) матрицы ${displaystyle Q}$ умноженное на время и, таким образом, означает ожидаемое количество замен во времени ${displaystyle t}$ (длительность ветки) для каждого конкретного сайта (на сайт), когда скорость замещения равна ${displaystyle mu}$ .

Учитывая пропорцию ${displaystyle p}$ сайтов, которые различаются между двумя последовательностями, оценка Джукса-Кантора эволюционного расстояния (с точки зрения ожидаемого числа изменений) между двумя последовательностями дается выражением

{displaystyle {hat {d}} = - {3 over 4} ln ({1- {4 over 3} p}) = {hat {u}}}

В ${displaystyle p}$ в этой формуле часто называют ${displaystyle p}$ -расстояние. Это достаточная статистика для расчета поправки на расстояние Джукса-Кантора, но этого недостаточно для расчета эволюционного расстояния в более сложных моделях, которые следуют ниже (также обратите внимание, что ${displaystyle p}$ используемый в последующих формулах не идентичен " ${displaystyle p}$ -расстояние").

Модель K80 (Кимура 1980)

К80, Кимура Модель 1980 года,^[2] часто упоминается как Двухпараметрическая модель Кимуры (или K2P модель), различает переходы ( ${displaystyle Aleftrightarrow G}$ , т.е. от пурина к пурину, или ${displaystyle Cleftrightarrow T}$ , т.е. от пиримидина до пиримидина) и трансверсии (от пурина к пиримидину или наоборот). В первоначальном описании модели Кимурой α и β использовались для обозначения скоростей этих типов замен, но теперь более обычным явлением является установка скорости трансверсий на 1 и использование κ для обозначения отношения скорости перехода / трансверсии (как делается ниже). Модель K80 предполагает, что все базы одинаково часты ( ${displaystyle pi _ {A} = pi _ {G} = pi _ {C} = pi _ {T} = 0,25}$ ).

Матрица ставок ${displaystyle Q = {egin {pmatrix} {*} & {kappa} & {1} & {1} {kappa} & {*} & {1} & {1} {1} & {1} & { *} & {каппа} {1} & {1} & {каппа} & {*} конец {pmatrix}}}$ со столбцами, соответствующими ${displaystyle A}$ , ${displaystyle G}$ , ${displaystyle C}$ , и ${displaystyle T}$ , соответственно.

Двухпараметрическое расстояние Кимуры определяется как:

{displaystyle K = - {1 больше 2} ln ((1-2p-q) {sqrt {1-2q}})}

куда п доля сайтов, показывающих переходные различия и q - это доля сайтов, демонстрирующих трансверсионные различия.

Модель К81 (Кимура 1981)

К81, Кимура Модель 1981 года,^[3] часто называют Трехпараметрическая модель Кимуры (Модель K3P) или модель трех замещающих типов Кимуры (K3ST), имеет различные показатели для переходы и два различных типа трансверсии. Два трансверсия типы - это те, которые сохраняют слабые / сильные свойства нуклеотидов (т.е. ${displaystyle Aleftrightarrow T}$ и ${displaystyle Cleftrightarrow G}$ , обозначается символом ${displaystyle gamma}$ ^[3]) и те, которые сохраняют амино / кето-свойства нуклеотидов (т. е. ${displaystyle Aleftrightarrow C}$ и ${displaystyle Gleftrightarrow T}$ , обозначается символом ${displaystyle eta}$ ^[3]). Модель K81 предполагает, что все равновесные базовые частоты равны (т. Е. ${displaystyle pi _ {A} = pi _ {G} = pi _ {C} = pi _ {T} = 0,25}$ ).

Матрица ставок ${displaystyle Q = {egin {pmatrix} {*} & {alpha} & {eta} & {gamma} {alpha} & {*} & {gamma} & {eta} {eta} & {gamma} & { *} & {alpha} {gamma} & {eta} & {alpha} & {*} end {pmatrix}}}$ со столбцами, соответствующими ${displaystyle A}$ , ${displaystyle G}$ , ${displaystyle C}$ , и ${displaystyle T}$ , соответственно.

Модель K81 используется гораздо реже, чем модель K80 (K2P) для оценки расстояний, и она редко является наиболее подходящей моделью в филогенетике максимального правдоподобия. Несмотря на эти факты, модель K81 продолжала изучаться в контексте математической филогенетики.^[4]^[5]^[6] Одним из важных свойств является способность выполнять Преобразование Адамара предполагая, что паттерны сайтов были созданы на дереве с нуклеотидами, развивающимися по модели K81.^[7]^[8]^[9]

При использовании в контексте филогенетики преобразование Адамара обеспечивает элегантное и полностью обратимое средство для вычисления ожидаемых частот паттернов сайтов с учетом набора длин ветвей (или наоборот). В отличие от многих расчетов максимального правдоподобия, относительные значения для ${displaystyle alpha}$ , ${displaystyle eta}$ , и ${displaystyle gamma}$ могут различаться по ветвям, и преобразование Адамара может даже предоставить свидетельство того, что данные не соответствуют дереву. Преобразование Адамара также можно комбинировать с широким спектром методов для учета неоднородности скорости между сайтами,^[10] использование непрерывных распределений, а не дискретных приближений, обычно используемых в филогенетике максимального правдоподобия^[11] (хотя нужно пожертвовать обратимостью преобразования Адамара, чтобы использовать определенные распределения неоднородности скорости между сайтами^[10]).

Модель F81 (Felsenstein 1981)

F81, Фельзенштейна Модель 1981 года,^[12] является расширением модели JC69, в которой базовые частоты могут изменяться от 0,25 ( ${displaystyle pi _ {A} eq pi _ {G} eq pi _ {C} eq pi _ {T}}$ )

Матрица оценок:

{displaystyle Q = {egin {pmatrix} {*} & {pi _ {G}} & {pi _ {C}} & {pi _ {T}} {pi _ {A}} & {*} & { pi _ {C}} & {pi _ {T}} {pi _ {A}} & {pi _ {G}} & {*} & {pi _ {T}} {pi _ {A}} & {pi _ {G}} & {pi _ {C}} & {*} конец {pmatrix}}}

Когда длина ветви, ν, измеряется в ожидаемом количестве изменений на сайт, тогда:

{displaystyle eta = 1 / (1-pi _ {A} ^ {2} -pi _ {C} ^ {2} -pi _ {G} ^ {2} -pi _ {T} ^ {2})}

{displaystyle P_ {ij} (u) = left {{egin {array} {cc} e ^ {- eta u} + pi _ {j} left (1-e ^ {- eta u} ight) & {mbox { if}} i = j pi _ {j} left (1-e ^ {- eta u} ight) & {mbox {if}} ieq jend {array}} ight.}

Модель HKY85 (Хасэгава, Кишино и Яно 1985)

HKY85, модель Hasegawa, Kishino и Yano 1985,^[13] можно рассматривать как сочетание расширений, сделанных в моделях Kimura80 и Felsenstein81. А именно, различает скорость переходы и трансверсии (с использованием параметра κ), и он допускает неравные базовые частоты ( ${displaystyle pi _ {A} eq pi _ {G} eq pi _ {C} eq pi _ {T}}$ ). [Фельзенштейн описал аналогичную (но не эквивалентную) модель в 1984 году, используя другую параметризацию;^[14] эта последняя модель упоминается как модель F84.^[15] ]

Матрица ставок ${displaystyle Q = {egin {pmatrix} {*} & {kappa pi _ {G}} & {pi _ {C}} & {pi _ {T}} {kappa pi _ {A}} & {*} & {pi _ {C}} & {pi _ {T}} {pi _ {A}} & {pi _ {G}} & {*} & {kappa pi _ {T}} {pi _ { A}} & {pi _ {G}} & {kappa pi _ {C}} & {*} конец {pmatrix}}}$

Если выразить длину ветви, ν с точки зрения ожидаемого количества изменений на сайте, тогда:

{displaystyle eta = {frac {1} {2 (pi _ {A} + pi _ {G}) (pi _ {C} + pi _ {T}) + 2kappa [(pi _ {A} pi _ {G }) + (пи _ {C} pi _ {T})]}}}

{displaystyle P_ {AA} (u, kappa, pi) = left [pi _ {A} left (pi _ {A} + pi _ {G} + (pi _ {C} + pi _ {T}) e ^ {- eta u} ight) + pi _ {G} e ^ {- (1+ (pi _ {A} + pi _ {G}) (kappa -1.0)) eta u} ight] / (pi _ {A } + pi _ {G})}

{displaystyle P_ {AC} (u, kappa, pi) = pi _ {C} left (1.0-e ^ {- eta u} ight)}

{displaystyle P_ {AG} (u, kappa, pi) = left [pi _ {G} left (pi _ {A} + pi _ {G} + (pi _ {C} + pi _ {T}) e ^ {- eta u} ight) -pi _ {G} e ^ {- (1+ (pi _ {A} + pi _ {G}) (kappa -1.0)) eta u} ight] / left (pi _ { A} + pi _ {G} ight)}

{displaystyle P_ {AT} (u, kappa, pi) = pi _ {T} left (1.0-e ^ {- eta u} ight)}

а формулы для других комбинаций состояний можно получить, подставив соответствующие базовые частоты.

Модель Т92 (Тамура 1992)

Т92, модель Тамура 1992 г.,^[16] представляет собой математический метод, разработанный для оценки количества замен нуклеотидов на сайт между двумя последовательностями ДНК путем расширения Двухпараметрический метод Кимуры (1980) к случаю, когда Содержание G + C предвзятость существует. Этот метод будет полезен, когда есть сильные смещения перехода-трансверсии и G + C-содержимого, как в случае Дрозофила митохондриальная ДНК.^[16]

T92 включает в себя один составной параметр базовой частоты ${displaystyle heta in (0,1)}$ (также отметил ${displaystyle pi _ {GC}}$ ) ${displaystyle = pi _ {G} + pi _ {C} = 1- (pi _ {A} + pi _ {T})}$

Поскольку T92 перекликается с Правило второй четности Чаргаффа - спаривание нуклеотидов действительно имеет одинаковую частоту на одной цепи ДНК, G и C с одной стороны, и A и T с другой стороны - из этого следует, что четыре частоты основания могут быть выражены как функция от ${displaystyle pi _ {GC}}$

${displaystyle pi _ {G} = pi _ {C} = {pi _ {GC} over 2}}$ и ${displaystyle pi _ {A} = pi _ {T} = {(1-pi _ {GC}) больше 2}}$

Матрица ставок ${displaystyle Q = {egin {pmatrix} {*} & {kappa pi _ {GC} / 2} & {pi _ {GC} / 2} & {(1-pi _ {GC}) / 2} {kappa (1-pi _ {GC}) / 2} & {*} & {pi _ {GC} / 2} & {(1-pi _ {GC}) / 2} {(1-pi _ {GC} ) / 2} & {pi _ {GC} / 2} & {*} & {каппа (1-pi _ {GC}) / 2} {(1-pi _ {GC}) / 2} & {pi _ {GC} / 2} & {kappa pi _ {GC} / 2} & {*} конец {pmatrix}}}$

Эволюционное расстояние между двумя последовательностями ДНК согласно этой модели определяется выражением

{displaystyle d = -hln (1- {p over h} -q) - {1 over 2} (1-h) ln (1-2q)}

куда ${displaystyle h = 2 heta (1- heta)}$ и ${displaystyle heta}$ является содержанием G + C ( ${displaystyle pi _ {GC} = pi _ {G} + pi _ {C}}$ ).

Модель TN93 (Тамура и Ней 1993)

TN93, Tamura и Nei Модель 1993 года,^[17] различает два разных типа переход; т.е. ( ${displaystyle Aleftrightarrow G}$ ) может иметь другую ставку, чем ( ${displaystyle Cleftrightarrow T}$ ). Трансверсии Предполагается, что все они происходят с одной и той же скоростью, но эта скорость может отличаться от обеих скоростей для переходов.

TN93 также допускает неравные базовые частоты ( ${displaystyle pi _ {A} eq pi _ {G} eq pi _ {C} eq pi _ {T}}$ ).

Матрица ставок ${displaystyle Q = {egin {pmatrix} {*} & {kappa _ {1} pi _ {G}} & {pi _ {C}} & {pi _ {T}} {kappa _ {1} pi _ {A}} & {*} & {pi _ {C}} & {pi _ {T}} {pi _ {A}} & {pi _ {G}} & {*} & {kappa _ {2 } pi _ {T}} {pi _ {A}} & {pi _ {G}} & {kappa _ {2} pi _ {C}} & {*} конец {pmatrix}}}$

Модель GTR (Таваре 1986)

ОТО, Обобщенная обратимая во времени модель Таваре 1986,^[18] является наиболее общим нейтральным, независимым, конечным узлом, обратимый во времени модель возможна. Впервые в общем виде он был описан Симон Таваре в 1986 г.^[18]

Параметры ОТО состоят из вектора равновесной базовой частоты, ${displaystyle Pi = (pi _ {A}, pi _ {G}, pi _ {C}, pi _ {T})}$ , что дает частоту, с которой каждая база встречается на каждом сайте, и матрица скоростей

{displaystyle Q = {egin {pmatrix} {- (alpha pi _ {G} + eta pi _ {C} + gamma pi _ {T})} & {alpha pi _ {G}} & {eta pi _ {C }} & {gamma pi _ {T}} {alpha pi _ {A}} & {- (alpha pi _ {A} + delta pi _ {C} + epsilon pi _ {T})} & {delta pi _ {C}} & {epsilon pi _ {T}} {eta pi _ {A}} & {delta pi _ {G}} & {- (eta pi _ {A} + delta pi _ {G} + eta pi _ {T})} & {eta pi _ {T}} {gamma pi _ {A}} & {epsilon pi _ {G}} & {eta pi _ {C}} & {- (gamma pi _ {A} + epsilon pi _ {G} + eta pi _ {C})} конец {pmatrix}}}

Где

${displaystyle {egin {выровнен} альфа = r (стрелка G) = r (стрелка A) eta = r (стрелка C) = r (стрелка A) gamma = r (стрелка T) = r (стрелка A) delta = r (Стрелка C) = r (Стрелка G) epsilon = r (Стрелка T) = r (Стрелка G) eta = r (Стрелка T) = r (Стрелка C) конец {выровнено}}}$

- параметры скорости перехода.

Следовательно, ОТО (для четырех символов, как это часто бывает в филогенетике) требует 6 параметров скорости замещения, а также 4 параметра равновесной базовой частоты. Однако обычно это устраняется до 9 параметров плюс ${displaystyle mu}$ , общее количество замен в единицу времени. При замере времени в заменах ( ${displaystyle mu}$ = 1) осталось всего 8 свободных параметров.

В общем, чтобы вычислить количество параметров, необходимо подсчитать количество элементов выше диагонали в матрице, то есть для n значений признаков на сайт. ${displaystyle {{n ^ {2} -n} больше 2}}$ , а затем добавьте п для равновесных базовых частот и вычтите 1, потому что ${displaystyle mu}$ фиксированный. Один получает

{displaystyle {{n ^ {2} -n} over 2} + n-1 = {1 over 2} n ^ {2} + {1 over 2} n-1.}

Например, для аминокислотной последовательности (есть 20 «стандартных» аминокислот, которые составляют белки ), можно найти 209 параметров. Однако при изучении кодирующих областей генома чаще работают с кодон модель замещения (кодон состоит из трех оснований и кодирует одну аминокислоту в белке). Есть ${displaystyle 4 ^ {3} = 64}$ кодонов, но скорость переходов между кодонами, которые различаются более чем на одно основание, предполагается равной нулю. Следовательно, есть ${displaystyle {{20 imes 19 imes 3} больше 2} + 64-1 = 633}$ параметры.

Смотрите также

внешняя ссылка

DAWG: сборка ДНК с пробелами - бесплатное программное обеспечение для моделирования эволюции последовательностей

[JC69-1] Jukes TH, Cantor CR (1969). Эволюция белковых молекул. Нью-Йорк: Academic Press. С. 21–132.

[K80-2] Кимура М. (декабрь 1980 г.). «Простой метод оценки скорости эволюции замен оснований посредством сравнительных исследований нуклеотидных последовательностей». Журнал молекулярной эволюции. 16 (2): 111–20. Bibcode:1980JMolE..16..111K. Дои:10.1007 / BF01731581. PMID 7463489. S2CID 19528200.

[Kimura_1981-3] а ^б ^c Кимура М. (январь 1981 г.). «Оценка эволюционных расстояний между гомологичными нуклеотидными последовательностями». Труды Национальной академии наук Соединенных Штатов Америки. 78 (1): 454–8. Bibcode:1981PNAS ... 78..454K. Дои:10.1073 / pnas.78.1.454. ЧВК 319072. PMID 6165991.

[4] Башфорд Дж. Д., Джарвис П. Д., Самнер Дж. Г., Steel MA (2004-02-25). «Симметрия U (1) × U (1) × U (1) модели Кимуры 3ST и филогенетические ветвящиеся процессы». Журнал физики A: математические и общие. 37 (8): L81 – L89. arXiv:q-bio / 0310037. Дои:10.1088 / 0305-4470 / 37/8 / L01. S2CID 7845860.

[5] Самнер Дж. Г., Чарльстон Массачусетс, Джермейн Л.С., Джарвис П.Д. (август 2008 г.). "Марковские инварианты, плетизмы и филогенетика". Журнал теоретической биологии. 253 (3): 601–15. Дои:10.1016 / j.jtbi.2008.04.001. PMID 18513747.

[6] Самнер Дж. Г., Джарвис П. Д., Голландия, Б. Р. (декабрь 2014 г.). «Тензорный подход к инверсии филогенетических моделей на основе групп». BMC Эволюционная биология. 14 (1): 236. Дои:10.1186 / s12862-014-0236-6. ЧВК 4268818. PMID 25472897.

[7] Hendy MD, Penny D, Steel MA (апрель 1994). «Дискретный анализ Фурье для эволюционных деревьев». Труды Национальной академии наук Соединенных Штатов Америки. 91 (8): 3339–43. Bibcode:1994PNAS ... 91.3339H. Дои:10.1073 / пнас.91.8.3339. ЧВК 43572. PMID 8159749.

[8] Хенди, доктор медицины (2005). «Спряжение Адамара: аналитический инструмент для филогенетики». В Gascuel O (ред.). Математика эволюции и филогении. Издательство Оксфордского университета. С. 143–177. ISBN 978-0198566106.

[9] Hendy MD, Snir S (июль 2008 г.). «Сопряжение Адамара для 3ST модели Кимуры: комбинаторное доказательство с использованием наборов путей». IEEE / ACM Transactions по вычислительной биологии и биоинформатике. 5 (3): 461–71. Дои:10.1109 / TCBB.2007.70227. PMID 18670048. S2CID 20633916.

[Waddell_1997-10] а ^б Уодделл П.Дж., Пенни Д., Мур Т. (август 1997 г.). «Сопряжения Адамара и моделирование эволюции последовательностей с неравными скоростями по сайтам». Молекулярная филогенетика и эволюция. 8 (1): 33–50. Дои:10.1006 / mpev.1997.0405. PMID 9242594.

[11] Ян З (сентябрь 1994 г.). «Филогенетическая оценка максимального правдоподобия из последовательностей ДНК с переменной скоростью по сайтам: приблизительные методы». Журнал молекулярной эволюции. 39 (3): 306–14. Bibcode:1994JMolE..39..306Y. CiteSeerX 10.1.1.305.951. Дои:10.1007 / BF00160154. PMID 7932792. S2CID 17911050.

[F81-12] Фельзенштейн Дж (1981). «Эволюционные деревья из последовательностей ДНК: подход максимального правдоподобия». Журнал молекулярной эволюции. 17 (6): 368–76. Bibcode:1981JMolE..17..368F. Дои:10.1007 / BF01734359. PMID 7288891. S2CID 8024924.

[HKY85-13] Хасэгава М, Кишино Х, Яно Т (1985). «Датирование расщепления человека и обезьяны по молекулярным часам митохондриальной ДНК». Журнал молекулярной эволюции. 22 (2): 160–74. Bibcode:1985JMolE..22..160H. Дои:10.1007 / BF02101694. PMID 3934395. S2CID 25554168.

[14] Кишино Х., Хасегава М. (август 1989 г.). «Оценка максимального правдоподобия топологий эволюционного дерева на основе данных последовательности ДНК и порядка ветвления в гоминоиде». Журнал молекулярной эволюции. 29 (2): 170–9. Bibcode:1989JMolE..29..170K. Дои:10.1007 / BF02100115. PMID 2509717. S2CID 8045061.

[15] Фельзенштейн Дж, Черчилль Г.А. (январь 1996 г.). «Подход с использованием скрытой марковской модели к изменению скорости эволюции сайтов». Молекулярная биология и эволюция. 13 (1): 93–104. Дои:10.1093 / oxfordjournals.molbev.a025575. PMID 8583911.

[T92-16] а ^б Тамура К. (июль 1992 г.). «Оценка количества замен нуклеотидов при сильных смещениях трансверсии перехода и содержания G + C». Молекулярная биология и эволюция. 9 (4): 678–87. Дои:10.1093 / oxfordjournals.molbev.a040752. PMID 1630306.

[TN93-17] Тамура К., Ней М. (май 1993 г.). «Оценка количества нуклеотидных замен в контрольной области митохондриальной ДНК у человека и шимпанзе». Молекулярная биология и эволюция. 10 (3): 512–26. Дои:10.1093 / oxfordjournals.molbev.a040023. PMID 8336541.

[Tavare1986-18] а ^б Таваре С (1986). «Некоторые вероятностные и статистические проблемы анализа последовательностей ДНК» (PDF). Лекции по математике в естественных науках. 17: 57–86.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

Молекулярная эволюция
Естественный отбор	Выбор балансировки Направленный выбор Подрывной отбор Отрицательный выбор Стабилизирующий отбор Выборочная развертка
Модели	Модели эволюции ДНК Модели нуклеотидного замещения Частота аллелей Отношение Ka / Ks Таджима D Фэй и Ву H
Молекулярные процессы	Преобразование гена Дублирование гена Тихая мутация Синонимичная замена Несинонимичная подмена

Эволюционная биология
Вступление Контур Хронология эволюции Эволюционная история жизни Индекс
Эволюция	Абиогенез Приспособление Адаптивное излучение Кладистика Коэволюция Общий спуск Конвергенция Расхождение Самые ранние известные формы жизни Свидетельства эволюции Вымирание Мероприятие Геноцентричный взгляд Гомология Последний универсальный общий предок Макроэволюция Микроэволюция Происхождение жизни Панспермия Параллельная эволюция Видообразование Таксономия
численность населения генетика	Биоразнообразие Генетический поток Генетический дрейф Мутация Естественный отбор Искусственный отбор Вариация Половой отбор Социальный отбор
Разработка	Канализация Эволюционная биология развития Генетическая ассимиляция Инверсия Модульность Фенотипическая пластичность
Из таксоны	Бактерии Птицы источник Брахиоподы Моллюски Головоногие моллюски Динозавры Рыбы Грибы Насекомые бабочки Жизнь Млекопитающие кошки псовые волки собаки гиены дельфины и киты лошади Кенгуру приматы люди лемуры морские коровы Растения Рептилии Пауки Четвероногие Вирусы грипп
Из органы	Клетка ДНК Жгутики Эукариоты симбиогенез хромосома эндомембранная система митохондрии ядро пластиды У животных глаз волосы слуховая косточка нервная система мозг
Из процессы	Старение Смерть Запрограммированная гибель клеток Птичий полет Биологическая сложность Сотрудничество Цветовое зрение у приматов Эмоции Сочувствие Этика Эусоциальность Иммунная система Метаболизм Моногамия Мораль Мозаика эволюция Многоклеточность Половое размножение Дифференциация гамет / пол Жизненные циклы / ядерные фазы Типы вязки Мейоз Определение пола Змеиный яд
Темп и режимы	Градуализм /Прерывистое равновесие /Сальтационизм Микромутация /Макромутация Униформизм /Катастрофизм
Видообразование	Аллопатрический Анагенез Катагенез Кладогенез Cospeciation Экологический Гибридный Парапатрический Перипатрический Армирование Симпатрический
История	Возрождение и Просвещение Трансмутация видов Дэвид Хьюм Диалоги о естественной религии Чарльз Дарвин О происхождении видов История палеонтологии Переходное ископаемое Смешивание наследования Менделирующее наследование Затмение дарвинизма Современный синтез История молекулярной эволюции Расширенный эволюционный синтез
Философия	дарвинизм Альтернативы Катастрофизм Ламаркизм Ортогенез Мутационизм Сальтационизм Структурализм Spandrel Теистический Витализм Телеология в биологии
Связанный	Биогеография Экологическая генетика Молекулярная эволюция Филогенетика Дерево Полиморфизм Protocell Систематика
Категория Commons Портал ВикиПроект