Вычислительная филогенетика - Computational phylogenetics - Wikipedia

Вычислительная филогенетика это приложение вычислительной алгоритмы, методы и программы для филогенетический анализы. Цель - собрать филогенетическое дерево представляя гипотезу об эволюционном происхождении набора гены, разновидность, или другой таксоны. Например, эти методы использовались для изучения генеалогического дерева гоминид разновидность[1] и отношения между конкретными генами, общими для многих типов организмов.[2]

Традиционная филогенетика опирается на морфологический данные, полученные путем измерения и количественной оценки фенотипический свойства репрезентативных организмов, в то время как более новая область молекулярной филогенетики использует нуклеотид последовательности, кодирующие гены или аминокислота кодирование последовательностей белки как основание для классификации.

Многие формы молекулярной филогенетики тесно связаны и широко используют выравнивание последовательностей в построении и уточнении филогенетических деревьев, которые используются для классификации эволюционных отношений между гомологичными гены представлен в геномы расходящихся видов. Филогенетические деревья, построенные вычислительными методами, вряд ли будут идеально воспроизводить эволюционное дерево который представляет собой исторические отношения между анализируемыми видами. Историческое дерево видов может также отличаться от исторического дерева отдельного гомологичного гена, общего для этих видов.

Типы филогенетических деревьев и сетей

Филогенетические деревья генерируемые компьютерной филогенетикой, могут быть либо укорененный или же неукорененный в зависимости от входных данных и используемого алгоритма. Укоренившееся дерево - это ориентированный граф который явно определяет самый последний общий предок (MRCA), обычно это вмененная последовательность, которая не представлена ​​во входных данных. Меры генетического расстояния можно использовать для построения дерева с входными последовательностями в виде листовые узлы и их расстояния от корня пропорциональны их генетическая дистанция от предполагаемого MRCA. Идентификация корня обычно требует включения во входные данные по крайней мере одной «внешней группы», о которой известно, что она лишь отдаленно связана с интересующими последовательностями.

В отличие от этого, деревья без корней рисуют расстояния и отношения между входными последовательностями, не делая предположений относительно их происхождения. Некорневое дерево всегда может быть создано из корневого дерева, но корень обычно не может быть помещен в некорневое дерево без дополнительных данных о скорости расхождения, таких как допущение молекулярные часы гипотеза.[3]

Набор всех возможных филогенетических деревьев для данной группы входных последовательностей может быть концептуализирован как дискретно определенное многомерное «древовидное пространство», через которое можно проследить пути поиска с помощью оптимизация алгоритмы. Хотя подсчет общего количества деревьев для нетривиального числа входных последовательностей может быть затруднен из-за вариаций в определении топологии дерева, всегда верно, что корневых деревьев больше, чем некорневых деревьев для данного количества входов и выбора параметров.[4]

И корневые, и некорневые филогенетические деревья могут быть далее обобщены на корневые или некорневые. филогенетические сети, которые позволяют моделировать эволюционные явления, такие как гибридизация или же горизонтальный перенос генов.

Кодирование символов и определение гомологии

Морфологический анализ

Основная проблема морфологической филогенетики - сборка матрица представляет собой отображение каждого из сравниваемых таксонов с репрезентативными измерениями для каждой из фенотипических характеристик, используемых в качестве классификатора. Типы фенотипических данных, используемых для построения этой матрицы, зависят от сравниваемых таксонов; для отдельных видов они могут включать измерения среднего размера тела, длины или размера конкретных костей или других физических характеристик или даже поведенческих проявлений. Конечно, поскольку не все возможные фенотипические характеристики могут быть измерены и закодированы для анализа, выбор характеристик для измерения является главным препятствием для этого метода. Решение о том, какие признаки использовать в качестве основы для матрицы, обязательно представляет собой гипотезу о том, какие признаки вида или более высокого таксона являются эволюционно значимыми.[5] Морфологические исследования могут быть сбиты с толку примерами конвергентная эволюция фенотипов.[6] Основная проблема при построении полезных классов - высокая вероятность совпадения таксонов в распределении вариаций фенотипа. Включение вымерших таксонов в морфологический анализ часто затруднено из-за отсутствия или неполного ископаемое записи, но было показано, что они оказывают значительное влияние на производимые деревья; в одном исследовании только вымершие виды обезьяны получили морфологически полученное дерево, которое соответствовало дереву, полученному на основе молекулярных данных.[1]

Некоторые фенотипические классификации, особенно те, которые используются при анализе очень разных групп таксонов, дискретны и однозначны; Классификация организмов как обладающих или не имеющих хвоста, например, в большинстве случаев проста, как и подсчет таких признаков, как глаза или позвонки. Тем не менее, наиболее подходящее представление непрерывно изменяющихся фенотипических измерений является спорной проблемой без общего решения. Распространенным методом является простая сортировка представляющих интерес измерений по двум или более классам, что делает непрерывные наблюдаемые вариации дискретно поддающимися классификации (например, все примеры с плечевыми костями длиннее заданного отрезка оцениваются как члены одного состояния, а все члены с плечевой костью кости короче, чем отрезок, оцениваются как члены второго состояния). Это приводит к тому, что легко манипулировать набор данных но подвергался критике за плохую отчетность об основе для определений классов и за принесение в жертву информации по сравнению с методами, которые используют непрерывное взвешенное распределение измерений.[7]

Поскольку сбор морфологических данных чрезвычайно трудоемок, будь то из литературных источников или из полевых наблюдений, повторное использование ранее составленных матриц данных не является редкостью, хотя это может распространить недостатки исходной матрицы на множественные производные анализы.[8]

Молекулярный анализ

Проблема кодирования символов сильно отличается в молекулярном анализе, поскольку символы в данных биологической последовательности определяются немедленно и дискретно - четко различимы. нуклеотиды в ДНК или же РНК последовательности и различные аминокислоты в белок последовательности. Однако, определяя гомология может быть сложной задачей из-за присущих множественное выравнивание последовательностей. Для данного MSA с пробелами можно построить несколько корневых филогенетических деревьев, которые различаются по интерпретации того, какие изменения "мутации "по сравнению с персонажами предков, и какие события инсерционные мутации или же делеционные мутации. Например, учитывая только попарное выравнивание с областью гэпа, невозможно определить, несет ли одна последовательность инсерционную мутацию или другую - делецию. Проблема усугубляется в MSA с невыровненными и неперекрывающимися промежутками. На практике значительные области вычисленного выравнивания можно не учитывать при построении филогенетического дерева, чтобы избежать интеграции зашумленных данных в расчет дерева.

Методы матрицы расстояний

Матричные методы филогенетического анализа явно полагаются на меру «генетического расстояния» между классифицируемыми последовательностями, и, следовательно, они требуют MSA в качестве входных данных. Расстояние часто определяется как доля несовпадений в выровненных позициях, при этом промежутки либо игнорируются, либо считаются несоответствиями.[3] Методы расстояния пытаются построить комплексную матрицу из набора запросов последовательности, описывающего расстояние между каждой парой последовательностей. На основе этого строится филогенетическое дерево, которое помещает близкородственные последовательности под одним и тем же внутренний узел и чьи длины ветвей близко воспроизводят наблюдаемые расстояния между последовательностями. Методы матрицы расстояний могут создавать как корневые, так и некорневые деревья, в зависимости от алгоритма, используемого для их вычисления. Они часто используются в качестве основы для прогрессивных и итеративных типов множественное выравнивание последовательностей. Основным недостатком методов матрицы расстояний является их неспособность эффективно использовать информацию о локальных областях с высокой вариабельностью, которые появляются в нескольких поддеревьях.[4]

UPGMA и WPGMA

В UPGMA (Невзвешенный метод парных групп со средним арифметическим) и WPGMA (Метод взвешенных парных групп со средним арифметическим) методы производят корневые деревья и требуют предположения о постоянной скорости, т. е. ультраметрический дерево, в котором расстояния от корня до каждого конца ветки равны.[9]

Соседство

Общие методы объединения соседей применяются кластерный анализ методы анализа последовательности с использованием генетического расстояния в качестве метрики кластеризации. Простой присоединение к соседу метод производит неукорененные деревья, но не предполагает постоянной скорости эволюции (т.е. молекулярные часы ) через родословные.[10]

Метод Фитча – Марголиаша

В Метод Фитча – Марголиаша использует взвешенный наименьших квадратов метод кластеризации на основе генетической дистанции.[11] Тесно связанным последовательностям придается больший вес в процессе построения дерева, чтобы исправить повышенную неточность измерения расстояний между удаленно связанными последовательностями. Расстояния, используемые в качестве входных данных для алгоритма, должны быть нормализованы для предотвращения больших артефактов при вычислении отношений между тесно связанными и удаленно связанными группами. Расстояния, рассчитанные этим методом, должны быть линейный; критерий линейности расстояний требует, чтобы ожидаемые значения длины ветвей для двух отдельных ветвей должны равняться ожидаемому значению суммы двух расстояний ветвей - свойство, которое применяется к биологическим последовательностям, только если они были скорректированы с учетом возможности обратные мутации на отдельных участках. Это исправление выполняется с помощью матрица замещения например, полученный из Модель Юкса-Кантора эволюции ДНК. Поправка на расстояние необходима на практике только тогда, когда скорость эволюции различается между ветвями.[4] Другая модификация алгоритма может быть полезной, особенно в случае концентрированных расстояний (пожалуйста, сообщите концентрация меры явление и проклятие размерности ): эта модификация, описанная в,[12] было показано, что повышает эффективность алгоритма и его надежность.

Критерий наименьших квадратов, применяемый к этим расстояниям, более точен, но менее эффективен, чем методы объединения соседей. Дополнительное улучшение, которое корректирует корреляции между расстояниями, которые возникают из многих тесно связанных последовательностей в наборе данных, также может применяться с увеличенными вычислительными затратами. Поиск оптимального дерева наименьших квадратов с любым поправочным коэффициентом НП-полный,[13] так эвристический Методы поиска, подобные тем, которые используются в анализе максимальной экономии, применяются к поиску в пространстве дерева.

Использование внешних групп

Независимая информация о взаимосвязи между последовательностями или группами может использоваться для сокращения пространства поиска в дереве и корневых некорневых деревьев. Стандартное использование методов дистанционной матрицы предполагает включение как минимум одного аутгруппа Известно, что последовательность только отдаленно связана с интересующими последовательностями в наборе запроса.[3] Это использование можно рассматривать как тип экспериментальный контроль. Если внешняя группа была выбрана надлежащим образом, у нее будет гораздо больше генетическая дистанция и, следовательно, более длинная ветвь, чем у любой другой последовательности, и она будет появляться рядом с корнем корневого дерева. Выбор подходящей внешней группы требует выбора последовательности, которая умеренно связана с интересующими последовательностями; слишком близкие отношения сводят на нет цель чужой группы, а слишком отдаленные добавляют шум к анализу.[3] Также следует проявлять осторожность, чтобы избежать ситуаций, в которых виды, от которых были взяты последовательности, имеют отдаленное родство, но ген, кодируемый последовательностями, сильно отличается консервированный через родословную. Горизонтальный перенос генов, особенно между иначе расходящимися бактерии, также может затруднить использование внешней группы.

Максимальная экономия

Максимальная экономия (MP) - это метод определения потенциального филогенетического дерева, который требует наименьшего общего количества эволюционный события, чтобы объяснить данные наблюдаемой последовательности. Некоторые способы оценки деревьев также включают «стоимость», связанную с определенными типами эволюционных событий, и попытку найти дерево с наименьшей общей стоимостью. Это полезный подход в случаях, когда не все возможные типы событий одинаково вероятны, например, когда нуклеотиды или же аминокислоты известны как более изменчивые, чем другие.

Самый наивный способ определить самое экономное дерево - это простое перечисление - рассмотрение каждого возможного дерева по очереди и поиск дерева с наименьшим количеством очков. Однако это возможно только для относительно небольшого числа последовательностей или видов, потому что проблема определения наиболее экономичного дерева, как известно, является NP-жесткий;[4] следовательно, ряд эвристический методы поиска для оптимизация были разработаны, чтобы найти очень экономное дерево, если не лучшее в наборе. Большинство таких методов включают крутой спуск механизм минимизации стиля, работающий на перестановка деревьев критерий.

Ветвь и переплет

В ветвь и переплет Алгоритм - это общий метод, используемый для повышения эффективности поиска почти оптимальных решений NP-жесткий проблемы впервые обратились к филогенетике в начале 1980-х годов.[14] Ветвь и граница особенно хорошо подходят для построения филогенетического дерева, потому что по своей сути требует разделения проблемы на древовидная структура поскольку он подразделяет проблемное пространство на более мелкие области. Как следует из названия, он требует в качестве входных данных как правило ветвления (в случае филогенетики, добавление следующего вида или последовательности к дереву), так и границу (правило, исключающее из рассмотрения определенные области пространства поиска, тем самым предполагая, что оптимальное решение не может занимать эту область). Определение хорошей границы - самый сложный аспект применения алгоритма в филогенетике. Простой способ определения границы - это максимальное количество предполагаемых эволюционных изменений, разрешенных для каждого дерева. Набор критериев, известный как правила Жарких[15] жестко ограничить пространство поиска путем определения характеристик, общих для всех кандидатов в «самые экономные» деревья. Два самых основных правила требуют исключения всех повторяющихся последовательностей, кроме одной (для случаев, когда несколько наблюдений дали идентичные данные) и исключения участков символов, в которых два или более состояния не встречаются по крайней мере у двух видов. В идеальных условиях эти правила и связанный с ними алгоритм полностью определяют дерево.

Алгоритм Санкоффа-Мореля-Седергрена

Алгоритм Санкоффа-Мореля-Седергрена был одним из первых опубликованных методов, позволяющих одновременно создавать MSA и филогенетическое дерево для нуклеотидных последовательностей.[16] В методе используется максимальная экономия вычисление в сочетании с функцией подсчета очков, которая штрафует пропуски и несоответствия, тем самым отдавая предпочтение дереву, которое вводит минимальное количество таких событий (альтернативная точка зрения утверждает, что предпочтение следует отдавать деревьям, которые максимизируют степень сходства последовательностей, что можно интерпретировать как гомология, точка зрения, которая может привести к различным оптимальным деревьям [17]). Вмененные последовательности в внутренние узлы дерева оцениваются и суммируются по всем узлам в каждом возможном дереве. Сумма дерева с наименьшей оценкой дает как оптимальное дерево, так и оптимальную MSA с учетом функции оценки. Поскольку этот метод требует значительных вычислительных ресурсов, приближенный метод, в котором первоначальные предположения для внутренних выравниваний уточняются по одному узлу за раз. И полная, и приблизительная версия на практике рассчитываются методом динамического программирования.[4]

ПОВРЕЖДЕНИЕ и ПОЙ

Более поздние методы филогенетического дерева / MSA используют эвристику для выделения деревьев с высокими показателями, но не обязательно оптимальных. Метод MALIGN использует технику максимальной экономии для вычисления множественного выравнивания путем максимизации кладограмма Score, а его сопутствующий POY использует итерационный метод, сочетающий оптимизацию филогенетического дерева с улучшениями в соответствующем MSA.[18] Однако использование этих методов при построении эволюционных гипотез было подвергнуто критике как предвзятое из-за преднамеренного построения деревьев, отражающих минимальные эволюционные события.[19] Этому, в свою очередь, противоречит точка зрения, согласно которой такие методы следует рассматривать как эвристические подходы к поиску деревьев, которые максимизируют степень сходства последовательностей, которая может быть интерпретирована как гомология.[17][20]

Максимальная вероятность

В максимальная вероятность метод использует стандартные статистические методы для вывода распределения вероятностей присвоить вероятности конкретным возможным филогенетическим деревьям. Метод требует модель замещения оценить вероятность конкретных мутации; грубо говоря, дерево, которое требует большего количества мутаций во внутренних узлах для объяснения наблюдаемой филогении, будет оцениваться как имеющее более низкую вероятность. Это в целом похоже на метод максимальной экономии, но максимальная вероятность дает дополнительную статистическую гибкость, позволяя варьировать скорость эволюции как для линий, так и для участков. Фактически, метод требует, чтобы эволюция в разных местах и ​​по разным линиям происходила. статистически независимый. Таким образом, максимальное правдоподобие хорошо подходит для анализа отдаленно связанных последовательностей, но считается, что его невозможно вычислить с помощью вычислений из-за его NP-сложности.[21]

Алгоритм "обрезки", вариант динамическое программирование, часто используется для сокращения пространства поиска за счет эффективного вычисления вероятности поддеревьев.[4] Метод вычисляет вероятность для каждого сайта «линейным» способом, начиная с узла, единственными потомками которого являются листья (то есть кончиками дерева), и работая в обратном направлении к «нижнему» узлу во вложенных наборах. Однако деревья, полученные с помощью этого метода, укореняются только в том случае, если модель замещения является необратимой, что обычно не относится к биологическим системам. Поиск дерева максимального правдоподобия также включает в себя компонент оптимизации длины ветви, который сложно улучшить алгоритмически; Общее глобальная оптимизация инструменты, такие как Ньютон-Рафсон метод часто используется.

Некоторые инструменты, которые используют максимальную вероятность для вывода филогенетических деревьев из данных о частотах вариантов аллелей (VAF), включают AncesTree и CITUP.[22][23]

Байесовский вывод

Байесовский вывод может использоваться для создания филогенетических деревьев способом, тесно связанным с методами максимального правдоподобия. Байесовские методы предполагают априорную распределение вероятностей возможных деревьев, которая может быть просто вероятностью любого одного дерева среди всех возможных деревьев, которые могут быть сгенерированы из данных, или может быть более сложной оценкой, полученной из предположения, что события расхождения, такие как видообразование происходит как случайные процессы. Выбор априорного распределения является предметом разногласий среди пользователей методов филогенетики байесовского вывода.[4]

Реализации байесовских методов обычно используют Цепь Маркова Монте-Карло алгоритмы выборки, хотя выбор набора ходов варьируется; выборки, используемые в байесовской филогенетике, включают циклическую перестановку листовых узлов предлагаемого дерева на каждом этапе[24] и замена дочерних поддеревьев случайного внутренний узел между двумя связанными деревьями.[25] Использование байесовских методов в филогенетике вызывает споры, в основном из-за неполной спецификации выбора набора движений, критерия приемлемости и предварительного распределения в опубликованных работах.[4] Байесовские методы обычно превосходят методы, основанные на экономии; они могут быть более склонны к привлечению длинных ветвей, чем методы максимального правдоподобия,[26] хотя они лучше справляются с отсутствием данных.[27]

В то время как методы правдоподобия находят дерево, которое максимизирует вероятность данных, байесовский подход восстанавливает дерево, которое представляет наиболее вероятные клады, используя апостериорное распределение. Однако оценки апостериорной вероятности клад (измерение их «поддержки») могут быть довольно далекими от истины, особенно для клад, которые маловероятны. Таким образом, для оценки апостериорной вероятности были предложены другие методы.[28]

Некоторые инструменты, которые используют байесовский вывод для вывода филогенетических деревьев из данных о частотах вариантов аллелей (VAF), включают Canopy, EXACT и PhyloWGS.[29][30][31]

Выбор модели

Методы молекулярной филогенетики основываются на определенных модель замещения который кодирует гипотезу об относительной скорости мутация на различных участках исследуемой генной или аминокислотной последовательности. В простейшем случае модели замещения нацелены на корректировку различий в скорости переходы и трансверсии в нуклеотидных последовательностях. Использование моделей замещения обусловлено тем, что генетическая дистанция между двумя последовательностями увеличивается линейно только в течение короткого времени после того, как две последовательности расходятся друг от друга (в качестве альтернативы, расстояние линейно только незадолго до слияние ). Чем больше времени после расхождения, тем более вероятно, что две мутации происходят в одном и том же нуклеотидном сайте. Таким образом, простые вычисления генетического расстояния будут недооценивать количество мутационных событий, произошедших в эволюционной истории. Степень этого недоучета увеличивается с увеличением времени после расхождения, что может привести к явлению аттракцион длинной ветви или ошибочное отнесение двух отдаленно связанных, но конвергентно развивающихся последовательностей как тесно связанных.[32] Метод максимальной экономии особенно подвержен этой проблеме из-за его явного поиска дерева, представляющего минимальное количество различных эволюционных событий.[4]

Типы моделей

Все модели замещения присваивают набор весов каждому возможному изменению состояния, представленному в последовательности. Наиболее распространенные типы моделей неявно обратимы, потому что они приписывают такой же вес, например, нуклеотидной мутации G> C, что и мутации C> G. Простейшая возможная модель, Модель Юкса-Кантора, приписывает равную вероятность каждому возможному изменению состояния для данного нуклеотидного основания. Скорость изменения между любыми двумя отдельными нуклеотидами будет составлять одну треть от общей скорости замены.[4] Более продвинутые модели различают переходы и трансверсии. Наиболее общая возможная модель с обратимой во времени, называемая моделью GTR, имеет шесть параметров скорости мутаций. Еще более обобщенная модель, известная как общая 12-параметрическая модель, нарушает обратимость во времени за счет гораздо дополнительной сложности в вычислении генетических расстояний, согласованных между несколькими линиями.[4] Один из возможных вариантов этой темы регулирует скорости так, чтобы общее содержание GC - важная мера стабильности двойной спирали ДНК - менялось со временем.[33]

Модели могут также допускать изменение ставок в зависимости от позиций во входной последовательности. Наиболее очевидный пример такой вариации следует из расположения нуклеотидов в генах, кодирующих белок, в трехосновные. кодоны. Если расположение открытая рамка чтения (ORF), частота мутаций может быть скорректирована для положения данного сайта в кодоне, поскольку известно, что спаривание базовых колебаний может обеспечить более высокую частоту мутаций в третьем нуклеотиде данного кодона, не влияя на значение кодона в генетический код.[32] Пример, менее основанный на гипотезах, который не полагается на идентификацию ORF, просто присваивает каждому сайту показатель, случайно выбранный из предопределенного распределения, часто гамма-распределение или же логнормальное распределение.[4] Наконец, более консервативная оценка вариаций ставок, известная как коварион метод позволяет автокоррелированный вариации в скорости, так что скорость мутации данного сайта коррелирует между сайтами и линиями.[34]

Выбираем лучшую модель

Выбор подходящей модели имеет решающее значение для проведения качественного филогенетического анализа, поскольку модели с недостаточной параметризацией или чрезмерно ограничивающими факторами могут приводить к аберрантному поведению при нарушении лежащих в их основе допущений, а также из-за того, что слишком сложные или чрезмерно параметризованные модели требуют больших вычислительных затрат, а параметры могут быть избыточными .[32] Наиболее распространенный метод выбора модели - это тест отношения правдоподобия (LRT), который дает оценку правдоподобия, которую можно интерпретировать как меру "степень соответствия "между моделью и исходными данными.[32] Однако следует соблюдать осторожность при использовании этих результатов, поскольку более сложная модель с большим количеством параметров всегда будет иметь более высокую вероятность, чем упрощенная версия той же модели, что может привести к наивному выбору слишком сложных моделей.[4] По этой причине компьютерные программы выбора модели будут выбирать простейшую модель, которая не намного хуже, чем более сложные модели замещения. Существенным недостатком LRT является необходимость проводить серию парных сравнений между моделями; было показано, что порядок, в котором сравниваются модели, имеет большое влияние на ту, которая в конечном итоге будет выбрана.[35]

Альтернативный метод выбора модели - это Информационный критерий Акаике (AIC), формально оценка Дивергенция Кульбака – Лейблера между истинной моделью и тестируемой моделью. Его можно интерпретировать как оценку правдоподобия с поправочным коэффициентом для наказания чрезмерно параметризованных моделей.[32] AIC рассчитывается для отдельной модели, а не для пары, поэтому он не зависит от порядка, в котором модели оцениваются. Родственная альтернатива, Байесовский информационный критерий (BIC), имеет аналогичную базовую интерпретацию, но более серьезно наказывает сложные модели.[32]

Подробный пошаговый протокол построения филогенетического дерева, включающий сборку смежных последовательностей ДНК / аминокислот, множественное выравнивание последовательностей, модельный тест (тестирование наиболее подходящих моделей замены) и реконструкцию филогенеза с использованием максимального правдоподобия и байесовского вывода, доступен по адресу Протокол природы[36]

Нетрадиционный способ оценки филогенетического дерева - сравнение его с результатом кластеризации. Можно использовать технику многомерного масштабирования, так называемое интерполяционное объединение, чтобы уменьшить размерность для визуализации результата кластеризации последовательностей в 3D, а затем сопоставить филогенетическое дерево с результатом кластеризации. Лучшее дерево обычно имеет более высокую корреляцию с результатом кластеризации.[37]

Оценка поддержки дерева

Как и при любом статистическом анализе, оценка филогении на основе данных о признаках требует оценки достоверности. Существует ряд методов, позволяющих проверить степень поддержки филогенетического дерева, либо путем оценки поддержки для каждого поддерева в филогении (узловая поддержка), либо путем оценки того, существенно ли филогения отличается от других возможных деревьев (тесты гипотез альтернативного дерева) ).

Узловая опора

Самый распространенный метод оценки поддержки дерева - это оценка статистической поддержки каждого узла дерева.Как правило, узел с очень низкой поддержкой не считается допустимым при дальнейшем анализе и визуально может быть свернут в политомия чтобы указать, что отношения внутри клады не разрешены.

Дерево консенсуса

Многие методы оценки узловой поддержки включают рассмотрение множественных филогений. Дерево консенсуса суммирует узлы, которые являются общими для набора деревьев.[38] В * строгом консенсусе * показаны только узлы, найденные в каждом дереве, а остальные свернуты в неразрешенный политомия. Менее консервативные методы, такие как * дерево консенсуса по правилам большинства *, рассматривают узлы, которые поддерживаются заданным процентом рассматриваемых деревьев (например, не менее 50%).

Например, при анализе максимальной экономии может быть много деревьев с одинаковым показателем экономии. Дерево строгого консенсуса показало бы, какие узлы находятся во всех одинаково экономных деревьях, а какие узлы отличаются. Деревья консенсуса также используются для оценки поддержки филогении, реконструированной с помощью байесовского вывода (см. Ниже).

Бутстреппинг и складывание

В статистике бутстрап - это метод определения изменчивости данных, распределение которых неизвестно, с использованием псевдорепликаций исходных данных. Например, для набора из 100 точек данных псевдорепликация представляет собой набор данных того же размера (100 точек), случайно выбранный из исходных данных с заменой. То есть каждая исходная точка данных может быть представлена ​​в псевдорепликате более одного раза или не может быть представлена ​​вообще. Статистическая поддержка включает оценку того, имеют ли исходные данные свойства, аналогичные свойствам большого набора псевдорепликатов.

В филогенетике бутстреппинг проводится с использованием столбцов матрицы символов. Каждый псевдорепликат содержит одинаковое количество видов (строк) и символов (столбцов), случайно выбранных из исходной матрицы с заменой. Филогения реконструируется из каждого псевдорепликата с помощью тех же методов, которые используются для реконструкции филогении из исходных данных. Для каждого узла филогенеза узловая поддержка - это процент псевдорепликатов, содержащих этот узел.[39]

Статистическая строгость бутстрап-теста была эмпирически оценена с использованием вирусных популяций с известной историей эволюции.[40] обнаружение, что 70% -ная поддержка бутстрапа соответствует 95% -ной вероятности существования клады. Однако это было проверено в идеальных условиях (например, без изменений в темпах эволюции, симметричная филогения). На практике значения выше 70% обычно поддерживаются и оставляются на усмотрение исследователя или читателя для оценки уверенности. Узлы с поддержкой ниже 70% обычно считаются неразрешенными.

В филогенетике процедура складывания складных ножей аналогична, за исключением того, что столбцы матрицы отбираются без замены. Псевдорепликации генерируются путем случайной подвыборки данных - например, «складной нож 10%» будет включать случайную выборку 10% матрицы много раз для оценки узловой поддержки.

Апостериорная вероятность

Реконструкция филогении с использованием Байесовский вывод генерирует апостериорное распределение весьма вероятных деревьев с учетом данных и эволюционной модели, а не единственное "лучшее" дерево. Деревья в апостериорном распределении обычно имеют много разных топологий. Когда входными данными являются данные вариантной частоты аллелей (VAF), инструмент EXACT может точно вычислить вероятности деревьев для небольших, биологически значимых размеров деревьев, путем исчерпывающего поиска по всему пространству дерева.[29]

Большинство методов байесовского вывода используют итерацию Монте-Карло цепи Маркова, и начальные шаги этой цепочки не считаются надежными реконструкциями филогении. Деревья, созданные в начале цепочки, обычно отбрасываются как записать в. Самый распространенный метод оценки узловой поддержки в байесовском филогенетическом анализе - это вычисление процента деревьев в апостериорном распределении (после выгорания), которые содержат узел.

Ожидается, что статистическая поддержка узла в байесовском выводе будет отражать вероятность того, что клада действительно существует с учетом данных и эволюционной модели.[41] Поэтому порог для принятия узла как поддерживаемого обычно выше, чем для начальной загрузки.

Методы подсчета шагов

Поддержка Bremer подсчитывает количество дополнительных шагов, необходимых для противоречия кладу.

Недостатки

У каждой из этих мер есть свои слабые стороны. Например, клады меньшего или большего размера, как правило, привлекают большую поддержку, чем клады среднего размера, просто из-за количества таксонов в них.[42]

Поддержка Bootstrap может обеспечить высокие оценки поддержки узла в результате шума в данных, а не истинного существования клады.[43]

Ограничения и обходные пути

В конечном счете, невозможно измерить, является ли конкретная филогенетическая гипотеза точной или нет, если истинные отношения между исследуемыми таксонами уже известны (что может произойти с бактериями или вирусами в лабораторных условиях). Лучший результат, на который может надеяться эмпирический филогенетик, - это дерево с ветвями, которые хорошо подтверждаются имеющимися доказательствами. Выявлено несколько потенциальных ловушек:

Гомоплазия

Некоторые персонажи с большей вероятностью развиваться конвергентно чем другие; логично, таким символам следует придавать меньший вес при реконструкции дерева.[44] Веса в форме модели эволюции могут быть выведены из наборов молекулярных данных, так что максимальная вероятность или же Байесовский методы могут быть использованы для их анализа. Для молекулярных последовательностей эта проблема обостряется, когда исследуемые таксоны существенно разошлись. Со временем, прошедшим с момента расхождения двух таксонов, увеличивается вероятность множественных замен на одном и том же сайте или обратных мутаций, все из которых приводят к гомоплазиям. К сожалению, для морфологических данных единственным объективным способом определения сходимости является построение дерева - несколько круговой метод. Тем не менее, утяжеление гомоплазированных персонажей[как? ] действительно приводит к деревьям с лучшей опорой.[44] Дальнейшее уточнение может быть достигнуто за счет более высокого веса изменений в одном направлении, чем изменений в другом; например, наличие грудных крыльев почти гарантирует размещение крылатых насекомых, потому что, хотя крылья часто теряются вторично, нет никаких доказательств того, что они были приобретены более одного раза.[45]

Горизонтальный перенос генов

В целом организмы могут наследовать гены двумя способами: вертикальный перенос генов и горизонтальный перенос генов. Вертикальный перенос генов - это передача генов от родителей к потомкам, а горизонтальный (также называемый латеральным) перенос генов происходит, когда гены переходят между неродственными организмами, что является обычным явлением, особенно в прокариоты; хороший пример - приобретенный устойчивость к антибиотикам в результате обмена генами между различными бактериями, приводящего к появлению видов бактерий с множественной лекарственной устойчивостью. Также были хорошо задокументированные случаи горизонтального переноса генов. между эукариотами.

Горизонтальный перенос генов усложнил определение филогении организмов, и сообщалось о несоответствиях в филогенезе среди определенных групп организмов в зависимости от генов, используемых для построения эволюционных деревьев. Единственный способ определить, какие гены были приобретены вертикально, а какие - горизонтально. экономно предположим, что самый большой набор генов, которые были унаследованы вместе, унаследованы вертикально; это требует анализа большого количества генов.

Гибриды, видообразование, интрогрессии и неполная сортировка по линиям

Основное предположение, лежащее в основе математической модели кладистики, - это ситуация, когда виды аккуратно разделяются бифуркационным образом. Хотя такое предположение может иметь больший масштаб (горизонтальный перенос генов, см. Выше), видообразование часто гораздо менее упорядочен. Исследования с момента появления кладистического метода показали, что гибридное видообразование, который когда-то считался редким, на самом деле довольно часто встречается, особенно у растений.[46][47] Также парафилетическое видообразование является обычным явлением, что делает неприемлемым предположение о раздвоении паттерна, что приводит к филогенетические сети а не деревья.[48][49] Интрогрессия может также перемещать гены между разными видами, а иногда и родами, усложняя филогенетический анализ на основе генов.[50] Это явление может способствовать «неполной сортировке по происхождению» и считается обычным явлением для ряда групп. При анализе на уровне видов с этим можно справиться с помощью более крупной выборки или лучшего анализа всего генома.[51] Часто проблемы можно избежать, ограничив анализ меньшим количеством образцов, не связанных между собой.

Выборка таксона

Благодаря развитию передовых методов секвенирования в молекулярная биология стало возможным собирать большие объемы данных (ДНК или аминокислотные последовательности) для вывода филогенетических гипотез. Например, нередко можно найти исследования с матрицами характеров, основанными на целом митохондриальный геномы (~ 16 000 нуклеотидов, у многих животных). Однако моделирование показало, что более важно увеличить количество таксонов в матрице, чем увеличивать количество признаков, потому что чем больше таксонов, тем точнее и надежнее получается филогенетическое дерево.[52][53] Частично это может быть связано с разделением длинные ветви.

Филогенетический сигнал

Другим важным фактором, влияющим на точность реконструкции дерева, является то, действительно ли проанализированные данные содержат полезный филогенетический сигнал, термин, который обычно используется для обозначения того, эволюционирует ли персонаж достаточно медленно, чтобы иметь такое же состояние в тесно связанных таксонах, в отличие от случайного изменения. . Существуют тесты на филогенетический сигнал.[54]

Непрерывные символы

Морфологические признаки, образующие континуум, могут содержать филогенетический сигнал, но их трудно закодировать как отдельные символы. Было использовано несколько методов, один из которых - это кодирование с пропусками, и существуют варианты кодирования с пропусками.[55] В исходной форме кодирования пробелов:[55]

групповые средства для символа сначала упорядочиваются по размеру. Вычисляется объединенное стандартное отклонение внутри группы ... и различия между соседними средними значениями ... сравниваются относительно этого стандартного отклонения. Любая пара смежных средних считается различной и получает разные целые числа ... если средние значения разделены "пробелом", превышающим стандартное отклонение внутри группы ... умноженное на некоторую произвольную константу.

Если к анализу добавить больше таксонов, промежутки между таксонами могут стать настолько маленькими, что вся информация будет потеряна. Обобщенное кодирование пробелов позволяет решить эту проблему, сравнивая отдельные пары таксонов, а не рассматривая один набор, содержащий все таксоны.[55]

Отсутствующие данные

В целом, чем больше данных доступно при построении дерева, тем точнее и надежнее будет полученное дерево. Отсутствие данных не более вредно, чем просто наличие меньшего количества данных, хотя влияние оказывается наиболее сильным, когда большая часть отсутствующих данных относится к небольшому числу таксонов. Концентрация недостающих данных на небольшом количестве символов дает более надежное дерево.[56]

Роль окаменелостей

Потому что многие символы связаны с эмбриологическими, мягкотканными или молекулярными персонажами, которые (в лучшем случае) почти никогда не окаменели, а интерпретация окаменелостей более неоднозначна, чем живые таксоны, у вымерших таксонов почти всегда больше недостающих данных, чем у живых. Однако, несмотря на эти ограничения, включение окаменелостей неоценимо, поскольку они могут предоставить информацию на редких участках деревьев, разрывая длинные ветви и ограничивая промежуточные состояния характера; таким образом, ископаемые таксоны вносят такой же вклад в разрешение деревьев, как и современные таксоны.[57] Окаменелости также могут ограничить возраст родословных и, таким образом, продемонстрировать, насколько дерево согласуется со стратиграфической летописью;[58] стратокладистика включает информацию о возрасте в матрицы данных для филогенетического анализа.

Смотрите также

Рекомендации

  1. ^ а б Strait DS, Grine FE (декабрь 2004 г.). «Выведение гоминоидов и ранней филогении гоминидов с использованием краниодентальных признаков: роль ископаемых таксонов». Журнал эволюции человека. 47 (6): 399–452. Дои:10.1016 / j.jhevol.2004.08.008. PMID  15566946.
  2. ^ Ходж Т., Коп MJ (октябрь 2000 г.). «Генеалогическое древо миозинов». Журнал клеточной науки. 113 (19): 3353–4. PMID  10984423.
  3. ^ а б c d Mount DM (2004). Биоинформатика: анализ последовательности и генома (2-е изд.). Колд-Спринг-Харбор, Нью-Йорк: Лаборатория Колд-Спринг-Харбор Пресс. ISBN  978-0-87969-712-9.
  4. ^ а б c d е ж грамм час я j k л м Фельзенштейн Дж (2004). Вывод филогении. Сандерленд, Массачусетс: Sinauer Associates. ISBN  978-0-87893-177-4.
  5. ^ Свидерски Д.Л., Зельдич М.Л., Финк В.Л. (сентябрь 1998 г.). «Почему морфометрия не особенная: кодирование количественных данных для филогенетического анализа». Систематическая биология. 47 (3): 508–19. JSTOR  2585256. PMID  12066691.
  6. ^ Gaubert P, Wozencraft WC, Cordeiro-Estrela P, Veron G (декабрь 2005 г.). "Мозаика конвергенции и шума в морфологических филогенезах: что в виверридоподобном карниворане?". Систематическая биология. 54 (6): 865–94. Дои:10.1080/10635150500232769. PMID  16282167.
  7. ^ Винс Дж. Дж. (2001). «Анализ характера в морфологической филогенетике: проблемы и решения». Систематическая биология. 50 (5): 689–99. Дои:10.1080/106351501753328811. PMID  12116939.
  8. ^ Дженнер Р.А. (2001). «Билатерианская филогения и некритическая переработка наборов морфологических данных». Систематическая биология. 50 (5): 730–42. Дои:10.1080/106351501753328857. PMID  12116943.
  9. ^ Сокал Р., Миченер С. (1958). «Статистический метод оценки систематических взаимосвязей». Бюллетень науки Канзасского университета. 38: 1409–1438.
  10. ^ Сайтоу Н., Ней М. (июль 1987 г.). «Метод объединения соседей: новый метод реконструкции филогенетических деревьев». Молекулярная биология и эволюция. 4 (4): 406–25. Дои:10.1093 / oxfordjournals.molbev.a040454. PMID  3447015.
  11. ^ Fitch WM, Марголиаш Э (Январь 1967). «Построение филогенетических деревьев». Наука. 155 (3760): 279–84. Bibcode:1967Наука ... 155..279F. Дои:10.1126 / science.155.3760.279. PMID  5334057.
  12. ^ Lespinats S, Grando D, Maréchal E, Hakimi MA, Tenaillon O, Bastien O (2011). «Как алгоритм Фитча-Марголиаша может получить выгоду от многомерного масштабирования». Эволюционная биоинформатика в Интернете. 7: 61–85. Дои:10.4137 / EBO.S7048. ЧВК  3118699. PMID  21697992.
  13. ^ День WH (1987). «Вычислительная сложность вывода филогении из матриц несходства». Вестник математической биологии. 49 (4): 461–7. Дои:10.1016 / с0092-8240 (87) 80007-1. PMID  3664032.
  14. ^ Хенди, доктор медицины, Пенни Д. (1982). «Алгоритмы ветвей и границ для определения минимальных эволюционных деревьев». Математические биологические науки. 59 (2): 277–290. Дои:10.1016 / 0025-5564 (82) 90027-Х.
  15. ^ Ратнер В.А., Жарких А.А., Колчанов Н., Родин С., Соловьев С., Антонов А.С. (1995). Молекулярная эволюция. Серия «Биоматематика». 24. Нью-Йорк: Springer-Verlag. ISBN  978-3-662-12530-4.
  16. ^ Санкофф Д., Морель С., Седергрен Р. Дж. (Октябрь 1973 г.). «Эволюция 5S РНК и неслучайность замены оснований». Природа. 245 (147): 232–4. Дои:10.1038 / newbio245232a0. PMID  4201431.
  17. ^ а б Де Лаэт Дж (2005). «Экономия и проблема неприменимости данных в последовательности». В Альберте В.А. (ред.). Экономия, филогения и геномика. Издательство Оксфордского университета. С. 81–116. ISBN  978-0-19-856493-5.
  18. ^ Уиллер WC, Гладштейн Д.С. (1994). «MALIGN: программа выравнивания множественных последовательностей нуклеиновых кислот». Журнал наследственности. 85 (5): 417–418. Дои:10.1093 / oxfordjournals.jhered.a111492.
  19. ^ Simmons MP (июнь 2004 г.). «Независимость выравнивания и поиска по дереву». Молекулярная филогенетика и эволюция. 31 (3): 874–9. Дои:10.1016 / j.ympev.2003.10.008. PMID  15120385.
  20. ^ Де Лаэт Дж (2015). «Экономичный анализ данных невыровненных последовательностей: максимизация гомологии и минимизация гомоплазии, а не минимизация операционных затрат или минимизация одинаково взвешенных преобразований». Кладистика. 31 (5): 550–567. Дои:10.1111 / cla.12098.
  21. ^ Чор Б., Туллер Т. (июнь 2005 г.). «Максимальная вероятность эволюционных деревьев: твердость и приближение». Биоинформатика (Оксфорд, Англия). 21 Дополнение 1: i97–106. Дои:10.1093 / биоинформатика / bti1027. PMID  15961504.
  22. ^ Эль-Кебир М., Эспер Л., Ачесон-Филд Х, Рафаэль Б.Дж. (июнь 2015 г.). «Реконструкция клональных деревьев и опухолевого состава из данных секвенирования с несколькими образцами». Биоинформатика. 31 (12): i62-70. Дои:10.1093 / биоинформатика / btv261. ЧВК  4542783. PMID  26072510.
  23. ^ Маликич С., Макферсон А.В., Донмез Н., Сахиналп С.С. (май 2015 г.). «Вывод клональности в нескольких образцах опухолей с использованием филогении». Биоинформатика. 31 (9): 1349–56. Дои:10.1093 / биоинформатика / btv003. PMID  25568283.
  24. ^ Мау Б., Ньютон М.А. (1997). «Филогенетический вывод для двоичных данных на дендрограммах с использованием цепи Маркова Монте-Карло». Журнал вычислительной и графической статистики. 6 (1): 122–131. Дои:10.2307/1390728. JSTOR  1390728.
  25. ^ Ян З., Раннала Б. (июль 1997 г.). "Байесовский филогенетический вывод с использованием последовательностей ДНК: метод Монте-Карло цепи Маркова". Молекулярная биология и эволюция. 14 (7): 717–24. Дои:10.1093 / oxfordjournals.molbev.a025811. PMID  9214744.
  26. ^ Колачковски Б., Торнтон Дж. В. (декабрь 2009 г.). Делпорт W (ред.). «Предвзятость притяжения длинных ветвей и непоследовательность в байесовской филогенетике». PLOS ONE. 4 (12): e7891. Bibcode:2009PLoSO ... 4,7891 тыс.. Дои:10.1371 / journal.pone.0007891. ЧВК  2785476. PMID  20011052.
  27. ^ Симмонс, М. П. (2012). «Вводящие в заблуждение результаты филогенетического анализа, основанного на правдоподобии, при наличии недостающих данных». Кладистика. 28 (2): 208–222. Дои:10.1111 / j.1096-0031.2011.00375.x. S2CID  53123024.
  28. ^ Larget B (июль 2013 г.). «Оценка дерева апостериорных вероятностей с использованием условных распределений вероятностей клады». Систематическая биология. 62 (4): 501–11. Дои:10.1093 / sysbio / syt014. ЧВК  3676676. PMID  23479066.
  29. ^ а б Ray S, Jia B, Safavi S, van Opijnen T., Isberg R, Rosch J, Bento J (22 августа 2019 г.). «Точный вывод в рамках совершенной модели филогении». arXiv:1908.08623. Bibcode:2019arXiv190808623R. Цитировать журнал требует | журнал = (помощь)
  30. ^ Цзян Ю., Цю Ю., Минн А.Дж., Чжан Н.Р. (сентябрь 2016 г.). «Оценка внутриопухолевой гетерогенности и отслеживание продольной и пространственной истории эволюции клонов с помощью секвенирования следующего поколения». Труды Национальной академии наук Соединенных Штатов Америки. 113 (37): E5528-37. Дои:10.1073 / pnas.1522203113. ЧВК  5027458. PMID  27573852.
  31. ^ Дешвар А.Г., Вембу С., Юнг К.К., Джанг Г.Х., Стейн Л., Моррис К. (февраль 2015 г.). «PhyloWGS: реконструкция субклонального состава и эволюции на основе полногеномного секвенирования опухолей». Геномная биология. 16 (1): 35. Дои:10.1186 / s13059-015-0602-8. ЧВК  4359439. PMID  25786235.
  32. ^ а б c d е ж Салливан Дж, Джойс П. (2005). «Выбор модели в филогенетике». Ежегодный обзор экологии, эволюции и систематики. 36 (1): 445–466. Дои:10.1146 / annurev.ecolsys.36.102003.152633. ЧВК  3144157. PMID  20671039.
  33. ^ Галтье Н., Гуи М. (июль 1998 г.). «Вывод модели и процесса: реализация с максимальной вероятностью неоднородной модели эволюции последовательности ДНК для филогенетического анализа». Молекулярная биология и эволюция. 15 (7): 871–9. Дои:10.1093 / oxfordjournals.molbev.a025991. PMID  9656487.
  34. ^ Fitch WM, Марковиц E (октябрь 1970 г.). «Усовершенствованный метод определения изменчивости кодонов в гене и его применение для определения скорости фиксации мутаций в процессе эволюции». Биохимическая генетика. 4 (5): 579–93. Дои:10.1007 / bf00486096. PMID  5489762. S2CID  26638948.
  35. ^ Pol D (декабрь 2004 г.). «Эмпирические задачи теста иерархического отношения правдоподобия для выбора модели». Систематическая биология. 53 (6): 949–62. Дои:10.1080/10635150490888868. PMID  15764562.
  36. ^ Баст Ф (2013). «Поиск сходства последовательностей, выравнивание множественных последовательностей, выбор модели, матрица расстояний и реконструкция филогении». Обмен протоколами. Дои:10.1038 / protex.2013.065.
  37. ^ Ruan Y, House GL, Ekanayake S, Schütte U, Bever JD, Tang H, Fox G (26 мая 2014 г.). «Интеграция кластеризации и многомерного масштабирования для определения филогенетических деревьев в виде сферических филограмм, визуализированных в 3-х измерениях». 2014 14-й международный симпозиум IEEE / ACM по кластерам, облачным и сетевым вычислениям. IEEE. С. 720–729. Дои:10.1109 / CCGrid.2014.126. ISBN  978-1-4799-2784-5. S2CID  9581901.
  38. ^ Баум Д.А., Смит С.Д. (2013). Мышление о деревьях: введение в филогенетическую биологию. Робертс. п. 442. ISBN  978-1-936221-16-5.
  39. ^ Фельзенштейн Дж (июль 1985 г.). «Пределы уверенности в филогении: подход с использованием Bootstrap». Эволюция; Международный журнал органической эволюции. 39 (4): 783–791. Дои:10.2307/2408678. JSTOR  2408678. PMID  28561359.
  40. ^ Хиллис Д.М., Бык JJ (1993). «Эмпирический тест бутстрепинга как метод оценки уверенности в филогенетическом анализе». Систематическая биология. 42 (2): 182–192. Дои:10.1093 / sysbio / 42.2.182. ISSN  1063-5157.
  41. ^ Huelsenbeck J, Rannala B (декабрь 2004 г.). «Частотные свойства байесовских апостериорных вероятностей филогенетических деревьев при простых и сложных моделях замещения». Систематическая биология. 53 (6): 904–13. Дои:10.1080/10635150490522629. PMID  15764559.
  42. ^ Chemisquy MA, Prevosti FJ (2013). «Оценка эффекта размера клады в альтернативных мерах поддержки отрасли». Журнал зоологической систематики и эволюционных исследований: н / д. Дои:10.1111 / jzs.12024.
  43. ^ Филлипс М.Дж., Делсук Ф., Пенни Д. (июль 2004 г.). «Филогения в масштабе генома и выявление систематических ошибок» (PDF). Молекулярная биология и эволюция. 21 (7): 1455–8. Дои:10.1093 / молбев / мш137. PMID  15084674.
  44. ^ а б Голобофф П.А., Карпентер Дж. М., Ариас Дж. С., Эскивель Д. Р. (2008). «Взвешивание против гомоплазии улучшает филогенетический анализ морфологических наборов данных». Кладистика. 24 (5): 758–773. Дои:10.1111 / j.1096-0031.2008.00209.x. HDL:11336/82003. S2CID  913161.
  45. ^ Голобов П.А. (1997). «Самовзвешенная оптимизация: поиск по дереву и реконструкция состояния персонажа при предполагаемых затратах на преобразование». Кладистика. 13 (3): 225–245. Дои:10.1111 / j.1096-0031.1997.tb00317.x. S2CID  196595734.
  46. ^ Арнольд М.Л. (1996). Естественная гибридизация и эволюция. Нью-Йорк: Издательство Оксфордского университета. п. 232. ISBN  978-0-19-509975-1.
  47. ^ Вендел Дж. Ф., Дойл Дж. Дж. (1998). «Секвенирование ДНК». В Soltis DE, Солтис PS, Дойл Дж. Дж. (Ред.). Молекулярная систематика растений II. Бостон: Клувер. С. 265–296. ISBN  978-0-19-535668-7.
  48. ^ Funk DJ, Омланд К.Э. (2003). «Парафилия и полифилия на уровне видов: частота, причины и последствия, на основе анализа митохондриальной ДНК животных». Ежегодный обзор экологии, эволюции и систематики. 34: 397–423. Дои:10.1146 / annurev.ecolsys.34.011802.132421.
  49. ^ «Генеалогия жизни (GoLife)». Национальный фонд науки. Получено 5 мая 2015. Программа GoLife основывается на программе AToL, учитывая сложность моделей диверсификации на протяжении всей истории жизни. Наши текущие знания о таких процессах, как гибридизация, эндосимбиоз и латеральный перенос генов, ясно показывают, что эволюционную историю жизни на Земле нельзя точно описать как единое типологическое бифуркационное дерево.
  50. ^ Цюй И, Чжан Р., Цюань Цюй, Сонг Дж, Ли Ш, Лэй Ф (декабрь 2012 г.). «Неполная сортировка по происхождению или вторичная примесь: устранение исторического расхождения с недавним потоком генов у борзогорлого попугая (Paradoxornis webbianus)». Молекулярная экология. 21 (24): 6117–33. Дои:10.1111 / mec.12080. PMID  23095021. S2CID  22635918.
  51. ^ Поллард Д.А., Айер В.Н., Моисей А.М., Эйзен М.Б. (октябрь 2006 г.). «Широко распространенное несоответствие генных деревьев дереву видов у Drosophila: свидетельство неполной сортировки по родословным». PLOS Genetics. 2 (10): e173. Дои:10.1371 / journal.pgen.0020173. ЧВК  1626107. PMID  17132051.
  52. ^ Zwickl DJ, Hillis DM (август 2002 г.). «Увеличение выборки таксонов значительно снижает филогенетические ошибки». Систематическая биология. 51 (4): 588–98. Дои:10.1080/10635150290102339. PMID  12228001.
  53. ^ Wiens JJ (февраль 2006 г.). «Недостающие данные и дизайн филогенетических анализов». Журнал биомедицинской информатики. 39 (1): 34–42. Дои:10.1016 / j.jbi.2005.04.001. PMID  15922672.
  54. ^ Бломберг С.П., Гарланд Т., Айвз А.Р. (апрель 2003 г.). «Тестирование филогенетического сигнала в сравнительных данных: поведенческие черты более лабильны». Эволюция; Международный журнал органической эволюции. 57 (4): 717–45. Дои:10.1111 / j.0014-3820.2003.tb00285.x. PMID  12778543. S2CID  221735844.
  55. ^ а б c Арчи Дж. В. (1985). «Методы кодирования переменных морфологических признаков для численного таксономического анализа». Систематическая зоология. 34 (3): 326–345. Дои:10.2307/2413151. JSTOR  2413151.
  56. ^ Prevosti FJ, Chemisquy MA (2009). «Влияние отсутствующих данных на реальные морфологические филогении: влияние количества и распределения отсутствующих записей». Кладистика. 26 (3): 326–339. Дои:10.1111 / j.1096-0031.2009.00289.x. HDL:11336/69010. S2CID  86850694.
  57. ^ Коббетт А., Уилкинсон М., Уиллс М.А. (октябрь 2007 г.). «Окаменелости воздействуют так же сильно, как живые таксоны в экономном анализе морфологии». Систематическая биология. 56 (5): 753–66. Дои:10.1080/10635150701627296. PMID  17886145.
  58. ^ Huelsenbeck JP (1994). «Сравнение стратиграфической записи с оценками филогении». Палеобиология. 20 (4): 470–483. Дои:10,1017 / с009483730001294x. JSTOR  2401230.

дальнейшее чтение

внешняя ссылка