Максимальная экономия (филогенетика) - Maximum parsimony (phylogenetics)

В филогенетика, максимальная экономия является критерий оптимальности под которым филогенетическое дерево который сводит к минимуму общее количество изменений состояния символа, является предпочтительным. По критерию максимальной экономии оптимальное дерево минимизирует количество гомоплазия (т.е. конвергентная эволюция, параллельная эволюция, и эволюционные повороты ). Другими словами, по этому критерию наилучшим считается самое короткое дерево, которое объясняет данные. Принцип сродни бритва Оккама, который гласит, что при прочих равных должна быть выбрана простейшая гипотеза, объясняющая данные. Некоторые из основных идей максимальной экономии были представлены Джеймсом С. Фаррисом. [1] в 1970 и Уолтер М. Фитч в 1971 г.[2]

Максимальная экономия - интуитивно понятный и простой критерий, и именно поэтому он популярен. Однако, хотя это легко счет филогенетическое дерево (путем подсчета количества изменений состояния символа), нет алгоритма для быстрого генерировать самое экономное дерево. Вместо этого самое экономное дерево должно быть найдено в «пространстве деревьев» (т.е. среди всех возможных деревьев). Для небольшого числа таксонов (т.е. менее девяти) можно выполнить исчерпывающий поиск, в котором оценивается каждое возможное дерево и выбирается лучшее. Для девяти-двадцати таксонов, как правило, предпочтительно использовать разветвленный, который также гарантированно вернет лучшее дерево. Для большего количества таксонов a эвристический поиск должен быть выполнен.

Поскольку самое экономное дерево всегда является самым коротким деревом, это означает, что по сравнению с «истинным» деревом, которое фактически описывает эволюционную историю изучаемых организмов, «лучшее» дерево в соответствии с критерием максимальной экономии будет часто недооценивают произошедшее эволюционное изменение. Кроме того, максимальная экономия статистически несовместима. То есть не гарантируется создание истинного дерева с высокой вероятностью при наличии достаточных данных. Как было продемонстрировано в 1978 г. Джо Фельзенштейн,[3] максимальная экономия может быть непоследовательной при определенных условиях, например, притяжение длинных ветвей. Конечно, любой филогенетический алгоритм также может быть статистически несовместимым, если модель, которую он использует для оценки предпочтительного дерева, не точно соответствует тому, как происходила эволюция в этой кладе. Это непостижимо. Следовательно, хотя статистическая согласованность является интересным теоретическим свойством, оно выходит за рамки проверяемости и не имеет отношения к эмпирическим филогенетическим исследованиям.[4]

Альтернативная характеристика и обоснование

Максимизация экономичности (предпочтение более простой из двух в остальном одинаково адекватных теорий) оказалась полезной во многих областях. Бритва Оккама, принцип теоретической экономии, предложенный Уильям Оккам в 1320-х годах утверждал, что напрасно давать объяснения, которые включают больше предположений, чем необходимо.

С другой стороны, филогенетическая экономия может быть охарактеризована как предпочтение деревьев, которые максимизируют объяснительную силу за счет сведения к минимуму количества наблюдаемых сходств, которые не могут быть объяснены наследованием или общим происхождением.[5][6] Минимизация необходимых эволюционных изменений, с одной стороны, и максимизация наблюдаемых сходств, которые можно объяснить как гомологию, с другой, могут привести к различным предпочтительным деревьям, когда некоторые наблюдаемые особенности не применимы к некоторым группам, включенным в дерево, а последние могут можно рассматривать как более общий подход.[7][8]

Хотя эволюция не является по своей сути скупым процессом, многовековой научный опыт подтверждает вышеупомянутый принцип экономии (бритва Оккама ). А именно, предположение о более простой, более скупой цепочке событий предпочтительнее, чем предположение о более сложной, менее скупой цепочке событий. Следовательно, экономия (Sensu lato) обычно ищут при построении филогенетических деревьев и в целом для научного объяснения.[9]

В деталях

Экономия является частью класса методов оценки дерева на основе символов, которые используют матрица дискретных филогенетических признаков, чтобы вывести один или несколько оптимальных филогенетические деревья для набора таксоны, обычно набор разновидность или репродуктивно изолированные население одного вида. Эти методы работают, оценивая филогенетические деревья кандидатов в соответствии с явным критерий оптимальности; дерево с наиболее благоприятной оценкой считается наилучшей оценкой филогенетических взаимоотношений включенных таксонов. Максимальная экономия используется с большинством филогенетических данных; до недавнего времени это был единственный широко используемый метод оценки дерева на основе символов, используемый для морфологических данных.

Оценка филогении - нетривиальная задача. Существует огромное количество возможных филогенетических деревьев для любого набора таксонов разумного размера; например, всего десять видов дают более двух миллионов возможных неукорененных деревьев. Эти возможности необходимо изучить, чтобы найти дерево, которое наилучшим образом соответствует данным в соответствии с критерием оптимальности. Однако сами данные не приводят к простому арифметическому решению проблемы. В идеале мы должны ожидать распределения любых эволюционных персонажей (таких как фенотипические признаки или же аллели ), чтобы прямо следовать схеме ветвления эволюции. Таким образом, мы могли бы сказать, что если два организма обладают общим признаком, они должны быть более тесно связаны друг с другом, чем с третьим организмом, который лишен этого признака (при условии, что этот признак не присутствовал в последнем общем предке всех трех, и в этом случае это было бы симплезиоморфия ). Мы могли бы предсказать, что летучие мыши и обезьяны более тесно связаны друг с другом, чем со слоном, потому что летучие мыши-самцы и обезьяны обладают внешними яички, чего не хватает слонам. Однако мы не можем сказать, что летучие мыши и обезьяны более тесно связаны друг с другом, чем с китами, хотя у этих двоих внешние яички отсутствуют у китов, потому что мы полагаем, что самцы последнего общего предкового вида из трех имели внешние яички. .

Однако явления конвергентная эволюция, параллельная эволюция, и эволюционные повороты (вместе именуемые гомоплазия) добавляют неприятную морщину к проблеме оценки филогении. По ряду причин два организма могут обладать признаком, отсутствующим у их последнего общего предка: если бы мы наивно восприняли наличие этого признака как свидетельство родства, мы бы построили неверное дерево. Настоящие филогенетические данные включают существенную гомоплазию, причем разные части данных предполагают иногда очень разные отношения. Методы, используемые для оценки филогенетических деревьев, явно предназначены для разрешения конфликта в данных путем выбора филогенетического дерева, которое лучше всего подходит для всех данных в целом, принимая, что некоторые данные просто не подходят. Часто ошибочно полагают, что экономия предполагает редкость конвергенции; Фактически, даже конвергентно полученные символы имеют некоторую ценность в филогенетическом анализе, основанном на максимальной экономии, и распространенность конвергенции не влияет систематически на результат методов, основанных на экономии.[10]

Данные, которые не подходят дереву полностью, не являются просто «шумом», они могут содержать релевантный филогенетический сигнал в некоторых частях дерева, даже если они конфликтуют с деревом в целом. В приведенном выше примере с китами отсутствие наружных яичек у китов является гомопластическим: оно отражает возвращение к состоянию, присутствующему у древних предков млекопитающих, у которых яички были внутренними. Это сходство между китами и предками древних млекопитающих противоречит принятому нами дереву, поскольку подразумевает, что млекопитающие с внешними яичками должны образовывать группу, за исключением китов. Однако у китов обращение к внутренним яичкам на самом деле правильно связывает различные типы китов (включая дельфинов и морских свиней) в группу. Китообразные. Тем не менее, определение наиболее подходящего дерева - и, следовательно, того, какие данные не соответствуют дереву - является сложным процессом. Максимальная экономия - один из методов, разработанных для этого.

Данные персонажа

Входные данные, используемые в анализе максимальной экономии, представлены в форме «знаков» для ряда таксонов. Не существует общепринятого определения филогенетического признака, но с практической точки зрения признак можно рассматривать как атрибут, ось, вдоль которой наблюдаются изменения таксонов. Эти атрибуты могут быть физическими (морфологическими), молекулярными, генетическими, физиологическими или поведенческими. Похоже, что единственное широко распространенное согласие относительно персонажей состоит в том, что вариации, используемые для анализа персонажей, должны отражать наследственная вариация. Вопрос о том, должно ли это быть прямым наследуемым, или допустимо косвенное наследование (например, приобретенное поведение), полностью не решен.

Каждый персонаж разделен на отдельные состояния персонажей, на которые классифицируются наблюдаемые вариации. Состояния символов часто формулируются как дескрипторы, описывающие состояние символьной основы. Например, символ «цвет глаз» может иметь состояния «синий» и «коричневый». Персонажи могут иметь два или более состояний (у них может быть только одно, но эти символы ничего не дают для анализа максимальной экономии и часто исключаются).

Кодирование символов для филогенетического анализа не является точной наукой, и существует множество сложных вопросов. Как правило, таксоны оцениваются по одному и тому же состоянию, если они больше похожи друг на друга по этому конкретному признаку, чем каждый из таксонов, оцениваемых по другому состоянию. Это непросто, когда состояния персонажа четко не очерчены или когда они не могут уловить все возможные вариации персонажа. Как можно оценить ранее упомянутый персонаж для таксона (или индивидуума) с карими глазами? Или зеленый? Как отмечалось выше, кодирование символов обычно основано на сходстве: карие и зеленые глаза могут быть смешаны с синими, потому что они больше похожи на этот цвет (будучи светлыми), а затем символ может быть перекодирован как «цвет глаз: светлый; темный. " В качестве альтернативы могут быть символы с несколькими состояниями, например «цвет глаз: коричневый; ореховый, синий; зеленый».

Неоднозначность в определении и оценке состояния характера может быть основным источником путаницы, споров и ошибок в филогенетическом анализе с использованием данных характера. Обратите внимание, что в приведенном выше примере «eyes: present; absent» также является возможным символом, что создает проблемы, поскольку «цвет глаз» неприменим, если глаза отсутствуют. Для таких ситуаций знак "?" («неизвестно») оценивается, хотя иногда оценивается «Х» или «-» (последнее обычно в последовательность data) используются, чтобы отличить случаи, когда персонаж не может быть оценен, от случая, когда состояние просто неизвестно. Текущие реализации максимальной экономии обычно обрабатывают неизвестные значения таким же образом: причины, по которым данные неизвестны, не имеют особого влияния на анализ. Эффективно программа лечит? как если бы он содержал состояние, включающее наименьшее количество дополнительных шагов в дереве (см. ниже), хотя это не явный шаг в алгоритме.

Генетические данные особенно подходят для основанных на признаках филогенетических методов, таких как максимальная экономия, потому что белковые и нуклеотидные последовательности естественным образом дискретны: конкретное положение в нуклеотидная последовательность может быть аденин, цитозин, гуанин, или же тимин / урацил, или разрыв в последовательности; позиция (остаток ) в белковая последовательность будет одним из основных аминокислоты или разрыв в последовательности. Таким образом, оценка персонажей редко бывает неоднозначной, за исключением случаев, когда последовательность действий методы не могут произвести окончательное присвоение конкретной позиции последовательности. Пробелы в последовательности иногда рассматриваются как символы, хотя единого мнения о том, как их следует кодировать, нет.

Символы можно рассматривать как неупорядоченные или упорядоченные. Для двоичного символа (с двумя состояниями) это не имеет большого значения. Для персонажа с несколькими состояниями неупорядоченные символы могут рассматриваться как имеющие одинаковую «стоимость» (с точки зрения количества «эволюционных событий») для перехода из одного состояния в любое другое; дополнительно они не требуют прохождения через промежуточные состояния. Упорядоченные символы имеют особую последовательность, в которой состояния должны происходить в процессе эволюции, так что переход между некоторыми состояниями требует прохождения через промежуточное звено. Это можно рассматривать как дополнение к разным затратам, передаваемым между разными парами состояний. В приведенном выше примере цвета глаз его можно оставить неупорядоченным, что требует той же эволюционной «стоимости» перехода от коричнево-синего, зелено-синего, зеленого-орехового и т. Д. В качестве альтернативы можно заказать коричнево-ореховый -зелено-голубой; Обычно это означало бы, что для перехода от коричнево-зеленого к зеленому, трех от коричнево-синего и только одного от коричнево-орехового всего до одного. Это также можно рассматривать как требование, чтобы глаза эволюционировали через «карие стадию», чтобы перейти от коричневого к зеленому, и «зеленую стадию», чтобы перейти от орехового к синему и т. Д. Для многих персонажей не очевидно, если и как их надо заказывать. Напротив, для символов, которые представляют дискретизацию лежащей в основе непрерывной переменной, такой как символы формы, размера и соотношения, порядок логичен,[11] и моделирования показали, что это улучшает способность восстанавливать правильные клады, уменьшая восстановление ошибочных клад.[12][13][14]

О полезности и целесообразности упорядочивания персонажей ведутся оживленные дискуссии, но единого мнения нет. Некоторые авторитеты заказывают персонажей, когда есть ясная логика, онтогенетический, или эволюционный переход между состояниями (например, «ноги: короткие; средние; длинные»). Некоторые принимают только некоторые из этих критериев. Некоторые запускают неупорядоченный анализ и упорядочивают символы, которые показывают четкий порядок перехода в результирующем дереве (в чем можно обвинить практику круговое рассуждение ). Некоторые авторитеты вообще отказываются упорядочивать персонажей, предполагая, что это искажает анализ, требуя эволюционных переходов для следования определенному пути.

Также можно применить дифференциальное взвешивание к отдельным символам. Обычно это делается относительно «стоимости», равной 1. Таким образом, некоторые признаки могут рассматриваться как более вероятно отражающие истинные эволюционные отношения между таксонами, и, следовательно, они могут быть взвешены по значению 2 или более; изменения в этих персонажах будут тогда засчитываться как два эволюционных «шага», а не за один при подсчете оценок дерева (см. ниже). В прошлом было много дискуссий о взвешивании персонажей. Большинство авторитетов теперь оценивают всех персонажей одинаково, хотя исключения случаются. Например, частота аллеля данные иногда объединяются в бункеры и оцениваются как упорядоченный символ. В этих случаях вес самого признака часто понижается, так что небольшие изменения в частотах аллелей учитываются меньше, чем серьезные изменения других признаков. Также третий кодон позиция в кодировке нуклеотидная последовательность является особенно лабильным, и иногда его вес понижается или ему присваивается вес 0, исходя из предположения, что он более склонен к гомоплазии. В некоторых случаях выполняется повторный анализ, при этом символы повторно взвешиваются в обратная пропорция в степени гомоплазии, обнаруженной в предыдущем анализе (названной последовательное взвешивание ); это еще один метод, который можно рассмотреть круговое рассуждение.

Изменения состояния персонажа также могут быть взвешены индивидуально. Это часто делается для нуклеотидная последовательность данные; эмпирически установлено, что определенные базовые изменения (A-C, A-T, G-C, G-T и обратные изменения) происходят гораздо реже, чем другие (A-G, C-T и их обратные изменения). Поэтому эти изменения часто имеют больший вес. Как показано выше при обсуждении порядка символов, упорядоченные символы можно рассматривать как форму взвешивания состояния символа.

Некоторые систематики предпочитают исключать символы, о которых известно или подозревается в высокой степени гомопластичности или которые имеют большое количество неизвестных записей («?»). Как указано ниже, теоретические исследования и моделирование показали, что это скорее принесет в жертву точности, чем повысит ее. То же самое и с признаками, которые изменчивы в терминальных таксонах: теоретические исследования, исследования конгруэнтности и моделирования продемонстрировали, что такие полиморфные признаки содержат важную филогенетическую информацию.[нужна цитата ]

Выборка таксона

Время, необходимое для анализа экономичности (или любого филогенетического анализа), пропорционально количеству таксоны (и персонажи) включены в анализ. Кроме того, поскольку большее количество таксонов требует оценки большего числа ветвей, больших анализов можно ожидать большей неопределенности. Поскольку затраты времени и денег на сбор данных часто напрямую зависят от количества включенных таксонов, большинство анализов включает только часть таксонов, отобранных для выборки. Действительно, некоторые авторы утверждали, что четыре таксона (минимум, необходимый для создания значимого дерева без корней) - это все, что необходимо для точного филогенетического анализа, и что больше признаков более ценны, чем больше таксонов в филогенетике. Это привело к ожесточенным спорам по поводу выборки таксонов.

Эмпирические, теоретические и имитационные исследования привели к ряду ярких демонстраций важности адекватной выборки таксонов. Большинство из них можно резюмировать простым наблюдением: матрица филогенетических данных имеет размеры символов. раз таксоны. Удвоение количества таксонов увеличивает вдвое количество информации в матрице так же верно, как удвоение количества знаков. Каждый таксон представляет собой новый образец для каждого символа, но, что более важно, он (обычно) представляет новый сочетание состояний характера. Эти состояния признаков могут не только определять, где этот таксон помещен на дереве, они могут информировать весь анализ, возможно, вызывая предпочтение различных отношений между оставшимися таксонами, изменяя оценки паттерна изменений признаков.

Самая тревожная слабость анализа экономичности - слабость притяжение длинных ветвей (см. ниже) особенно ярко проявляется при плохой выборке таксонов, особенно в случае четырех таксонов. Это хорошо известный случай, когда дополнительная выборка символов не может улучшить качество оценки. По мере добавления таксонов они часто разделяют длинные ветви (особенно в случае окаменелостей), эффективно улучшая оценку изменений состояния признаков вдоль них. Из-за обилия информации, добавляемой выборкой таксонов, можно даже произвести высокоточные оценки филогении с сотнями таксонов, используя всего несколько тысяч знаков.[нужна цитата ]

Несмотря на то, что было проведено множество исследований, предстоит еще много работы по стратегиям выборки таксонов. Из-за достижений в производительности компьютеров, а также снижения стоимости и увеличения автоматизации молекулярного секвенирования, размеры выборки в целом растут, и исследования, посвященные взаимосвязям сотен таксонов (или других конечных объектов, таких как гены), становятся обычным явлением. Конечно, это не означает, что добавление символов также бесполезно; количество символов также увеличивается.

Некоторые систематики предпочитают исключать таксоны на основании количества отображаемых в них неизвестных знаков («?») Или потому, что они имеют тенденцию «прыгать» по дереву при анализе (т.е. они являются «символами подстановки»). Как отмечено ниже, теоретические исследования и моделирование показали, что это скорее принесет в жертву точности, чем повысит ее. Хотя эти таксоны могут генерировать более экономные деревья (см. Ниже), такие методы, как поддеревья согласования и уменьшенный консенсус, все же могут извлекать информацию об интересующих взаимосвязях.

Было замечено, что включение большего количества таксонов имеет тенденцию к снижению общих значений поддержки (бутстрап проценты или индексы распада, см. ниже). Причина этого ясна: по мере того, как к дереву добавляются дополнительные таксоны, они разделяют ветви, к которым они прикрепляются, и таким образом разбавляют информацию, которая поддерживает эту ветвь. В то время как поддержка отдельных ветвей уменьшается, поддержка общих отношений фактически увеличивается. Рассмотрим анализ, который дает следующее дерево: (рыба, (ящерица, (кит, (кошка, обезьяна)))). Добавление крысы и моржа, вероятно, уменьшит поддержку клады (кит, (кошка, обезьяна)), потому что крыса и морж могут попасть в эту кладу или за ее пределы, и поскольку все эти пять животных относительно тесно связаны, должно быть больше неуверенности в их отношениях. В пределах ошибки может быть невозможно определить отношения этих животных друг к другу. Однако крыса и морж, вероятно, добавят данные о характере, которые закрепят группировку любых двух из этих млекопитающих, за исключением рыбы или ящерицы; где первоначальный анализ мог быть введен в заблуждение, скажем, из-за наличия плавников у рыбы и кита, присутствия моржа с жиром и плавниками, как у кита, но усами, как у кошки и крысы, прочно привязывают кита к млекопитающие.

Чтобы справиться с этой проблемой, поддеревья соглашения, снижение консенсуса, и анализ двойного распада стремятся идентифицировать поддерживаемые отношения (в форме «утверждений о n-таксонах», таких как утверждение о четырех таксонах «(рыба, (ящерица, (кошка, кит)))»), а не целые деревья. Если целью анализа является разрешенное дерево, как в случае сравнительная филогенетика, эти методы не могут решить проблему. Однако, если оценка дерева так плохо поддерживается, результаты любого анализа, полученного на основе дерева, вероятно, будут слишком подозрительными, чтобы их все равно использовать.

Анализ

Анализ максимальной экономии выполняется очень просто. Деревья оцениваются в соответствии со степенью, в которой они подразумевают скупое распределение символьных данных. Наиболее экономичное дерево для набора данных представляет собой предпочтительную гипотезу о взаимосвязях между таксонами в анализе.

Деревья оцениваются (оцениваются) с помощью простого алгоритма, чтобы определить, сколько «шагов» (эволюционных переходов) требуется для объяснения распределения каждого символа. Шаг - это, по сути, переход от одного состояния символа к другому, хотя с упорядоченными символами некоторые переходы требуют более одного шага. Вопреки распространенному мнению, алгоритм не назначает явно определенные состояния символов узлам (соединениям ветвей) на дереве: наименьшее количество шагов может включать множественные, равно затратные назначения и распределения эволюционных переходов. Оптимизируется общее количество изменений.

Есть еще много возможных филогенетические деревья чем можно провести исчерпывающий поиск более восьми таксонов или около того. Поэтому для поиска среди возможных деревьев используется ряд алгоритмов. Многие из них включают взятие исходного дерева (обычно предпочтительное дерево из последней итерации алгоритма) и его изменение, чтобы увидеть, дает ли изменение более высокий балл.

Деревья, полученные в результате поиска экономичности, не имеют корней: они показывают все возможные отношения включенных таксонов, но в них отсутствуют какие-либо сведения об относительном времени дивергенции. Конкретная ветвь выбирается пользователем для корня дерева. Затем считается, что эта ветвь находится вне всех других ветвей дерева, которые вместе образуют монофилетический группа. Это придает дереву ощущение относительного времени. Неправильный выбор корня может привести к неправильным отношениям в дереве, даже если само дерево является правильным в своей некорневой форме.

Анализ экономичности часто возвращает ряд столь же экономных деревьев (MPT). Большое количество MPT часто рассматривается как аналитический сбой и, как широко считается, связано с количеством пропущенных записей («?») В наборе данных, символами, показывающими слишком много гомоплазии, или наличием топологически лабильных «подстановочных знаков» таксоны (которые могут иметь много пропущенных записей). Было предложено множество методов для уменьшения количества MPT, включая удаление признаков или таксонов с большим количеством недостающих данных перед анализом, удаление или снижение веса высокогомопластичных признаков (последовательное взвешивание ) или удаление таксонов с подстановочными знаками ( филогенетический ствол метод) апостериорный а затем повторно проанализировать данные.

Многочисленные теоретические исследования и имитационные исследования показали, что высокогомопластные признаки, признаки и таксоны с большим количеством пропущенных данных, а также таксоны "подстановочных знаков" способствуют анализу. Хотя исключение признаков или таксонов может показаться улучшающим разрешение, полученное дерево основано на меньшем количестве данных и, следовательно, является менее надежной оценкой филогении (если признаки или таксоны не являются информативными, см. безопасная таксономическая редукция ). Сегодняшний общий консенсус состоит в том, что наличие нескольких MPT является достоверным аналитическим результатом; он просто указывает на то, что данных недостаточно для полного разрешения дерева. Во многих случаях в MPT имеется существенная общая структура, а различия незначительны и включают неопределенность в размещении нескольких таксонов. Существует несколько методов резюмирования отношений в этом наборе, включая деревья консенсуса, которые показывают общие отношения между всеми таксонами, и обрезанные поддеревья соглашения, которые демонстрируют общую структуру путем временного удаления таксонов с подстановочными знаками из каждого дерева, пока все они не согласятся. Снижение консенсуса делает еще один шаг вперед, показывая все поддеревья (и, следовательно, все отношения), поддерживаемые входными деревьями.

Даже если возвращается несколько MPT, экономичный анализ по-прежнему дает точечную оценку, в которой отсутствует доверительные интервалы любого рода. Это часто называют критикой, поскольку, безусловно, есть ошибка в оценке самого экономного дерева, и метод по своей сути не включает никаких средств определения того, насколько чувствительны его выводы к этой ошибке. Для оценки поддержки было использовано несколько методов.

Складывание и самонастройка, известный статистическая повторная выборка процедуры, использовались с анализом экономичности. Складной нож, который включает в себя повторную выборку без замены («исключение одного»), может применяться к признакам или таксонам; В последнем случае интерпретация может усложниться, потому что интересующей переменной является дерево, а сравнение деревьев с разными таксонами не является простым делом. Бутстрап, передискретизация с заменой (выборка x элементов случайным образом из выборки размера x, но элементы могут быть выбраны несколько раз), используется только для символов, потому что добавление повторяющихся таксонов не меняет результат анализа экономичности. Бутстрап гораздо чаще используется в филогенетике (как и везде); оба метода включают произвольное, но большое количество повторений, включающих возмущение исходных данных с последующим анализом. Результирующие MPT из каждого анализа объединяются, и результаты обычно представляются на 50% Консенсус по правилу большинства дерево, с отдельными ветвями (или узлами), помеченными процентом бутстраповских MPT, в которых они появляются. Этот "процент начальной загрузки" (который не является P-значение, как иногда утверждают) используется как мера поддержки. Технически предполагается, что это мера повторяемости, вероятность того, что эта ветвь (узел, кладка) будет восстановлена, если образцы таксонов будут снова взяты. Экспериментальные тесты с вирусной филогенетикой показывают, что процент бутстрапа не является хорошим показателем повторяемости для филогенетики, но это разумный показатель точности.[нужна цитата ] Фактически, было показано, что процент начальной загрузки, как оценка точности, смещен, и что это смещение приводит в среднем к заниженной оценке достоверности (например, всего лишь 70% поддержки может действительно указывать на уверенность до 95%). ). Однако направление смещения не может быть установлено в отдельных случаях, поэтому предположение, что поддержка бутстрапа с высокими значениями указывает на еще большую уверенность, неоправданно.

Еще один способ оценки поддержки: Поддержка Bremer,[15][16] или индекс распада который является параметром данного набора данных, а не оценкой, основанной на псевдореплицируемых подвыборках, как описанные выше процедуры начальной загрузки и складного ножа. Поддержка Бремера (также известная как поддержка ветвей) - это просто разница в количестве шагов между оценкой MPT (ов) и оценкой самого экономного дерева, которое делает нет содержат конкретную кладу (узел, ветвь). Это можно представить как количество шагов, которые вы должны добавить, чтобы потерять кладу; неявно, это означает предположить, насколько велика должна быть ошибка в оценке оценки MPT для того, чтобы клад больше не поддерживался анализом, хотя это не обязательно то, что она делает.Значения поддержки ветвей часто довольно низкие для наборов данных небольшого размера (обычно один или два шага), но они часто оказываются пропорциональными процентам начальной загрузки. По мере того, как матрицы данных становятся больше, значения поддержки переходов часто продолжают расти, поскольку значения начальной загрузки достигают 100%. Таким образом, для больших матриц данных значения поддержки ветвей могут предоставить более информативные средства для сравнения поддержки строго поддерживаемых ветвей.[17] Однако интерпретация значений распада непроста, и они, кажется, предпочитаются авторами с философскими возражениями против бутстрапа (хотя многие морфологические систематики, особенно палеонтологи, сообщают и то, и другое). Анализ двойного распада аналог распада снижение консенсуса который оценивает индекс распада для всех возможных отношений поддеревьев (операторов n-таксонов) в пределах дерева.

Проблемы с филогенетическим выводом максимальной экономии

Пример аттракцион длинной ветви. Если ветви A и C имеют большое количество замен в «истинном дереве» (предполагается, но фактически никогда не известно, кроме как при моделировании), тогда экономия может интерпретировать параллельные изменения как синапоморфии и группы A и C вместе.

Максимальная экономия - это эпистемологически простой подход, который делает несколько механистических предположений и популярен по этой причине. Однако это не может быть статистически согласованный при определенных обстоятельствах. Последовательность, в данном случае монотонная сходимость правильного ответа с добавлением дополнительных данных, является желательным свойством Статистические методы. Как было продемонстрировано в 1978 г. Джо Фельзенштейн,[3] максимальная экономия может быть непоследовательной при определенных условиях. Категория ситуаций, в которых это известно, называется аттракцион длинной ветви, и возникает, например, когда есть длинные ветви (высокий уровень замен) для двух символов (A и C), но короткие ветви для других двух (B и D). A и B расходились от общего предка, как и C и D.

Предположим для простоты, что мы рассматриваем один двоичный символ (это может быть либо +, либо -). Поскольку расстояние от B до D невелико, в подавляющем большинстве случаев B и D будут одинаковыми. Здесь мы будем предполагать, что они оба имеют + (+ и - назначаются произвольно, и их замена - это только вопрос определения). В этом случае остается четыре возможности. A и C могут быть +, и в этом случае все таксоны одинаковы, и все деревья имеют одинаковую длину. A может быть +, а C может быть -, и в этом случае отличается только один символ, и мы ничего не можем узнать, поскольку все деревья имеют одинаковую длину. Точно так же A может быть - и C может быть +. Единственная оставшаяся возможность состоит в том, что A и C оба -. Однако в этом случае данные свидетельствуют о том, что A и C группируются вместе, а B и D вместе. Как следствие, если «истинное дерево» является деревом этого типа, чем больше данных мы собираем (т. Е. Чем больше символов мы изучаем), тем больше свидетельств будет поддерживать неправильное дерево. Конечно, кроме математического моделирования, мы никогда не узнаем, что такое «истинное дерево». Таким образом, если мы не сможем разработать модель, которая гарантированно точно восстанавливает «истинное дерево», любой другой критерий оптимальности или схема взвешивания также могут, в принципе, быть статистически несовместимыми. Суть в том, что, хотя статистическая несогласованность - интересный теоретический вопрос, это эмпирически чисто метафизическая проблема, выходящая за рамки эмпирической проверки. Любой метод может быть непоследовательным, и нет никакого способа узнать наверняка, так оно или нет. Именно по этой причине многие систематики характеризуют свои филогенетические результаты как гипотезы родства.

Еще одна сложность, связанная с максимальной экономией и другими филогенетическими методами, основанными на критериях оптимальности, заключается в том, что поиск самого короткого дерева является непростой задачей. NP-жесткий проблема.[18] Единственный доступный в настоящее время эффективный способ получения решения для произвольно большого набора таксонов - это использование эвристических методов, которые не гарантируют, что будет восстановлено кратчайшее дерево. Эти методы используют алгоритмы восхождения постепенно приближаться к лучшему дереву. Однако было показано, что могут существовать «островки деревьев» субоптимальных решений, и анализ может попасть в ловушку этих локальный оптимум. Таким образом, требуется сложная гибкая эвристика, чтобы гарантировать, что пространство дерева было исследовано должным образом. Доступно несколько эвристик, в том числе развязка ближайшего соседа (NNI), переподключение дерева пополам (TBR), а экономный храповик.

Критика

Утверждалось, что серьезная проблема, особенно для палеонтология, заключается в том, что максимальная экономия предполагает, что единственный способ, которым два вида могут иметь один и тот же нуклеотид в одном и том же положении, - это если они генетически связаны[нужна цитата ]. Это утверждает, что филогенетическое применение экономичности предполагает, что все сходство гомологичный (другие интерпретации, такие как утверждение, что два организма могут нет быть родственными вообще, бессмысленны). Это категорически не так: как и в случае с любой другой формой оценки филогенеза по признакам, экономия используется для проверки гомологичной природы сходства путем поиска филогенетического дерева, которое лучше всего объясняет все сходства.

Часто утверждается, что экономия не имеет отношения к филогенетическим выводам, потому что «эволюция не является экономной».[нужна цитата ] В большинстве случаев явной альтернативы не предлагается; если альтернативы нет, предпочтительнее использовать любой статистический метод, чем его вообще не использовать. Кроме того, неясно, что бы мы имели в виду, если бы утверждение «эволюция экономно» было на самом деле верным. Это может означать, что исторически могло произойти больше изменений характера, чем прогнозируется с использованием критерия экономности. Поскольку оценка филогении экономия восстанавливает минимальное количество изменений, необходимых для объяснения дерева, это вполне возможно. Тем не менее, это было показано с помощью моделирования, тестирования с известными in vitro вирусной филогении и согласованности с другими методами, что точность экономии в большинстве случаев не нарушается. Анализ экономичности использует количество изменений символов на деревьях, чтобы выбрать лучшее дерево, но не требует, чтобы именно столько изменений, и не более того, привело к созданию дерева. Пока изменения, которые не были учтены, случайным образом распределяются по дереву (разумное нулевое ожидание), результат не должен быть смещенным. На практике это надежный метод: максимальная экономия демонстрирует минимальную предвзятость в результате выбора дерева с наименьшим количеством изменений.

Можно провести аналогию с выбором подрядчиков на основе их первоначальной (необязательной) оценки стоимости работы. Фактическая стоимость готовой продукции, скорее всего, будет выше предполагаемой. Несмотря на это, выбор подрядчика, представившего наименьшую смету, теоретически должен привести к наименьшей окончательной стоимости проекта. Это связано с тем, что при отсутствии других данных мы могли бы предположить, что все соответствующие подрядчики имеют одинаковый риск перерасхода средств. На практике, конечно, недобросовестная деловая практика может повлиять на этот результат; в филогенетике тоже некоторые частные филогенетические проблемы (например, аттракцион длинной ветви, описанный выше) может потенциально исказить результаты. Однако в обоих случаях невозможно определить, будет ли результат смещен, или степень, в которой он будет смещен, на основе самой оценки. С осторожностью также невозможно сказать, что данные заведомо вводят в заблуждение, без сравнения с другими доказательствами.

Бережливость часто характеризуется как неявное принятие позиции, согласно которой эволюционные изменения редки или что гомоплазия (конвергенция и обращение) минимальна в эволюции. Это не совсем так: экономия сводит к минимуму количество сходимостей и поворотов, которые предполагаются предпочтительным деревом, но это может привести к относительно большому количеству таких гомопластических событий. Было бы более уместно сказать, что экономия предполагает только минимальное количество изменений, подразумеваемых данными. Как указано выше, для этого не требуется, чтобы произошли единственные изменения; он просто не предполагает изменений, для которых нет свидетельств. Сокращение для описания этого состоит в том, что «экономия сводит к минимуму предполагаемые гомоплазии, она не предполагает, что гомоплазия минимальна».

Бережливость также иногда ассоциируется с представлением о том, что «самое простое возможное объяснение - лучшее», - обобщение Бритва Оккама. Экономия действительно предпочитает решение, которое требует наименьшего количества необоснованных предположений и неподдерживаемых выводов, решение, которое выходит за рамки данных. Это очень распространенный подход к науке, особенно когда речь идет о системах, которые настолько сложны, что не поддаются простым моделям. Экономия никоим образом не обязательно приводит к «простому» предположению. Действительно, как правило, большинство наборов символьных данных настолько "шумно", что по-настоящему "простое" решение невозможно.

Недавние исследования с использованием моделирования показывают, что экономия может быть менее точной, чем деревья, построенные с использованием байесовских подходов к морфологическим данным,[19] потенциально из-за чрезмерной точности,[20] хотя это оспаривается[21]. Исследования с использованием новых методов моделирования показали, что различия между методами вывода являются результатом используемой стратегии поиска и метода консенсуса, а не используемой оптимизации.[22] Кроме того, анализ 38 молекулярных и 86 морфологических наборов эмпирических данных показал, что общий механизм, предполагаемый эволюционными моделями, используемыми в основанной на моделях филогенетике, применим к большинству молекулярных, но немногим морфологическим наборам данных.[23] Это открытие подтверждает использование основанной на моделях филогенетики для молекулярных данных, но предполагает, что для морфологических данных экономия остается предпочтительной, по крайней мере, до тех пор, пока не станут доступны более сложные модели для фенотипических данных.

Альтернативы

Существует несколько других методов определения филогении на основе данных дискретных признаков, включая максимальная вероятность и Байесовский вывод. У каждого есть свои потенциальные преимущества и недостатки. На практике эти методы имеют тенденцию отдавать предпочтение деревьям, которые очень похожи на самые экономные деревья для того же набора данных;[24] однако они позволяют комплексное моделирование эволюционных процессов, и, поскольку классы методов являются статистически согласованный и не восприимчивы к притяжение длинных ветвей. Однако обратите внимание, что эффективность методов правдоподобия и байесовских методов зависит от качества конкретного модель эволюции занятые; неправильная модель может дать необъективный результат - точно так же, как и экономия. Кроме того, они по-прежнему довольно медленны в вычислительном отношении по сравнению с методами экономии, иногда требуя недель для запуска больших наборов данных. У большинства этих методов есть особенно яростные сторонники и противники; бережливость особенно пропагандировалась как философски превосходящая (особенно кладисты ).[нужна цитата ] Одна из областей, в которой экономия все еще имеет большое значение, - это анализ морфологических данных, потому что до недавнего времени стохастические модели изменения характера не были доступны для немолекулярных данных, и они все еще не получили широкого распространения. Также недавно было показано, что экономия с большей вероятностью восстановит истинное дерево перед лицом глубоких изменений в эволюционных («модельных») параметрах (например, скорости эволюционных изменений) внутри дерева.[25]

Матрицы расстояний также может использоваться для создания филогенетических деревьев. Непараметрический дистанционные методы изначально применялись к фенетический данные с использованием матрицы попарных расстояний и согласованы для получения дерево. В матрица расстояний может поступать из разных источников, включая иммунологическая дистанция, морфометрический анализ и генетические расстояния. Для данных филогенетических знаков необработанные значения расстояния могут быть рассчитаны путем простого подсчета количества попарных различий в состояниях знаков (Манхэттенское расстояние ) или применяя модель эволюции. Примечательно, что дистанционные методы также позволяют использовать данные, которые нелегко преобразовать в символьные данные, например ДНК-ДНК гибридизация анализы. Сегодня методы, основанные на расстоянии, часто не одобряются, потому что филогенетически информативные данные могут быть потеряны при преобразовании символов в расстояния. Существует ряд методов матрицы расстояний и критериев оптимальности, из которых минимальная эволюция критерий наиболее тесно связан с максимальной экономией.

Минимальная эволюция

Из числа дистанционные методы существует критерий филогенетической оценки, известный как Минимальная эволюция (ME), который разделяет с максимальной экономией аспект поиска филогении, имеющей самую короткую общую сумму длин ветвей.[26][27]

Тонкое различие отличает критерий максимальной экономии от критерия ME: в то время как максимальная экономия основана на абдуктивной эвристике, т. Е. На правдоподобности простейшей эволюционной гипотезы таксонов по отношению к более сложным, критерий ME основан на Предположения Кидда и Сгарамелла-Зонта (подтвержденные 22 года спустя Ржецким и Неем[28]), утверждая, что если бы эволюционные расстояния от таксонов были непредвзятыми оценками истинных эволюционных расстояний, то истинная филогения таксонов имела бы длину короче, чем любая другая альтернативная филогения, совместимая с этими расстояниями. Результаты Ржецкого и Нея освободили критерий МЭ от бритва Оккама принцип и дать ему прочную теоретическую и количественную основу.[29]

Смотрите также

Рекомендации

  1. ^ Фаррис Дж. С. (март 1970 г.). «Методы вычисления деревьев Вагнера». Систематическая биология. 19 (1): 83–92. Дои:10.1093 / sysbio / 19.1.83. JSTOR  2412028.
  2. ^ Fitch WM (1971). «На пути к определению хода эволюции: минимальные изменения для указанной топологии дерева». Систематическая зоология. 20 (4): 406–416. Дои:10.2307/2412116. JSTOR  2412116.
  3. ^ а б Фельзенштейн Дж. (1978). «Случаи, в которых методы экономии и совместимости заведомо вводят в заблуждение». Систематическая зоология. 27 (4): 401–410. Дои:10.1093 / sysbio / 27.4.401.
  4. ^ Brower AV (октябрь 2018 г.). «Статистическая согласованность и филогенетический вывод: краткий обзор». Кладистика. 34 (5): 562–7. Дои:10.1111 / cla.12216.
  5. ^ Фаррис Дж. С. (1983). «Логическая основа филогенетического анализа». В Платник Н.И., Функ В.А. (ред.). Достижения в кладистике. 2. Нью-Йорк, Нью-Йорк: издательство Колумбийского университета. С. 7–36.
  6. ^ Фаррис JS (октябрь 2008 г.). «Экономия и объяснительная сила». Кладистика. 24 (5): 825–47. Дои:10.1111 / j.1096-0031.2008.00214.x. S2CID  32931349.
  7. ^ Де Лаэт Дж (2005). «Экономия и проблема неприменимости данных в последовательности». В Альберте В.А. (ред.). Экономия, филогения и геномика. Издательство Оксфордского университета. стр.81 –116. ISBN  978-0-19-856493-5.
  8. ^ Де Лаэт Дж (2014). «Экономичный анализ данных невыровненных последовательностей: максимизация гомологии и минимизация гомоплазии, а не минимизация операционных затрат или минимизация одинаково взвешенных преобразований». Кладистика. 31 (5): 550–567. Дои:10.1111 / cla.12098.
  9. ^ Джейнс ET (2003). Бретторст Г.Л. (ред.). Теория вероятностей: логика науки. Кембридж, Великобритания: Издательство Кембриджского университета. ISBN  978-0-521-59271-0.
  10. ^ Собер Э (1983). «Экономия в систематике: вопросы философии». Ежегодный обзор экологии и систематики. 14: 335–357. Дои:10.1146 / annurev.es.14.110183.002003.
  11. ^ Винс, Джон Дж. (2001). «Анализ характера в морфологической филогенетике: проблемы и решения». Систематическая биология. 50 (5): 689–699. Дои:10.1080/106351501753328811. ISSN  1076-836X. PMID  12116939.
  12. ^ Гранд, Анаис; Корвес, Адель; Дуке Велес, Лина Мария; Лорен, Мишель (2001). «Филогенетический вывод с использованием дискретных символов: выполнение упорядоченной и неупорядоченной экономичности и трехпозиционных утверждений». Биологический журнал Линнеевского общества. 110 (4): 914–930. Дои:10.1111 / bij.12159. ISSN  0024-4066.
  13. ^ Рино, Валентин; Гранд, Анаис; Зарагуэта, Рене; Лорен, Мишель (2015). «Экспериментальная систематика: чувствительность кладистических методов к схемам поляризации и упорядочения символов». Вклад в зоологию. 84 (2): 129–148. Дои:10.1163/18759866-08402003. ISSN  1875-9866.
  14. ^ Рино, Валентин; Зарагуэта, Рене; Лорен, Мишель (2018). «Влияние ошибок на кладистический вывод: сравнение на основе моделирования между экономией и анализом трех таксонов». Вклад в зоологию. 87 (1): 25–40. Дои:10.1163/18759866-08701003. ISSN  1875-9866.
  15. ^ Бремер К. (июль 1988 г.). «Пределы данных аминокислотной последовательности в филогенетической реконструкции покрытосеменных». Эволюция; Международный журнал органической эволюции. 42 (4): 795–803. Дои:10.1111 / j.1558-5646.1988.tb02497.x. PMID  28563878. S2CID  13647124.
  16. ^ Бремер К.Р. (сентябрь 1994 г.). «Опора ветки и устойчивость дерева». Кладистика. 10 (3): 295–304. Дои:10.1111 / j.1096-0031.1994.tb00179.x. S2CID  84987781.
  17. ^ Брауэр А.В., Гарсон-Ордунья И.Дж. (апрель 2018 г.). «Отсутствующие данные, поддержка клады и« ретикуляция »: молекулярная систематика Heliconius и родственных родов (Lepidoptera: Nymphalidae) пересмотрена». Кладистика. 34 (2): 151–66. Дои:10.1111 / cla.12198.
  18. ^ День WH (1987). «Вычислительная сложность вывода филогении из матриц несходства». Вестник математической биологии. 49 (4): 461–7. Дои:10.1016 / S0092-8240 (87) 80007-1. PMID  3664032.
  19. ^ Puttick, Mark N .; О'Рейли, Джозеф Э .; Tanner, Alastair R .; Флеминг, Джеймс Ф .; Кларк, Джеймс; Холлоуэй, Люси; Лозано-Фернандес, Хесус; Парри, Люк А .; Тарвер, Джеймс Э .; Пизани, Давиде; Донохью, Филип С. Дж. (2017). «Неопределенное дерево: различение конкурирующих подходов к филогенетическому анализу фенотипических данных». Труды Королевского общества B: биологические науки. 284 (1846): 20162290. Дои:10.1098 / rspb.2016.2290. ISSN  0962-8452. ЧВК  5247500. PMID  28077778.
  20. ^ О'Рейли, Джозеф Э .; Puttick, Mark N .; Парри, Люк; Tanner, Alastair R .; Тарвер, Джеймс Э .; Флеминг, Джеймс; Пизани, Давиде; Донохью, Филип С. Дж. (2016). «Байесовские методы превосходят экономичность, но за счет точности оценки филогении по дискретным морфологическим данным». Письма о биологии. 12 (4): 20160081. Дои:10.1098 / рсбл.2016.0081. ISSN  1744-9561. ЧВК  4881353. PMID  27095266.
  21. ^ Голобов, Пабло А .; Торрес, Амбросио; Ариас, Дж. Сальвадор (2018). «Взвешенная экономия превосходит другие методы филогенетического вывода в моделях, подходящих для морфологии». Кладистика. 34 (4): 407–437. Дои:10.1111 / cla.12205. ISSN  0748-3007.
  22. ^ Гарвуд, Рассел Дж; Найт, Кристофер Джи; Саттон, Марк Д; Сансом, Роберт С; Китинг, Джозеф Н. (2020). «Морфологическая филогенетика, оцененная с помощью новых эволюционных моделей». Систематическая биология. 69 (5): 897–912. Дои:10.1093 / sysbio / syaa012. ISSN  1063-5157. ЧВК  7440746. PMID  32073641.
  23. ^ Голобов, Пабло А .; Питтман, Майкл; Пол, Диего; Сюй, Син (2019). «Наборы морфологических данных гораздо хуже соответствуют общему механизму, чем последовательности ДНК, и ставят под сомнение модель Mkv». Систематическая биология. 68 (3): 494–504. Дои:10.1093 / sysbio / syy077. ISSN  1076-836X. PMID  30445627. S2CID  53567539.
  24. ^ Риндал Э., Брауэр А.В. (2011). «Превосходят ли филогенетические анализы на основе моделей экономичность? Тест с эмпирическими данными». Кладистика. 27: 331–4. Дои:10.1111 / j.1096-0031.2010.00342.x. S2CID  84907350.
  25. ^ Колачковски Б., Торнтон Дж. В. (октябрь 2004 г.). «Выполнение филогенетики максимальной экономичности и правдоподобия, когда эволюция неоднородна». Природа. 431 (7011): 980–4. Bibcode:2004Натура 431..980К. Дои:10.1038 / природа02917. PMID  15496922. S2CID  4385277.
  26. ^ Катандзаро, Даниэле (2010). Оценка филогении по молекулярным данным, в Математические подходы к анализу последовательности полимеров и смежные проблемы. Спрингер, Нью-Йорк.
  27. ^ Катандзаро Д. (2009). «Задача минимальной эволюции: обзор и классификация». Сети. 53 (2): 112–125. Дои:10.1002 / нетто.20280.
  28. ^ Ржецкий А, Ней М (1993). «Теоретические основы минимального эволюционного метода филогенетического вывода». Молекулярная биология и эволюция. 10: 21073–1095.
  29. ^ Деспер Р., Гаскуэль О. (март 2004 г.). «Теоретические основы сбалансированного минимального эволюционного метода филогенетического вывода и его связь с подгонкой дерева методом взвешенных наименьших квадратов». Молекулярная биология и эволюция. 21 (3): 587–98. Дои:10.1093 / молбев / мш049. PMID  14694080.