HMMER - HMMER

HMMER
Разработчики)	Шон Эдди, Трэвис Уиллер, команда разработчиков HMMER
Стабильный выпуск	3.3.1 / 25 июля 2020; 4 месяца назад
Репозиторий	github.com/ EddyRivasLab/ хммер;
Написано в	C
Доступно в	английский
Тип	Биоинформатика инструмент
Лицензия	BSD-3
Интернет сайт	хммм.org

Профиль HMM, моделирующий множественное выравнивание последовательностей

HMMER это свободный и обычно используемый программный пакет для анализа последовательностей, написанный Шон Эдди.^[2] Его общее использование - идентифицировать гомологичный белок или же нуклеотид последовательностей и для выполнения выравнивания последовательностей. Он обнаруживает гомологию, сравнивая профиль-HMM либо к отдельной последовательности, либо к базе данных последовательностей. Последовательности, которые значительно лучше оценивают профиль-HMM по сравнению с нулевой моделью, считаются гомологичными последовательностям, которые использовались для построения профиля-HMM. Профиль-HMM строятся из множественное выравнивание последовательностей в пакете HMMER с помощью хммбилд программа. Реализация Profile-HMM, используемая в программном обеспечении HMMER, была основана на работе Крога и его коллег.^[3] HMMER - это консоль утилита перенесена на все основные Операционная система, включая разные версии Linux, Windows, и Mac OS.

HMMER - это основная утилита, которая использует базы данных семейства белков, такие как Pfam и ИнтерПро основаны на. Некоторые другие инструменты биоинформатики, такие как UGENE также используйте HMMER.

HMMER3 также широко использует векторные инструкции для увеличения скорости вычислений. Эта работа основана на более ранней публикации, показывающей значительное ускорение Алгоритм Смита-Уотермана для выравнивания двух последовательностей.^[4]

Профиль HMM

Профиль HMM представляет собой вариант HMM, относящийся конкретно к биологическим последовательностям. Профильные HMM превращают множественное выравнивание последовательностей в позиционно-специфичную систему оценки, которую можно использовать для выравнивания последовательностей и поиска в базах данных отдаленно гомологичных последовательностей.^[5] Они извлекают выгоду из того факта, что определенные позиции в выравнивании последовательностей имеют тенденцию иметь смещения, в которых наиболее вероятно встречаются остатки, и, вероятно, будут различаться по своей вероятности содержания вставки или делеции. Сбор этой информации дает им лучшую способность обнаруживать настоящих гомологов, чем традиционные ВЗРЫВ основанные на подходах, которые одинаково наказывают замены, вставки и удаления, независимо от того, где в выравнивании они происходят.^[6]

Архитектура HMM основного профиля, используемая HMMER.

Профили HMM сосредоточены вокруг линейного набора состояний совпадения (M), причем одно состояние соответствует каждому согласованному столбцу в выравнивании последовательностей. Каждое состояние M испускает один остаток (аминокислоту или нуклеотид). Вероятность выделения конкретного остатка в значительной степени определяется частотой, с которой этот остаток наблюдается в этом столбце выравнивания, но также включает предварительную информацию о структурах остатков, которые имеют тенденцию одновременно встречаться в тех же столбцах выравнивания последовательностей. Эта последовательность состояний соответствия, излучающих аминокислоты с определенной частотой, аналогична матрицам оценок для конкретных позиций или матрицам весов.^[5]

Профиль HMM развивает это моделирование выравнивания последовательностей, моделируя вставки и делеции с использованием состояний I и D, соответственно. Состояния D не испускают остаток, а состояния I испускают остаток. Несколько состояний I могут возникать последовательно, что соответствует нескольким остаткам между согласованными столбцами в выравнивании. Состояния M, I и D связаны вероятностями перехода между состояниями, которые также варьируются в зависимости от положения в выравнивании последовательностей, чтобы отразить различную частоту вставок и удалений при выравнивании последовательностей.^[5]

В выпусках HMMER2 и HMMER3 использовалась архитектура для построения HMM профиля, называемая архитектурой Plan 7, названной в честь семи состояний, зафиксированных моделью. В дополнение к трем основным состояниям (M, I и D) шесть дополнительных состояний захватывают негомологичную фланкирующую последовательность при выравнивании. Эти 6 состояний в совокупности важны для контроля того, как последовательности согласуются с моделью, например. может ли последовательность иметь несколько последовательных попаданий в одну и ту же модель (в случае последовательностей с несколькими экземплярами одного и того же домена).^[7]

Программы в пакете HMMER

Пакет HMMER состоит из набора программ для выполнения функций с использованием профильных скрытых марковских моделей.^[8] В программы входят:

Профиль здания HMM

hmmbuild - построить профиль HMM из множественного выравнивания (й) последовательностей

Поиск гомологии

hmmscan - поиск последовательностей белков по базе данных профиля HMM
hmmsearch - поиск профиля HMM (s) по базе данных последовательностей
jackhmmer - итеративный поиск последовательности (ей) в базе данных белков
nhmmer - поиск запросов ДНК / РНК в базе данных последовательностей ДНК / РНК
nhmmscan - поиск нуклеотидной последовательности (ей) по нуклеотидному профилю
phmmer - поиск белковой последовательности (ей) по базе данных белков

Прочие функции

hmmalign - выравнивает последовательности по профилю HMM
hmmemit - производить образцы последовательностей из профиля HMM
hmmlogo - создать данные для Логотип HMM из файла HMM

Пакет содержит множество других специализированных функций.

Веб-сервер HMMER

Помимо программного обеспечения, функция поиска HMMER доступна в виде веб-сервера.^[9] Служба облегчает поиск по ряду баз данных, включая базы данных последовательностей, такие как UniProt, SwissProt, а Банк данных белков, и базы данных HMM, такие как Pfam, ТИГРФАМ и СУПЕРСЕМЬЯ. Поддерживаются четыре типа поиска: phmmer, hmmsearch, hmmscan и jackhmmer (см. Программ ). Функция поиска принимает отдельные последовательности, а также выравнивание последовательностей или профили HMM.

Результаты поиска сопровождаются отчетом о таксономической разбивке и домен организация хитов. Затем результаты поиска можно фильтровать по любому параметру.

Веб-служба в настоящее время работает Европейский институт биоинформатики (EBI) в Соединенном Королевстве, в то время как разработка алгоритма все еще осуществляется командой Шона Эдди в США.^[9] Основными причинами для перемещения веб-службы были использование вычислительной инфраструктуры в EBI и перекрестная связь поисков HMMER с соответствующими базами данных, которые также поддерживаются EBI.

Релиз HMMER3

Последним стабильным выпуском HMMER является версия 3.0. HMMER3 - это полная переработка более раннего пакета HMMER2 с целью повышения скорости поиска HMM по профилю. Основные изменения описаны ниже:

Улучшение скорости

Основной целью проекта HMMER3, начатого в 2004 г., было повышение скорости поиска HMMER. Хотя поиск гомологии на основе профилей HMM был более точным, чем подходы на основе BLAST, их более низкая скорость ограничивала их применимость.^[8] Основной прирост производительности достигается за счет эвристический фильтр , который находит высоко оцененные совпадения в последовательностях базы данных с профилем запроса. Эта эвристика дает время вычислений, сравнимое с ВЗРЫВ с небольшим влиянием на точность. Дальнейшее увеличение производительности связано с логарифмическая вероятность модель, не требующая калибровки для оценки E-ценности, и позволяет более точно форвардные счета использоваться для вычисления значимости гомологичный последовательность.^[10]^[6]

HMMER по-прежнему отстает от BLAST по скорости поиска на основе ДНК, однако поиск на основе ДНК может быть настроен таким образом, что улучшение скорости происходит за счет точности.^[11]

Улучшения в удаленном поиске гомологии

Значительный прогресс в скорости стал возможным благодаря разработке подхода к вычислению значимости результатов, интегрированных по ряду возможных согласований.^[10] При обнаружении удаленных гомологов выравнивание между запрашивающим и удачным белками часто бывает очень неопределенным. В то время как большинство инструментов для выравнивания последовательностей рассчитывают оценки совпадений, используя только лучшее согласование, HMMER3 вычисляет оценки совпадений путем интегрирования всех возможных выравниваний, чтобы учесть неопределенность, при которой выравнивание является наилучшим. Выравнивания последовательностей HMMER сопровождаются аннотациями апостериорной вероятности, указывающими, какие части выравнивания получили высокую достоверность, а какие - более неопределенные.

Сравнение последовательностей ДНК

Основным улучшением HMMER3 стало включение инструментов сравнения ДНК / ДНК. HMMER2 имел функцию только для сравнения белковых последовательностей.

Ограничение на локальные выравнивания

В то время как HMMER2 может выполнять локальное выравнивание (выравнивание полной модели с подпоследовательностью мишени) и глобальное выравнивание (выравнивание полной модели с полной последовательностью мишени), HMMER3 выполняет только локальное выравнивание. Это ограничение связано с трудностью вычисления значимости совпадений при выполнении локального / глобального выравнивания с использованием нового алгоритма.

Смотрите также

Доступно несколько реализаций профильных методов HMM и связанных методов матриц оценок для конкретных позиций. Некоторые из них перечислены ниже:

внешняя ссылка

[wikidata-43ec0fa3271c8526f85a295b2176e12574bccf0e-v3-1] «Выпуск 3.3.1». 25 июля 2020 г.. Получено 26 июля 2020.

[2] Дурбин, Ричард; Шон Р. Эдди; Андерс Крог; Грэм Митчисон (1998). Анализ биологической последовательности: вероятностные модели белков и нуклеиновых кислот. Издательство Кембриджского университета. ISBN 0-521-62971-3.

[pmid8107089-3] Крог А., Браун М., Миан И.С., Шёландер К., Хаусслер Д. (февраль 1994 г.). «Скрытые марковские модели в вычислительной биологии. Приложения к моделированию белков». J. Mol. Биол. 235 (5): 1501–31. Дои:10.1006 / jmbi.1994.1104. PMID 8107089.

[pmid17110365-4] Фаррар М (январь 2007 г.). «Полосатый Smith-Waterman ускоряет поиск в базе данных в шесть раз по сравнению с другими реализациями SIMD». Биоинформатика. 23 (2): 156–61. Дои:10.1093 / биоинформатика / btl582. PMID 17110365.

[Eddy1998-5] а ^б ^c Эдди, SR (1998). «Профиль скрытых марковских моделей». Биоинформатика. 14 (9): 755–63. Дои:10.1093 / биоинформатика / 14.9.755. PMID 9918945.

[Eddy2011-6] а ^б Эдди, Шон Р .; Пирсон, Уильям Р. (20 октября 2011 г.). «Ускоренный поиск профиля HMM». PLoS вычислительная биология. 7 (10): e1002195. CiteSeerX 10.1.1.290.1476. Дои:10.1371 / journal.pcbi.1002195.

[7] Эдди, Шон. «Руководство пользователя HMMER2» (PDF).

[HMMER_manual-8] а ^б Шон Р. Эдди; Трэвис Дж. Уиллер. «Руководство пользователя HMMER» (PDF). и команда разработчиков HMMER. Получено 23 июля 2017.

[Finn2015-9] а ^б Финн, Роберт Д.; Клементс, Джоди; Арндт, Уильям; Миллер, Бенджамин Л .; Уиллер, Трэвис Дж .; Шрайбер, Фабиан; Бейтман, Алекс; Эдди, Шон Р. (1 июля 2015 г.). «Веб-сервер HMMER: обновление 2015 г.». Исследования нуклеиновых кислот. 43 (W1): W30 – W38. Дои:10.1093 / нар / gkv397. ЧВК 4489315. PMID 25943547.

[pmid18516236-10] а ^б Эдди SR (2008). Рост, Буркхард (ред.). «Вероятностная модель локального выравнивания последовательностей, упрощающая оценку статистической значимости». PLoS Comput Biol. 4 (5): e1000069. Дои:10.1371 / journal.pcbi.1000069. ЧВК 2396288. PMID 18516236.

[11] Шон Р. Эдди; Трэвис Дж. Уиллер. «Примечания к выпуску HMMER3.1b2». и команда разработчиков HMMER. Получено 23 июля 2017.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

Биоинформатика
Базы данных	Базы данных последовательностей: GenBank, Европейский архив нуклеотидов и Банк данных ДНК Японии Вторичные базы данных: UniProt, база данных белковых последовательностей, сгруппированных вместе Swiss-Prot, TrEMBL и Информационный ресурс о белках Другие базы данных: Банк данных белков, Ансамбль и ИнтерПро Специализированные геномные базы данных: СМЕЛЫЙ, База данных генома Saccharomyces, FlyBase, VectorBase, WormBase, База данных генома крысы, PHI-база, Информационный ресурс об арабидопсисе и Информационная сеть по рыбкам данио
Программного обеспечения	ВЗРЫВ Галстук-бабочка Clustal EMBOSS HMMER МЫШЦЫ SAMtools Набор SOAP TopHat
Другой	Сервер: ExPASy Онтология: Генная онтология Розалинд (образовательная платформа)
Учреждения	Broad Institute Китайский национальный генетический банк (CNGB) Кафедра вычислительной биологии (CBD) Microsoft Research - Центр вычислительной и системной биологии Университета Тренто (COSBI) Центр баз данных по наукам о жизни (DBCLS) Банк данных ДНК Японии (DDBJ) Европейский институт биоинформатики (EMBL-EBI) Европейская лаборатория молекулярной биологии (EMBL) Институт Флэтайрон Институт Дж. Крейга Вентера (JCVI) Институт молекулярной клеточной биологии и генетики Макса Планка (MPI-CBG) Национальный центр биотехнологической информации США (NCBI) Японский институт генетики Нидерландский центр биоинформатики (NBIC) Филиппинский центр генома (PGC) Scripps Research Швейцарский институт биоинформатики (SIB) Институт Wellcome Sanger Институт Уайтхеда
Организации	Африканское общество биоинформатики и вычислительной биологии (ASBCB) Ресурс по биоинформатике Австралии (EMBL-AR) Европейская сеть молекулярной биологии (EMBnet) Международное сотрудничество с базами данных нуклеотидных последовательностей (INSDC) Международное общество биодокументации (ЭТО Б) Международное общество вычислительной биологии (ISCB) Студенческий совет (ISCB-SC) Институт геномики и интегративной биологии (CSIR-IGIB) Японское общество биоинформатики (JSBi)
Встречи	Базельская конференция по вычислительной биологии ([ДО Н.Э²]) Европейская конференция по вычислительной биологии (ECCB) Интеллектуальные системы для молекулярной биологии (ISMB) Международная конференция по биоинформатике (InCoB) Конференция ISCB Africa ASBCB по биоинформатике Тихоокеанский симпозиум по биокомпьютингу (PSB) Исследования в области вычислительной молекулярной биологии (РЕКОМБ)
Форматы файлов	Формат CRAM Формат FASTA Формат FASTQ Формат NeXML Формат Nexus Формат Pileup Формат SAM Стокгольмский формат
похожие темы	Вычислительная биология Список биобанков Список биологических баз данных Молекулярная филогенетика Последовательность действий База данных последовательностей Выравнивание последовательности
Категория Commons