BLAT (биоинформатика) - BLAT (bioinformatics)

BLAT
Разработчики)Джим Кент, UCSC
Репозиторий Отредактируйте это в Викиданных
ТипИнструмент биоинформатики
Лицензиябесплатно для некоммерческого использования, источник доступен
Интернет сайтгеном.ucsc.edu

BLAT (ВЗРЫВ -подобный инструмент выравнивания) является попарное выравнивание последовательностей алгоритм это было разработано Джим Кент на Калифорнийский университет Санта-Крус (UCSC) в начале 2000-х, чтобы помочь в сборке и аннотации человеческий геном.[1] Он был разработан в первую очередь для сокращения времени, необходимого для согласования миллионов считываний генома мыши и выраженные теги последовательности против последовательности генома человека. Инструменты выравнивания того времени не могли выполнять эти операции способом, который позволял бы регулярно обновлять сборку генома человека. По сравнению с ранее существовавшими инструментами, BLAT был примерно в 500 раз быстрее с производительностью. мРНК /ДНК выравнивания и ~ в 50 раз быстрее с белок / белковые выравнивания.[1]

Обзор

BLAT - это один из нескольких алгоритмов, разработанных для анализа и сравнения биологических последовательностей, таких как ДНК, РНК и белки, с основной целью: гомология чтобы обнаружить биологическую функцию геномных последовательностей.[2] Не гарантируется нахождение математически оптимального выравнивания между двумя последовательностями, такими как классический метод Нидлмана-Вунша.[3] и Смит-Уотерман[4] динамическое программирование алгоритмы делают; скорее, он сначала пытается быстро обнаружить короткие последовательности, которые с большей вероятностью будут гомологичными, а затем выравнивает и дополнительно удлиняет гомологичные области. Это похоже на эвристический ВЗРЫВ[5][6] семейство алгоритмов, но каждый инструмент пытается справиться с проблемой выравнивания биологических последовательностей своевременно и эффективно, используя различные алгоритмические методы.[2][7]

Использование BLAT

BLAT можно использовать для выравнивания последовательностей ДНК, а также последовательностей белков и транслированных нуклеотидов (мРНК или ДНК). Он разработан, чтобы лучше всего работать с последовательностями с большим сходством. Поиск ДНК наиболее эффективен для приматов, а поиск белков эффективен для наземных позвоночных.[1][8] Кроме того, запросы белков или транслированных последовательностей более эффективны для выявления отдаленных совпадений и межвидового анализа, чем запросы последовательностей ДНК.[9] Типичное использование BLAT включает следующее:

  • Выравнивание нескольких последовательностей мРНК на сборку генома, чтобы вывести их геномные координаты;[10]
  • Сопоставление последовательности белка или мРНК одного вида с базой данных последовательностей другого вида для определения гомологии. При условии, что эти два вида не слишком расходятся, межвидовое выравнивание обычно эффективно с BLAT. Это возможно, потому что BLAT не требует точных совпадений, а скорее принимает несоответствия в выравниваниях;[11]
  • BLAT можно использовать для выравнивания двух белковых последовательностей. Однако это не лучший инструмент для выравнивания такого типа. BLASTP, стандартный белок ВЗРЫВ инструмент, более эффективен при выравнивании белок-белок;[1]
  • Определение распределения экзонных и интронных участков гена;[9][10]
  • Обнаружение членов семейства генов конкретного генного запроса;[9][10]
  • Отображение последовательности, кодирующей белок определенного гена.[9][10]

BLAT предназначен для поиска совпадений между последовательностями длиной не менее 40 оснований, которые имеют ≥95% идентичности нуклеотидов или ≥80% идентичности транслированного белка.[9][10]

Обработать

BLAT используется для поиска областей в целевой геномной базе данных, которые похожи на исследуемую последовательность запроса. Общий алгоритмический процесс, за которым следует BLAT, аналогичен ВЗРЫВ в том, что он сначала ищет короткие сегменты в базе данных и последовательности запросов, которые имеют определенное количество совпадающих элементов. Эти исходные данные выравнивания затем расширяют в обоих направлениях последовательностей, чтобы сформировать пары с высокими показателями.[12] Однако BLAT использует другой подход к индексированию, чем BLAST, что позволяет ему быстро сканировать очень большие геномные и белковые базы данных на сходство с последовательностью запроса. Он делает это, сохраняя индексированный список (хеш-таблица ) целевой базы данных в памяти, что значительно сокращает время, необходимое для сравнения последовательностей запросов с целевой базой данных. Этот индекс создается путем взятия координат всех неперекрывающихся k-мер (слов с k буквами) в целевой базе данных, за исключением часто повторяющихся k-мер. Затем BLAT составляет список всех перекрывающихся k-мер из последовательности запроса и ищет их в целевой базе данных, создавая список совпадений, в которых есть совпадения между последовательностями.[1] (Рисунок 1 иллюстрирует этот процесс).

Рисунок 1: Пример, показывающий создание неперекрывающихся k-мер из целевой базы данных и перекрывающихся k-мер из последовательности запроса для k = 3. Координаты последовательностей базы данных используются для объединения совпадений в более крупные выравнивания (полный процесс не показан).

Этап поиска

Для поиска кандидатных гомологичных областей используются три различных стратегии:

  1. Первый метод требует единичных точных совпадений между последовательностями запроса и базы данных, то есть два слова k-mer абсолютно одинаковы. Этот подход не считается самым практичным. Это связано с тем, что для достижения высоких уровней чувствительности необходим небольшой размер k-мер, но это увеличивает количество ложных срабатываний, тем самым увеличивая количество времени, затрачиваемого на этап согласования алгоритма.[1]
  2. Второй метод допускает по крайней мере одно несоответствие между двумя словами k-mer. Это уменьшает количество ложных срабатываний, позволяя обрабатывать k-мер большего размера, которые требуют меньших вычислительных затрат, чем те, которые получены с помощью предыдущего метода. Этот метод очень эффективен при идентификации небольших гомологичных областей.[1]
  3. Третий метод требует нескольких точных совпадений, находящихся в непосредственной близости друг от друга. Как показывает Кент,[1] это очень эффективный метод, позволяющий учитывать небольшие вставки и делеции в гомологичных областях.

При выравнивании нуклеотидов BLAT использует третий метод, требующий двух точных совпадений слов размером 11 (11-меров). При выравнивании белков версия BLAT определяет используемую методологию поиска: когда используется версия клиент / сервер, BLAT выполняет поиск трех точных совпадений с 4 элементами; когда используется автономная версия, BLAT ищет один идеальный 5-мер между запросом и последовательностями базы данных.[1]

BLAT против BLAST

Некоторые различия между BLAT и BLAST описаны ниже:

  • BLAT индексирует базу данных генома / белка, сохраняет индекс в памяти, а затем сканирует последовательность запроса на совпадения. BLAST, с другой стороны, создает индекс последовательностей запросов и ищет совпадения в базе данных.[1] Вариант BLAST под названием MegaBLAST индексирует 4 базы данных для ускорения выравнивания.[9]
  • BLAT может распространяться на множественные идеальные и почти идеальные совпадения (по умолчанию 2 идеальных совпадения длиной 11 для поиска нуклеотидов и 3 идеальных совпадения длиной 4 для поиска белков), тогда как BLAST расширяется только тогда, когда одно или два совпадения происходят близко друг к другу.[1][9]
  • BLAT соединяет каждый гомологичный область между двумя последовательностями в одно более крупное выравнивание, в отличие от BLAST, который возвращает каждую гомологичную область как отдельное локальное выравнивание. Результатом BLAST является список экзоны с каждым выравниванием, простирающимся сразу за конец экзона. BLAT, однако, правильно размещает каждое основание мРНК на геном, используя каждую базу только один раз и может использоваться для идентификации интрон -экзонные границы (т.е. сайты сращивания ).[1][13]
  • BLAT менее чувствителен, чем BLAST.[2]

Использование программы

BLAT может использоваться как веб-сервер-клиентская программа или как отдельная программа.[9]

Сервер-клиент

Доступ к веб-приложению BLAT можно получить с сайта UCSC Genome Bioinformatics Site.[8] Построение индекса - относительно медленная процедура. Следовательно, каждая сборка генома, используемая сетевым BLAT, связана с сервером BLAT, чтобы иметь предварительно вычисленный индекс, доступный для выравнивания. Эти веб-серверы BLAT хранят индекс в памяти, чтобы пользователи могли вводить свои последовательности запросов.[11]

После того, как последовательность запроса загружена / вставлена ​​в поле поиска, пользователь может выбрать различные параметры, такие как геном какого вида нацелить (в настоящее время доступно более 50 видов) и версию сборки этого генома (например, геном человека имеет четыре сборки на выбор), тип запроса (т. е. относится ли последовательность к ДНК, белку и т. д.) и параметры вывода (т. е. как сортировать и визуализировать вывод). Затем пользователь может запустить поиск, отправив запрос или используя поиск BLAT «Мне повезет».[8]

Бхагват и другие.[9] предоставить пошаговые протоколы использования BLAT для:

  • Сопоставьте последовательность мРНК / кДНК с геномной последовательностью;
  • Сопоставьте последовательность белка с геномом;
  • Выполните поиск гомологии.

Ввод

BLAT может обрабатывать длинные последовательности базы данных, однако он более эффективен с короткими последовательностями запросов, чем с длинными последовательностями запросов. Кент[1] рекомендует максимальную длину запроса 200 000 баз. Браузер UCSC ограничивает последовательность запросов до менее 25000 букв (т. Е. нуклеотиды ) для ДНК поисков и менее 10 000 писем (т. е. аминокислоты ) для белок и поиск переведенных последовательностей.[8]

Рисунок 2: Использование веб-BLAT для поиска в целевой базе данных с помощью последовательности запроса ДНК. Параметры поиска можно увидеть над последовательностью запросов.[8][14]

Геном поиска BLAT, доступный на веб-сайте UCSC, принимает последовательности запросов в виде текста (вырезанного и вставленного в поле запроса) или загруженных в виде текстовых файлов. Поисковый геном BLAT может принимать несколько последовательностей одного типа одновременно, максимум до 25. Для нескольких последовательностей общее количество нуклеотидов не должно превышать 50 000 для поиска ДНК или 25 000 букв для поиска белков или транслированных последовательностей. Пример. Поиск в целевой базе данных с помощью последовательности запроса ДНК показан на рисунке 2.

Вывод

Поиск BLAT возвращает список результатов, упорядоченных в порядке убывания на основе оценки. Возвращается следующая информация: оценка выравнивания, область последовательности запроса, которая соответствует последовательности в базе данных, размер последовательности запроса, уровень идентичности в процентах от выравнивания, а также хромосома и положение, в котором последовательность запроса сопоставляется с.[9] Бхагват и другие.[9] описать, как рассчитываются показатели BLAT «Score» и «Identity».

Для каждого результата поиска пользователю предоставляется ссылка на браузер генома UCSC, чтобы он мог визуализировать выравнивание хромосомы. Это главное преимущество веб-BLAT по сравнению с автономным BLAT. Пользователь может получить биологическую информацию, связанную с выравниванием, такую ​​как информацию о гене, с которым может соответствовать запрос.[9]Пользователю также предоставляется ссылка для просмотра сопоставления последовательности запроса с сборкой генома. Совпадения между запросом и сборкой генома отображаются синим цветом, а границы сопоставлений светлее. Эти границы экзонов указывают на сайты сплайсинга.[8][9]Результат поиска «Мне повезет» возвращает наивысшую оценку для первой последовательности запросов на основе варианта сортировки вывода, выбранного пользователем.[8]

Автономный

Автономный BLAT больше подходит для пакетного выполнения и более эффективен, чем веб-интерфейс BLAT. Он более эффективен, поскольку может хранить геном в памяти, в отличие от веб-приложения, которое хранит только индекс в памяти.[1][9]

Лицензия

Как исходные, так и предварительно скомпилированные двоичные файлы BLAT находятся в свободном доступе для академического и личного использования. Коммерческая лицензия на автономный BLAT распространяется Kent Informatics, Inc.

Смотрите также

использованная литература

  1. ^ а б c d е ж г час я j k л м п Кент, У. Джеймс (2002). «BLAT - инструмент для выравнивания типа BLAST». Геномные исследования. 12 (4): 656–664. Дои:10.1101 / гр.229202. ЧВК  187518. PMID  11932250.
  2. ^ а б c Имелфорт, Майкл (2009). Эдвардс, D; Stajich, J; Хансен, Д. (ред.). Биоинформатика: инструменты и приложения. Нью-Йорк: Спрингер. стр.19 –20. ISBN  978-0-387-92737-4.
  3. ^ Needleman, SB; Wunsch, CD (1970). «Общий метод, применимый к поиску сходства в аминокислотной последовательности двух белков». Журнал молекулярной биологии. 48 (3): 443–53. Дои:10.1016/0022-2836(70)90057-4. PMID  5420325.
  4. ^ Смит, Т.Ф .; Waterman, MS (1981). «Идентификация общих молекулярных подпоследовательностей». Журнал молекулярной биологии. 147 (1): 195–7. CiteSeerX  10.1.1.63.2897. Дои:10.1016/0022-2836(81)90087-5. PMID  7265238.
  5. ^ Альтшул, SF; Гиш, Вт; Миллер, Вт; Майерс, EW; Липман, ди-джей (1990). «Базовый инструмент поиска локального выравнивания». Журнал молекулярной биологии. 215 (3): 403–10. Дои:10.1016 / S0022-2836 (05) 80360-2. PMID  2231712.
  6. ^ Альтшул, SF; Мэдден, TL; Schäffer, AA; Чжан, Дж; Zhang, Z; Миллер, Вт; Липман, ди-джей (1997). «Gapped BLAST и PSI-BLAST: новое поколение программ поиска по базе данных белков». Исследования нуклеиновых кислот. 25 (17): 3389–402. Дои:10.1093 / nar / 25.17.3389. ЧВК  146917. PMID  9254694.
  7. ^ Baxevanis, Andreas D .; Уэллетт, Б.Ф. Фрэнсис (2001). Биоинформатика: практическое руководство по анализу генов и белков (2-е изд.). Нью-Йорк: Wiley-Interscience. стр.187–214. ISBN  978-0-471-22392-4.
  8. ^ а б c d е ж г Сайт биоинформатики генома UCSC
  9. ^ а б c d е ж г час я j k л м п Бхагват, Медха; Янг, Линн; Робисон, Рекс Р. (март 2012 г.). Использование BLAT для поиска сходства последовательностей в близкородственных геномах. Текущие протоколы в биоинформатике. 10.8. 10. С. Раздел 10.8. Дои:10.1002 / 0471250953.bi1008s37. ISBN  978-0-471-25095-1. ЧВК  4101998. PMID  22389010.
  10. ^ а б c d е Е, Шуй Цин (2008). Биоинформатика: практический подход. Лондон: Чепмен и Холл. стр.11 –12. ISBN  978-1-58488-810-9.
  11. ^ а б Kuhn, RM; Haussler, D; Кент, WJ (2013). "Браузер генома UCSC и связанные с ним инструменты". Брифинги по биоинформатике. 14 (2): 144–61. Дои:10.1093 / bib / bbs038. ЧВК  3603215. PMID  22908213.
  12. ^ Лобо, Ингрид. «Базовый инструмент поиска местного выравнивания (BLAST)». Природное образование. Получено 15 октября 2013.
  13. ^ Певзнер, Дж (2009). Биоинформатика и функциональная геномика. Нью-Джерси: John Wiley & Sons, Inc., стр.166–167. ISBN  978-0-470-08585-1.
  14. ^ «NCBI - GenBank: AACZ03015565.1». Получено 12 октября 2013.

внешние ссылки