База данных последовательностей - Sequence database

В области биоинформатика, а база данных последовательностей это тип биологическая база данных который состоит из большой коллекции компьютеризированных ("цифровой ") последовательности нуклеиновых кислот, белковые последовательности, или другой полимер последовательности, хранящиеся на компьютере. В UniProt база данных является примером белковая последовательность база данных. По состоянию на 2013 год он содержал более 40 миллионов последовательностей и растет с экспоненциальной скоростью.[1] Исторически последовательности публиковались в бумажной форме, но по мере роста числа последовательностей этот метод хранения становился неустойчивым.

Поиск

Поиск в базах данных последовательностей можно осуществлять различными способами. Наиболее частым использованием, вероятно, является поиск последовательностей, похожих на определенный целевой белок или ген, последовательность которых уже известна пользователю. В ВЗРЫВ программа - популярный метод этого типа.

Текущие проблемы

Записи в базах данных последовательностей депонируются из самых разных источников, от отдельных исследователей до крупных центров секвенирования генома. В результате сами последовательности, и особенно биологические аннотации, прикрепленные к этим последовательностям, могут различаться по качеству. Существует большая избыточность, поскольку несколько лабораторий могут отправлять многочисленные последовательности, которые идентичны или почти идентичны другим в базах данных.[2]

Многие аннотации последовательностей основаны не на лабораторных экспериментах, а на результатах поиска сходства последовательностей для ранее аннотированных последовательностей. После того, как последовательность была аннотирована на основе сходства с другими и сама помещена в базу данных, она также может стать основой для будущих аннотаций. Это может привести к проблема транзитивной аннотации поскольку может быть несколько таких передач аннотаций по схожести последовательностей между конкретной записью базы данных и фактическим мокрая лаборатория экспериментальная информация.[3] Поэтому следует соблюдать осторожность при интерпретации данных аннотаций из баз данных последовательностей.

Смотрите также

использованная литература

  1. ^ Cochrane, G .; Карш-Мизрахи, И .; Накамура Ю. (23 ноября 2010 г.). "Международное сотрудничество с базами данных нуклеотидных последовательностей". Исследования нуклеиновых кислот. 39 (База данных): D15 – D18. Дои:10.1093 / нар / gkq1150. ЧВК  3013722. PMID  21106499.
  2. ^ Sikic, K .; Каруго, О. (2010). «Снижение избыточности белковой последовательности: сравнение различных методов». Биоинформация. 5 (6): 234–9. Дои:10.6026/97320630005234. ЧВК  3055704. PMID  21364823.
  3. ^ Iliopoulos, I .; Цока, С .; Андраде, Массачусетс .; Энрайт, AJ .; Carroll, M .; Poullet, P .; Промпонас, В .; Liakopoulos, T .; и другие. (Апрель 2003 г.). «Оценка стратегии аннотации с использованием всей последовательности генома». Биоинформатика. 19 (6): 717–26. Дои:10.1093 / биоинформатика / btg077. PMID  12691983.

внешняя ссылка