База данных последовательностей - Sequence database

В области биоинформатика, а база данных последовательностей это тип биологическая база данных который состоит из большой коллекции компьютеризированных ("цифровой ") последовательности нуклеиновых кислот, белковые последовательности, или другой полимер последовательности, хранящиеся на компьютере. В UniProt база данных является примером белковая последовательность база данных. По состоянию на 2013 год он содержал более 40 миллионов последовательностей и растет с экспоненциальной скоростью.^[1] Исторически последовательности публиковались в бумажной форме, но по мере роста числа последовательностей этот метод хранения становился неустойчивым.

Поиск

Поиск в базах данных последовательностей можно осуществлять различными способами. Наиболее частым использованием, вероятно, является поиск последовательностей, похожих на определенный целевой белок или ген, последовательность которых уже известна пользователю. В ВЗРЫВ программа - популярный метод этого типа.

Текущие проблемы

Записи в базах данных последовательностей депонируются из самых разных источников, от отдельных исследователей до крупных центров секвенирования генома. В результате сами последовательности, и особенно биологические аннотации, прикрепленные к этим последовательностям, могут различаться по качеству. Существует большая избыточность, поскольку несколько лабораторий могут отправлять многочисленные последовательности, которые идентичны или почти идентичны другим в базах данных.^[2]

Многие аннотации последовательностей основаны не на лабораторных экспериментах, а на результатах поиска сходства последовательностей для ранее аннотированных последовательностей. После того, как последовательность была аннотирована на основе сходства с другими и сама помещена в базу данных, она также может стать основой для будущих аннотаций. Это может привести к проблема транзитивной аннотации поскольку может быть несколько таких передач аннотаций по схожести последовательностей между конкретной записью базы данных и фактическим мокрая лаборатория экспериментальная информация.^[3] Поэтому следует соблюдать осторожность при интерпретации данных аннотаций из баз данных последовательностей.

Смотрите также

использованная литература

^ Cochrane, G .; Карш-Мизрахи, И .; Накамура Ю. (23 ноября 2010 г.). "Международное сотрудничество с базами данных нуклеотидных последовательностей". Исследования нуклеиновых кислот. 39 (База данных): D15 – D18. Дои:10.1093 / нар / gkq1150. ЧВК 3013722. PMID 21106499.
^ Sikic, K .; Каруго, О. (2010). «Снижение избыточности белковой последовательности: сравнение различных методов». Биоинформация. 5 (6): 234–9. Дои:10.6026/97320630005234. ЧВК 3055704. PMID 21364823.
^ Iliopoulos, I .; Цока, С .; Андраде, Массачусетс .; Энрайт, AJ .; Carroll, M .; Poullet, P .; Промпонас, В .; Liakopoulos, T .; и другие. (Апрель 2003 г.). «Оценка стратегии аннотации с использованием всей последовательности генома». Биоинформатика. 19 (6): 717–26. Дои:10.1093 / биоинформатика / btg077. PMID 12691983.

внешняя ссылка

Базы данных Европейского института биоинформатики
NCBI полностью секвенировал геномы
Стэнфордская база данных генома сахаромицетов
Протеин, то Национальные институты здравоохранения США база данных белков, набор последовательностей из нескольких источников, включая переводы из аннотированных кодирующих областей в GenBank, RefSeq и TPA, а также записи из SwissProt, PIR, PRF и PDB

[1] Cochrane, G .; Карш-Мизрахи, И .; Накамура Ю. (23 ноября 2010 г.). "Международное сотрудничество с базами данных нуклеотидных последовательностей". Исследования нуклеиновых кислот. 39 (База данных): D15 – D18. Дои:10.1093 / нар / gkq1150. ЧВК 3013722. PMID 21106499.

[Sikic-2010-2] Sikic, K .; Каруго, О. (2010). «Снижение избыточности белковой последовательности: сравнение различных методов». Биоинформация. 5 (6): 234–9. Дои:10.6026/97320630005234. ЧВК 3055704. PMID 21364823.

[Iliopoulos-2003-3] Iliopoulos, I .; Цока, С .; Андраде, Массачусетс .; Энрайт, AJ .; Carroll, M .; Poullet, P .; Промпонас, В .; Liakopoulos, T .; и другие. (Апрель 2003 г.). «Оценка стратегии аннотации с использованием всей последовательности генома». Биоинформатика. 19 (6): 717–26. Дои:10.1093 / биоинформатика / btg077. PMID 12691983.

[1]

[2]

[3]

Биоинформатика
Базы данных	Базы данных последовательностей: GenBank, Европейский архив нуклеотидов и Банк данных ДНК Японии Вторичные базы данных: UniProt, база данных белковых последовательностей, сгруппированных вместе Swiss-Prot, TrEMBL и Информационный ресурс о белках Другие базы данных: Банк данных белков, Ансамбль и ИнтерПро Специализированные геномные базы данных: СМЕЛЫЙ, База данных генома Saccharomyces, FlyBase, VectorBase, WormBase, База данных генома крысы, PHI-база, Информационный ресурс об арабидопсисе и Информационная сеть по рыбкам данио
Программного обеспечения	ВЗРЫВ Галстук-бабочка Clustal EMBOSS HMMER МЫШЦЫ SAMtools Набор SOAP TopHat
Другой	Сервер: ExPASy Онтология: Генная онтология Розалинд (образовательная платформа)
Учреждения	Broad Institute Китайский национальный генетический банк (CNGB) Кафедра вычислительной биологии (CBD) Microsoft Research - Центр вычислительной и системной биологии Университета Тренто (COSBI) Центр баз данных по наукам о жизни (DBCLS) Банк данных ДНК Японии (DDBJ) Европейский институт биоинформатики (EMBL-EBI) Европейская лаборатория молекулярной биологии (EMBL) Институт Флэтайрон Институт Дж. Крейга Вентера (JCVI) Институт молекулярной клеточной биологии и генетики Макса Планка (MPI-CBG) Национальный центр биотехнологической информации США (NCBI) Японский институт генетики Нидерландский центр биоинформатики (NBIC) Филиппинский центр генома (PGC) Scripps Research Швейцарский институт биоинформатики (SIB) Институт Wellcome Sanger Институт Уайтхеда
Организации	Африканское общество биоинформатики и вычислительной биологии (ASBCB) Ресурс по биоинформатике Австралии (EMBL-AR) Европейская сеть молекулярной биологии (EMBnet) Международное сотрудничество с базами данных нуклеотидных последовательностей (INSDC) Международное общество биокументации (ЭТО Б) Международное общество вычислительной биологии (ISCB) Студенческий совет (ISCB-SC) Институт геномики и интегративной биологии (CSIR-IGIB) Японское общество биоинформатики (JSBi)
Встречи	Базельская конференция по вычислительной биологии ([ДО Н.Э²]) Европейская конференция по вычислительной биологии (ECCB) Интеллектуальные системы для молекулярной биологии (ISMB) Международная конференция по биоинформатике (InCoB) ISCB Africa Конференция ASBCB по биоинформатике Тихоокеанский симпозиум по биокомпьютингу (PSB) Исследования в области вычислительной молекулярной биологии (РЕКОМБ)
Форматы файлов	Формат CRAM Формат FASTA Формат FASTQ Формат NeXML Формат Nexus Формат Pileup Формат SAM Стокгольмский формат
похожие темы	Вычислительная биология Список биобанков Список биологических баз данных Молекулярная филогенетика Последовательность действий База данных последовательностей Выравнивание последовательности
Категория Commons