Европейский архив нуклеотидов - European Nucleotide Archive

Европейский архив нуклеотидов (ENA)
Европейский архив нуклеотидов logo.png
Содержание
ОписаниеПолный архив нуклеотидных последовательностей, аннотаций и связанных данных.
Типы данных
захвачен
Нуклеотидная последовательность, функциональная аннотация, последовательность чтения и секвенсор Информация, образец детали, другие связанные записи.
ОрганизмыВсе
Контакт
Исследовательский центрЕвропейский институт биоинформатики
ЛабораторияГруппа ПАНДА
Основное цитированиеPMID  20972220
Дата выходаАпрель 1982 г.
Доступ
Формат данныхXML
FASTQ
Формат EMBL-Bank
Интернет сайтENA
Скачать URLENA скачать
веб-сервис URLБраузер ENA
Инструменты
АвтономныйНабор инструментов CRAM
Разное
ЛицензияНеограниченный

В Европейский архив нуклеотидов (ENA) - это репозиторий, предоставляющий бесплатный и неограниченный доступ к аннотированным Последовательности ДНК и РНК. Он также хранит дополнительную информацию, такую ​​как экспериментальные процедуры, детали сборка последовательности и другие метаданные относится к секвенирование проектов.[1]Архив состоит из трех основных баз данных: Последовательность чтения из архива, Архив трассировки и База данных нуклеотидных последовательностей EMBL (также известная как банк EMBL).[2] ENA производится и обслуживается Европейский институт биоинформатики и является членом Сотрудничество с международными базами данных нуклеотидных последовательностей (INSDC) вместе с Банк данных ДНК Японии и GenBank.

ENA выросла из библиотеки данных EMBL, которая была выпущена в 1982 году как первый международно поддерживаемый ресурс для данных нуклеотидных последовательностей.[3] По состоянию на начало 2012 года каждая база данных ENA и других членов INSDC содержала полные геномы 5682 организмов и данные о последовательностях почти 700000.[4]Более того, объем данных экспоненциально возрастает с временем удвоения примерно 10 месяцев.[5]

История

Европейский архив нуклеотидов возник из отдельных баз данных, самой ранней из которых была Библиотека данных EMBL, созданная в октябре 1980 г. Европейская лаборатория молекулярной биологии (EMBL), Гейдельберг.[3] Первый выпуск этого база данных был сделан в апреле 1982 года и содержал в общей сложности 568 отдельных записей, состоящих примерно из 500 000 пар оснований.[6] В 1984 году, ссылаясь на библиотеку данных EMBL, Нил и Кеннард отметили, что «несколько лет назад было ясно, что большая компьютеризированная база данных последовательностей будет иметь важное значение для исследований в области молекулярной биологии».[6]

Данные нуклеотидных последовательностей в виде книги.

Несмотря на то, что в то время основным методом распределения был магнитная лента к 1987 г. библиотеку данных EMBL использовали около 10 000 ученых по всему миру.[7] В том же году был представлен файловый сервер EMBL для обслуживания записей базы данных более BITNET, ЗАРАБАТЫВАТЬ и ранний Интернет.[8] В мае 1988 г. журнал Исследования нуклеиновых кислот ввела политику, гласящую, что «рукописи, представленные в [Исследования нуклеиновых кислот] и содержащие или обсуждающие данные о последовательностях, должны сопровождаться доказательствами того, что данные были депонированы в библиотеке данных EMBL».[9]

EBI на Кампус Wellcome Trust Genome в Hinxton, Великобритания где находится Европейский архив нуклеотидов.

В 1990-е годы библиотека данных EMBL была переименована в базу данных нуклеотидных последовательностей EMBL.[10] и был официально переведен в Европейский институт биоинформатики (EBI) из Гейдельберга.[11] В 2003 году база данных нуклеотидных последовательностей была расширена за счет добавления архива версий последовательностей (SVA), который поддерживает записи всех текущих и предыдущих записей в базе данных.[1] Год спустя, в июне 2004 г., ограничение на максимальную длину последовательности для каждой записи (тогда 350 килобазы ) были удалены, что позволило сохранить последовательности целого генома как единый база данных Вход.[12]

После освоения Секвенирование по Сэнгеру, то Wellcome Trust Sanger Institute (тогда известный как Центр Сэнгера) начал каталогизацию прочтений последовательностей вместе с информацией о качестве в базе данных под названием The Trace Archive.[13] Архив трассировки существенно вырос с коммерциализацией высокопроизводительных технологий параллельного секвенирования такими компаниями, как Рош и Иллюмина.[14]В 2008 году EBI объединил Архив трассировки, базу данных нуклеотидных последовательностей EMBL (теперь также известную как EMBL-Bank)[2] и недавно разработанный архив последовательного (или короткого) чтения (SRA) для создания ENA, направленный на обеспечение всестороннего нуклеотид архив последовательности.[13] Как член Сотрудничество с международными базами данных нуклеотидных последовательностей, ENA ежедневно обменивается данными с обоими Банк данных ДНК Японии и GenBank.[15]

База данных нуклеотидных последовательностей EMBL

База данных нуклеотидных последовательностей EMBL (EMBL-Bank) увеличилась в размере с примерно 600 записей в 1982 году до более 2,5 × 10.8 к декабрю 2012 г.[16]

База данных нуклеотидных последовательностей EMBL (также известная как EMBL-Bank) - это раздел ENA, который содержит высокоуровневые сборка генома детали, а также собранные последовательности и их функционал аннотация.[12][17] EMBL-Bank вносится прямым представлением из генома консорциум и меньшие исследовательские группы, а также путем поиска данных о последовательностях, связанных с заявки на патенты.[2][18]

По состоянию на выпуск 114 (декабрь 2012 г.) база данных нуклеотидных последовательностей EMBL содержит приблизительно 5 × 1011 нуклеотиды с несжатым размером 1,6 терабайты.[16]

Классы данных

База данных нуклеотидных последовательностей EMBL поддерживает множество данных, полученных из разных источников, включая, помимо прочего:[19]

Формат EMBL-Bank

База данных нуклеотидных последовательностей EMBL использует плоский файл простой текст формат для представления и хранения данных, которые обычно называют форматом EMBL-Bank.[20] В формате EMBL-Bank используется другой синтаксис к записям в DDBJ и GenBank, хотя каждый формат использует определенную стандартизированную номенклатуру, например таксономии как определено NCBI База данных таксонов. Каждая строка файла в формате EMBL имеет двухбуквенный код, например AC обозначить инвентарный номер и КВт для списка ключевых слов, относящихся к записи; каждая запись заканчивается //.[20]

Последовательность чтения из архива

SRA быстро выросла с 2008 года.[21] По состоянию на 2011 год большинство данных о последовательности SRA было произведено Иллюмина анализатор генома.[22]

ENA управляет экземпляром архива чтения последовательностей (SRA), архивным хранилищем операций чтения и анализа последовательностей, которые предназначены для публичного выпуска.[23] Первоначально называвшийся «Архив коротких чтений», название было изменено в ожидании того, что будущие технологии секвенирования смогут производить более длинные чтения последовательности.[24] В настоящее время архив принимает чтения последовательностей, сгенерированные следующим поколением платформы для секвенирования такие как анализатор генома Illumina и ABI SOLiD а также некоторые соответствующие анализы и выравнивания.[25] SRA действует под руководством Сотрудничество с международными базами данных нуклеотидных последовательностей (INSDC)[23] и является самым быстрорастущим хранилищем в ENA.[14]

В 2010 г. Архив чтения последовательностей составлял примерно 95% базовая пара данные доступны через ENA,[13] охватывая более 500000000000 считываний последовательностей, составляющих более 60 триллионов (6 × 1013) пар оснований.[23] Почти половина этих данных была депонирована в отношении Проект 1000 геномов[23] при этом исследователи опубликовали свои данные о последовательностях в SRA в в реальном времени.[26] В целом, по состоянию на сентябрь 2010 г., 65% архива чтения последовательностей было геномный последовательность, а еще 16% относятся к человеческому метагеном последовательность читает.[23]

Предпочтительный формат данных для файлов, представленных в SRA, используется формат BAM, который может хранить как выровненные, так и невыровненные чтения.[23] Внутренне SRA полагается на инструментарий NCBI SRA Toolkit, который используется во всех трех членских базах данных INSDC, для обеспечения гибкости Сжатие данных, API доступ и преобразование в другие форматы, такие как FASTQ.[22]

Доступ к данным

Скриншот браузера ENA веб интерфейс, показывая запись HTML.

Доступ к данным, содержащимся в ENA, можно получить вручную или программно через URL REST через браузер ENA. Первоначально ограничен Архивом чтения последовательностей,[14] браузер ENA теперь также обеспечивает доступ к Trace Archive и EMBL-Bank, позволяя извлекать файлы в различных форматах, включая XML, HTML, FASTA и FASTQ.[13] Доступ к отдельным записям можно получить, используя их регистрационные номера, а другие текстовые запросы включаются через EB-глаз поисковый движок.[13] Кроме того, сходство последовательностей поисковые запросы, реализованные с использованием Графики де Брейна предлагают другой метод получения записей из ENA.[14]

ENA доступен через EBI. МЫЛО и REST API, которые также предлагают доступ к другим базам данных, размещенным в EBI, например Ансамбль и ИнтерПро.[27]

Место хранения

Европейский нуклеотидный архив обрабатывает большие объемы данных, которые создают серьезные проблемы с хранением.[5][28] По состоянию на 2012 год требования ENA к хранению по-прежнему расти экспоненциально, с периодом удвоения примерно 10 месяцев.[5] Чтобы справиться с этим увеличением, ENA выборочно отбрасывает менее ценные данные платформы секвенирования и реализует расширенные сжатие стратегии.[23][29] Инструментарий сжатия на основе справочников CRAM был разработан, чтобы помочь снизить требования к хранилищу ENA.[5][30]

Финансирование

В настоящее время ENA финансируется совместно Европейская лаборатория молекулярной биологии, то Европейская комиссия и Wellcome Trust.[13] Развивающаяся структура ELIXIR, координатором которой является директор EBI Джанет Торнтон, направлена ​​на обеспечение устойчивой европейской инфраструктуры финансирования для поддержки постоянной доступности наука о жизни базы данных, такие как ENA.[29][31][32]

Смотрите также

Рекомендации

  1. ^ а б Cochrane, G .; Ахтар, Р .; Aldebert, P .; Althorpe, N .; Болдуин, А .; Bates, K .; Bhattacharyya, S .; Bonfield, J .; Бауэр, Л. (2007). «Приоритеты для сбора данных нуклеотидных следов, последовательностей и аннотаций в архиве трассировки Ensembl и базе данных нуклеотидных последовательностей EMBL». Исследования нуклеиновых кислот. 36 (База данных): D5 – D12. Дои:10.1093 / нар / гкм1018. ISSN  0305-1048. ЧВК  2238915. PMID  18039715.
  2. ^ а б c EMBL-EBI. «База данных нуклеотидных последовательностей EMBL». Получено 2013-01-08.
  3. ^ а б Hamm, G.H .; Кэмерон, Г. Н. (1986). «Библиотека данных EMBL». Исследования нуклеиновых кислот. 14 (1): 5–9. Дои:10.1093 / nar / 14.1.5. ЧВК  339348. PMID  3945550.
  4. ^ Кокрейн, Гай; Кук, Чарльз Э; Бирни, Юэн (2012). «Будущее архивирования последовательностей ДНК». GigaScience. 1 (1): 2. Дои:10.1186 / 2047-217X-1-2. ISSN  2047-217X. ЧВК  3617450. PMID  23587147.
  5. ^ а б c d Cochrane, G .; Алако, Б .; Amid, C .; Bower, L .; Cerdeno-Tarraga, A .; Cleland, I .; Gibson, R .; Goodgame, N .; Джанг, М. (2012). «Перед ростом в Европейском архиве нуклеотидов». Исследования нуклеиновых кислот. 41 (D1): D30 – D35. Дои:10.1093 / нар / gks1175. ISSN  0305-1048. ЧВК  3531187. PMID  23203883.
  6. ^ а б Kneale, G .; Кеннард, О. (1984). «Библиотека данных нуклеотидных последовательностей EMBL». Сделки биохимического общества. 12 (6): 1011–1014. Дои:10.1042 / bst0121011. PMID  6530028.
  7. ^ Кэмерон, Г. Н. (1988). «Библиотека данных EMBL». Исследования нуклеиновых кислот. 16 (5): 1865–1867. Дои:10.1093 / nar / 16.5.1865. ЧВК  338182. PMID  3353226.
  8. ^ Fuchs, R .; Stoehr, P .; Rice, P .; Omond, R .; Кэмерон, Г. (1990). «Новые услуги библиотеки данных EMBL». Исследования нуклеиновых кислот. 18 (15): 4319–4323. Дои:10.1093 / nar / 18.15.4319. ЧВК  331247. PMID  2388823.
  9. ^ Kahn, P .; Хазледайн, Д. (1988). «Новое требование NAR к представлению данных в библиотеку данных EMBL: информация для авторов». Исследования нуклеиновых кислот. 16 (10): I – IV. ЧВК  336623. PMID  16617480.
  10. ^ "Что такое Европейский архив нуклеотидов?". EMBL-EBI. Получено 2013-01-06.
  11. ^ Rodriguez-Tomé, P .; Stoehr, P.J .; Cameron, G.N .; Флорес, Т. П. (1996). "Базы данных Европейского института биоинформатики (EBI)". Исследования нуклеиновых кислот. 24 (1): 6–12. Дои:10.1093 / nar / 24.1.6. ЧВК  145572. PMID  8594602.
  12. ^ а б Stoesser, G .; Бейкер, Вт; Ван Ден Брук, А; Гарсия-Пастор, М. Kanz, C; Куликова, Т; Leinonen, R; Линь, Q; Ломбард, V (2003). «База данных нуклеотидных последовательностей EMBL: основные новые разработки». Исследования нуклеиновых кислот. 31 (1): 17–22. Дои:10.1093 / nar / gkg021. ISSN  1362-4962. ЧВК  165468. PMID  12519939.
  13. ^ а б c d е ж Лейнонен Р., Ахтар Р., Бирни Э. и др. (Январь 2011 г.). "Европейский архив нуклеотидов". Нуклеиновые кислоты Res. 39 (Выпуск базы данных): D28–31. Дои:10.1093 / nar / gkq967. ЧВК  3013801. PMID  20972220.
  14. ^ а б c d Leinonen, R .; Ахтар, Р .; Birney, E .; Bonfield, J .; Bower, L .; Corbett, M ​​.; Cheng, Y .; Демиральп, Ф .; Фарук, Н. (2009). «Улучшение услуг в Европейском архиве нуклеотидов». Исследования нуклеиновых кислот. 38 (База данных): D39 – D45. Дои:10.1093 / nar / gkp998. ISSN  0305-1048. ЧВК  2808951. PMID  19906712.
  15. ^ EMBL-EBI. "О Европейском архиве нуклеотидов". Получено 2013-01-07.
  16. ^ а б «База данных нуклеотидных последовательностей EMBL: примечания к выпуску». Примечания к выпуску EMBL-Bank 114. EMBL-EBI. Декабрь 2012. Архивировано с оригинал на 2013-01-02. Получено 2013-01-07.
  17. ^ Amid, C .; Birney, E .; Bower, L .; Cerdeno-Tarraga, A .; Cheng, Y .; Cleland, I .; Faruque, N .; Gibson, R .; Гудгейм, Н. (2011). «Основные разработки инструментов подачи заявок в Европейском нуклеотидном архиве». Исследования нуклеиновых кислот. 40 (D1): D43 – D47. Дои:10.1093 / nar / gkr946. ISSN  0305-1048. ЧВК  3245037. PMID  22080548.
  18. ^ Stoesser, G .; Бейкер, Вт; Ван Ден Брук, А; Camon, E; Гарсия-Пастор, М. Kanz, C; Куликова, Т; Leinonen, R; Линь, Q (2002). «База данных нуклеотидных последовательностей EMBL». Исследования нуклеиновых кислот. 30 (1): 21–26. Дои:10.1093 / nar / 30.1.21. ISSN  1362-4962. ЧВК  99098. PMID  11752244.
  19. ^ «Классы данных EMBL-Bank». EBML-EBI. 2012 г.. Получено 2013-01-08.
  20. ^ а б «Руководство пользователя EMBL-Bank (Выпуск 129)» (Простой текст). EMBL-EBI. Сен 2016. Получено 2016-11-03.
  21. ^ «Обзор NCBI SRA». NCBI. 1 января 2013 г. Архивировано из оригинал 8 февраля 2013 г.. Получено 2013-01-08.
  22. ^ а б Kodama, Y .; Shumway, M .; Лейнонен, Р. (2011). «Архив чтения последовательности: взрывной рост данных секвенирования». Исследования нуклеиновых кислот. 40 (D1): D54 – D56. Дои:10.1093 / нар / gkr854. ISSN  0305-1048. ЧВК  3245110. PMID  22009675.
  23. ^ а б c d е ж грамм Leinonen R, Sugawara H, Shumway M (январь 2011 г.). «Последовательность чтения архива». Нуклеиновые кислоты Res. 39 (Проблема с базой данных): D19–21. Дои:10.1093 / nar / gkq1019. ЧВК  3013647. PMID  21062823.
  24. ^ Остелл, Джим (2009). «Архив чтения последовательности NCBI: основная поддерживающая инфраструктура». Биологический мир ИТ. Получено 2013-01-08.
  25. ^ "Об архиве чтения последовательности NCBI". NCBI. 8 января 2013 г. Архивировано с оригинал 19 апреля 2013 г.. Получено 2013-01-10.
  26. ^ Shumway, M .; Cochrane, G .; Сугавара, Х. (2009). «Архивирование данных секвенирования следующего поколения». Исследования нуклеиновых кислот. 38 (База данных): D870 – D871. Дои:10.1093 / nar / gkp1078. ISSN  0305-1048. ЧВК  2808927. PMID  19965774.
  27. ^ Mcwilliam, H .; Валентин, Ф .; Goujon, M .; Li, W .; Narayanasamy, M .; Martin, J .; Мияр, Т .; Лопес, Р. (2009). «Веб-сервисы в Европейском институте биоинформатики-2009». Исследования нуклеиновых кислот. 37 (Веб-сервер): W6 – W10. Дои:10.1093 / нар / gkp302. ISSN  0305-1048. ЧВК  2703973. PMID  19435877.
  28. ^ Cochrane, G .; Ахтар, Р .; Bonfield, J .; Bower, L .; Демиральп, Ф .; Faruque, N .; Gibson, R .; Hoad, G .; Хаббард, Т. (2009). «Инновации петабайтного масштаба в Европейском архиве нуклеотидов». Исследования нуклеиновых кислот. 37 (База данных): D19 – D25. Дои:10.1093 / nar / gkn765. ISSN  0305-1048. ЧВК  2686451. PMID  18978013.
  29. ^ а б «EMBL-EBI будет продолжать поддерживать архив последовательного чтения для необработанных данных» (PDF). Пресс-релиз. EMBL-EBI. 16 февраля 2011 г. Архивировано с оригинал (PDF) 15 мая 2011 г.. Получено 2013-01-07.
  30. ^ Hsi-Yang Fritz, M .; Leinonen, R .; Cochrane, G .; Бирни, Э. (2011). «Эффективное хранение данных высокопроизводительного секвенирования ДНК с использованием сжатия на основе ссылок». Геномные исследования. 21 (5): 734–740. Дои:10.1101 / гр.114819.110. ISSN  1088-9051. ЧВК  3083090. PMID  21245279.
  31. ^ «Об ЭЛИКСИРЕ». ЭЛИКСИР. Получено 2013-01-09.
  32. ^ Crosswell, Lindsey C .; Торнтон, Джанет М. (2012). «ЭЛИКСИР: распределенная инфраструктура европейских биологических данных». Тенденции в биотехнологии. 30 (5): 241–242. Дои:10.1016 / j.tibtech.2012.02.002. ISSN  0167-7799. PMID  22417641.

внешняя ссылка