Ансамблевые геномы - Ensembl Genomes

Ансамблевые геномы
Ensembl genomes logo.png
Содержание
ОписаниеИнтегративный ресурс для данных в масштабе генома от видов беспозвоночных.
Типы данных
захвачен
Геномная база данных
ОрганизмыСковорода
Контакт
Исследовательский центрЕвропейский институт биоинформатики
Основное цитированиеКерси и др. (2012),[1] Хау и др. (2020)[2]
Дата выхода2009
Доступ
Интернет сайтhttp://ensemblgenomes.org/
Скачать URLftp://ftp.ensemblgenomes.org/pub/current
веб-сервис URLhttp://rest.ensembl.org/
Общественные SQL доступ[email protected]: 4157
Разное
ЛицензияApache 2.0
Выпуск данных
частота
4 раза в год
ВерсияВыпуск 47 (апрель 2020 г.)

Ансамблевые геномы это научный проект по предоставлению данных в масштабе генома беспозвоночных видов.[1][2]

Проект реализует Европейский институт биоинформатики, и был запущен в 2009 году с использованием Ансамбль технологии.[3] Основная цель базы данных Ensembl Genomes - дополнить основную базу данных Ensembldatabase, добавив пять дополнительных веб-страниц для включения данных генома для бактерии, грибы, беспозвоночные метазоа, растения, и протисты.[4] Для каждого из доменов Ансамбль доступны инструменты для обработки, анализа и визуализации данных генома. Большинство данных Ensembl Genomes хранятся в реляционных базах данных MySQL и могут быть доступны через интерфейс Ensembl REST, Perl API, Biomart или онлайн.[5]

Ensembl Genomes - это открытый проект, и большая часть кода, инструментов и данных доступны для общественности.[6] Программное обеспечение Ensembl и Ensembl Genomes использует лицензию Apache 2.0.[7] лицензия.

Отображение геномных данных

Визуализация кариотипа в ансамблевых геномах

Ключевой особенностью Ensembl Genomes является графический интерфейс, который позволяет пользователям прокручивать геном и наблюдайте за относительным расположением таких функций, как концептуальные аннотация (например. гены, SNP локусов), паттерны последовательностей (например, повторы) и экспериментальные данные (например, последовательности и особенности внешних последовательностей, отображенные на геном ).[1] Графические представления доступны для различных уровней разрешения для всего кариотип, вплоть до последовательности одного экзон. Информация для геном размещен на четырех вкладках, на странице видов, на вкладке "Местоположение", "Ген Вкладка иСтенограмма ', Каждая из которых предоставляет информацию в более высоком разрешении.

Поиск определенного вида с помощью Ensembl Genomes перенаправляет на страницу видов. Часто дается краткое описание видов, а также ссылки на дополнительную информацию и статистические данные о геном, графический интерфейс и некоторые доступные инструменты.

А кариотип доступен для некоторых видов в Ensembl Genomes.[8] Если кариотип доступен, ссылка на него будет указана в разделе «Сборка генов» на странице видов. В качестве альтернативы, если пользователи находятся на вкладке «Местоположение», они также могут просмотреть кариотип, выбрав «Весь геном» в левом меню. Пользователи могут щелкнуть место в кариотипе, чтобы увеличить масштаб до одной конкретной хромосомы или области генома.[8] Откроется вкладка «Местоположение».

На вкладке "Местоположение" пользователи могут просматривать гены, вариации, сохранение последовательности, и другие виды аннотация вдоль геном.[9] «Подробная информация о регионе» легко настраивается и масштабируется, и пользователи могут выбирать, что они хотят видеть, нажав кнопку «Настроить эту страницу» в нижней части левого меню. Добавляя и удаляя треки, пользователи смогут выбрать тип данных, которые они хотят включить в отображение.[9] Данные из следующих категорий можно легко добавить или удалить из этой вкладки «Местоположение»:Последовательность и сборка ', 'Гены и стенограммы ', 'мРНК и белок выравнивания ',' Другое ДНК выравнивания ', 'Зародышевый вариация ','Сравнительная геномика 'и другие.[9] Пользователи также могут изменять параметры отображения, например ширину.[9] Еще одна опция позволяет пользователям сбросить конфигурацию до настроек по умолчанию.[9]

Более конкретная информация об избранном ген можно найти на вкладке «Ген». Пользователи могут попасть на эту страницу, выполнив поиск нужного гена в строке поиска и щелкнув идентификатор гена или щелкнув один из генов, показанных на вкладке «Местоположение». Вкладка «Ген» содержит информацию о генах, такую ​​как структура гена, количество стенограммы, положение на хромосома и гомология информация в виде генных деревьев.[10] Доступ к этой информации можно получить через меню с левой стороны.

Вкладка «Транскрипт» также появляется, когда пользователь выбирает просмотр гена. Вкладка «Транскрипт» содержит большую часть той же информации, что и вкладка «Ген», но сосредоточена только на одной транскрипции.[10]

Инструменты

Добавление пользовательских треков в ансамблевые геномы

Ensembl Genomes позволяет сравнивать и визуализировать пользовательские данные при просмотре кариотипов и генов. Большинство представлений Ensembl Genomes включают кнопку «Добавить ваши данные» или «Управление вашими данными», которая позволяет пользователю загружать новые треки, содержащие чтения или последовательности, в Ensembl Genomes или изменять данные, которые были ранее загружены.[11] Загруженные данные можно визуализировать в виде областей или по всему кариотипу. Загруженные данные могут быть локализованы с помощью координат хромосомы или координат клонирования BAC.[12]Следующие методы можно использовать для загрузки файла данных на любую страницу Ensembl Genomes:[13]

  1. Файлы размером менее 5 МБ могут быть загружены непосредственно с любого компьютера или из веб-сайта (URL) на серверы Ensembl.
  2. Файлы лагера могут быть загружены только из веб-сайтов (URL).
  3. Файлы BAM могут быть загружены только с использованием подхода на основе URL. Индексный файл (.bam.bai) должен находиться на том же веб-сервере.
  4. Источник распределенной системы аннотаций можно прикрепить из Интернета.

Ensembl Genomes поддерживает следующие типы файлов:[14]

Визуализация пользовательского трека с пометкой «Читает» в Ensembl Genomes
  • КРОВАТЬ
  • BedGraph
  • Универсальный
  • GFF / GTF
  • PSL
  • КРЫЛО
  • БАМ
  • Большая кровать
  • BigWig
  • VCF

Данные временно загружаются на серверы. Зарегистрированные пользователи могут войти в систему и сохранить свои данные для дальнейшего использования. Можно поделиться и получить доступ к загруженным данным, используя назначенный URL.[15] Пользователи также могут удалять свои собственные треки из Ensembl Genomes.

БиоМарт

БиоМарт - это поисковая система, не требующая программирования, встроенная в Ensembl и Ensembl Genomes (за исключением Ensembl Bacteria) с целью анализа и извлечения геномных данных из баз данных Ensembl в табличных форматах, таких как HTML, TSV, CSV или XLS.[16] Выпуск 45 (2019) Ensembl Genomes содержит следующие данные, доступные на BioMarts:

Просмотр BioMart в Ensembl Plants.

Цель BioMarts in Ensembl Genomes - позволить пользователю добывать и загружать таблицы, содержащие все гены для одного вида, гены в определенной области хромосомы или гены в одной области хромосомы, связанной с доменом InterPro.[21] BioMarts также включают фильтры для уточнения данных, которые необходимо извлечь, и атрибуты (идентификатор варианта, имя хромосомы, идентификатор Ensembl, местоположение и т. Д.), Которые появятся в файле окончательной таблицы, могут быть выбраны пользователем.

Доступ к BioMarts можно получить онлайн в каждом соответствующем домене Ensembl Genomes, или исходный код может быть установлен в среде UNIX из BioMart. мерзавец хранилище[22]

ВЗРЫВ

А ВЗРЫВ предоставляется интерфейс, позволяющий пользователям искать ДНК или же белковые последовательности против ансамблевых геномов. Доступ к нему можно получить из заголовка, расположенного в верхней части всех страниц Ensembl Genome, под названием ВЗРЫВ. В ВЗРЫВ поиск можно настроить для поиска по отдельным видам или коллекциям видов (максимум 25). Существует таксономический браузер, позволяющий выбирать таксономически связанные виды.[23]

Последовательный поиск

Ensembl Genomes предоставляет второй инструмент поиска последовательности, который использует алгоритм, основанный на Exonerate, который предоставляется Европейский архив нуклеотидов.[23] Доступ к этому инструменту можно получить из заголовка, расположенного в верхней части всех страниц Ensembl Genome, под названием Sequence Search. Затем пользователи могут выбрать, хотят ли они, чтобы Exonerate выполнял поиск по всем видам в разделе Ensembl Genomes или по всем видам в Ensembl Genomes. Они также могут выбрать «Максимальное значение E», которое ограничит отображаемые результаты теми, у которых значения E ниже максимального. Наконец, пользователи могут выбрать использование альтернативного режима поиска, выбрав «Использовать объединенный запрос».

Прогнозирующий эффект варианта

Предиктор эффекта варианта - один из наиболее часто используемых инструментов в Ensembl и Ensembl Genomes. Это позволяет исследовать и анализировать влияние вариантов (SNP, CNV, инделки или структурные вариации) на конкретный ген, последовательность, белок, транскрипт или фактор транскрипции.[24] Чтобы использовать VEP, пользователи должны ввести местоположение своих вариантов и нуклеотидных вариаций, чтобы получить следующие результаты:[25]

  • Гены и транскрипты, затронутые вариантом
  • Расположение вариантов
  • Как вариант влияет на синтез белка (например, на создание стоп-кодона)
  • Сравнение с другими базами данных для поиска одинаковых известных вариантов

Есть два способа, которыми пользователи могут получить доступ к VEP. Первая форма - онлайн. На этой странице пользователь генерирует ввод, выбирая следующие параметры:[26]

  1. Сравниваемые виды. Базой данных по умолчанию для сравнения является Ensembl Transcripts, но для некоторых видов можно выбрать другие источники.
  2. Имя загруженных данных (это необязательно, но это упростит идентификацию данных, если было выполнено много заданий VEP)
  3. Выбор формата ввода данных. Если выбран неправильный формат файла, VEP выдаст ошибку при запуске.
  4. Поля для загрузки данных. Пользователи могут загружать данные со своих компьютеров, из местоположения на основе URL-адреса или путем непосредственного копирования их содержимого в текстовое поле.

Загрузка данных в VEP поддерживает нотации VCF, pileup, HGVS и формат по умолчанию.[27] Формат по умолчанию - это файл с разделителями-пробелами, содержащий данные в столбцах. Первые пять столбцов указывают хромосому, начальное положение, конечное положение, аллель (пара аллелей, разделенных знаком «/», с первым референсным аллелем) и цепь (+ для прямого или - для обратного).[28] Шестой столбец является идентификатором варианта и не является обязательным. Если оставить поле пустым, VEP назначит идентификатор в выходном файле.

VEP также предоставляет пользователям дополнительные параметры идентификаторов, дополнительные параметры для дополнения вывода и фильтрации.[29] Параметры фильтрации позволяют использовать такие функции, как удаление известных вариантов из результатов, возврат только вариантов в экзонах и ограничение результатов конкретными последствиями вариантов.[30]

Пользователи VEP также имеют возможность просматривать и управлять всеми заданиями, связанными с их сеансом, путем просмотра вкладки «Последние заявки». На этой вкладке пользователи могут просматривать статус своего поиска (успешный, поставленный в очередь, запущенный или неудачный) и сохранять, удалять или повторно отправлять задания.[31]

Второй вариант использования VEP - это загрузка исходного кода для использования в средах UNIX.[32] Все возможности онлайн-версии и скриптовой версии одинаковы. VEP также можно использовать с онлайн-экземплярами, такими как Galaxy.

Когда задание VEP завершено, на выходе получается табличный файл, содержащий следующие столбцы:[33]

  1. Загруженный вариант - как chromosome_start_alleles
  2. Местоположение - в стандартном формате координат (chr: start или chr: start-end)
  3. Аллель - вариантный аллель, используемый для расчета последствий
  4. Ген - стабильный идентификатор ансамбля пораженного гена
  5. Feature - Ensembl стабильный идентификатор функции
  6. Тип объекта - тип объекта. В настоящее время один из элементов Transcript, RegulatoryFeature, MotifFeature.
  7. Следствие - тип следствия этой вариации
  8. Положение в кДНК - относительное положение пары оснований в последовательности кДНК
  9. Position in CDS - относительное положение пары оснований в кодирующей последовательности
  10. Положение в белке - относительное положение аминокислоты в белке
  11. Аминокислотное изменение - дается только в том случае, если изменение влияет на последовательность, кодирующую белок
  12. Codon change - альтернативные кодоны с вариантом основания в верхнем регистре
  13. Совместно расположенная вариация - известный идентификатор существующей вариации
  14. Extra - этот столбец содержит дополнительную информацию в виде пар ключ = значение, разделенных знаком «;». Отображает дополнительные идентификаторы.
Выходной файл прогнозирующего эффекта варианта

Другие распространенные форматы вывода для VEP включают: JSON и форматы VDF.[34]

Программный доступ к данным

Интерфейс Ensembl Genomes [REST] позволяет получить доступ к данным, используя ваш любимый язык программирования.

Вы также можете получить доступ к данным с помощью Perl API и Biomart.


Текущие виды

Ensembl Genomes не пытается включить все возможные геномы, скорее, геномы, включенные на сайт, считаются важными с научной точки зрения.[35] На каждом участке представлено следующее количество видов:

Сотрудничество

Ensembl Genomes постоянно расширяет аннотационные данные за счет сотрудничества с другими организациями, участвующими в проектах и ​​исследованиях по аннотации генома. Следующие организации являются сотрудниками Ensembl Genomes:[42]

Смотрите также

внешняя ссылка

Рекомендации

  1. ^ а б c Kersey, P.J .; Стейнс, Д. М .; Lawson, D .; Кулеша, Э .; Derwent, P .; Humphrey, J.C .; Hughes, D. S. T .; Keenan, S .; Kerhornou, A .; Koscielny, G .; Langridge, N .; McDowall, M.D .; Megy, K .; Maheswari, U .; Nuhn, M .; Паулини, М .; Pedro, H .; Тонева, И .; Wilson, D .; Yates, A .; Бирни, Э. (2011). "Ensembl Genomes: интегративный ресурс для данных в масштабе генома от видов беспозвоночных". Исследования нуклеиновых кислот. 40 (Выпуск базы данных): D91 – D97. Дои:10.1093 / nar / gkr895. ЧВК  3245118. PMID  22067447.
  2. ^ а б Хоу К.Л., Контрерас-Морейра Б., Де Сильва Н., Маслен Дж., Аканни В., Аллен Дж., Альварес-Джаррета Дж., Барба М., Болсер Д.М., Камбель Л., Карбахо М., Чакашвили М., Кристенсен М., Камминс К., Кузик А. Дэвис П., Фексова С., Галл А., Джордж Н., Гил Л., Гупта П., Хаммонд-Косак К. Э., Хаскелл Е., Хант С., Джайсвал П., Яначек С., Керси П. Дж., Лангридж Н., Махесвари Ю., Маурел Т., Макдауэлл, доктор медицины Мур Б., Маффато М., Наамати Дж., Наитани С., Олсон А., Папатеодору И., Патрисио М., Паулини М., Педро Г., Перри Е., Прис Дж., Розелло М., Рассел М., Ситник В., Стейнс Д. М., Штейн Дж., Телло- Руис М.К., Треванион С.Дж., Урбан М., Вей С., Уэр Д., Уильямс Г., Йетс А.Д., Фличек П. (январь 2020 г.). «Ensembl Genomes 2020 - создание возможностей для геномных исследований беспозвоночных». Исследования нуклеиновых кислот. 48 (D1). Дои:10.1093 / нар / gkz890.
  3. ^ Hubbard, T. J. P .; Aken, B.L .; Ayling, S .; Ballester, B .; Бил, К .; Брагин, Э .; Brent, S .; Chen, Y .; Clapham, P .; Clarke, L .; Coates, G .; Fairley, S .; Fitzgerald, S .; Fernandez-Banet, J .; Гордон, Л .; Graf, S .; Haider, S .; Hammond, M .; Holland, R .; Howe, K .; Jenkinson, A .; Johnson, N .; Kahari, A .; Киф, Д .; Keenan, S .; Kinsella, R .; Кокоцински, Ф .; Кулеша, Э .; Lawson, D .; Лонгден, И. (2009). «Ансамбль 2009». Исследования нуклеиновых кислот. 37 (Проблема с базой данных): D690 – D697. Дои:10.1093 / nar / gkn828. ЧВК  2686571. PMID  19033362.
  4. ^ "О геномах ансамблей". Ансамблевые геномы. Ансамбль. Получено 2 сентября 2014.
  5. ^ "Ensembl Genomes MySQL". ensemblgenomes.org. Ансамблевые геномы. Получено 11 сентября 2014.
  6. ^ Kinsella, Rhoda J .; Кяхари, Андреас; Сайед, Хайдер; Замора, Хорхе; Проктор, Гленн; Спудич, Джульетта; Алмейда-Кинг, Джефф; Стейнс, Дэниел; Дервент, Пол; Керхурну, Арно; Керси, Пол; Фличек, Пол (2011). "Ensembl BioMarts: центр поиска данных в таксономическом пространстве". База данных. 2011 (2011): 2. Дои:10.1093 / база данных / bar030. ЧВК  3170168. PMID  21785142.
  7. ^ «Лицензия на программное обеспечение». Ансамбль. Получено 9 июн 2020.
  8. ^ а б «Целый геном». Ансамблевые геномы. Получено 7 сентября 2014.
  9. ^ а б c d е "Часто задаваемые вопросы". Ансамблевые геномы. Получено 7 сентября 2014.
  10. ^ а б Спудич, Г; Fernández-Suárez, X.M .; Бирни, Э (2007). «Просмотр генома с помощью Ensembl: практический обзор». Брифинги по функциональной геномике и протеомике. 6 (3): 202–19. Дои:10.1093 / bfgp / elm025. PMID  17967807.
  11. ^ «Загрузка ваших данных в Ensembl». Ансамблевые геномы. Ансамблевые геномы. Получено 9 сентября 2014.
  12. ^ «Координаты расположения данных в геномах ансамблей». Ансамблевые геномы. Ансамблевые геномы. Получено 9 сентября 2014.
  13. ^ «Способы загрузки данных». Ансамбль Растения. Ансамблевые геномы. Получено 9 сентября 2014.
  14. ^ «Поддерживаемые файлы данных». Ансамбль Растения. Ансамблевые геномы. Получено 9 сентября 2014.
  15. ^ «Сохранение и обмен данными в геномах ансамбля». Ансамбль Растения. Ансамблевые геномы.
  16. ^ «Интеллектуальный анализ данных в ансамбле с интеллектуальным анализом данных в ансамбле с помощью BioMart» (PDF). Ансамбль. 2014. с. 2. Получено 11 сентября 2014.
  17. ^ "Ансамбль протистов". Ensembl Protists. Ансамблевые геномы. Получено 1 октября 2019.
  18. ^ "Ensembl Fungi". Ensembl Fungi. Ансамблевые геномы. Получено 1 октября 2019.
  19. ^ "Ensembl Metazoa". Ensembl Metazoa. Ансамблевые геномы. Получено 1 октября 2019.
  20. ^ "Ансамблевые растения". Ансамбль Растения. Ансамблевые геномы. Получено 1 октября 2019.
  21. ^ «Анализ данных в ансамбле с интеллектуальным анализом данных в ансамбле с помощью BioMart» (PDF). Ансамбль. 2014. с. 3. Получено 11 сентября 2014.
  22. ^ «Руководство пользователя BioMart 0.9.0» (PDF). Май 2014. с. 5. Получено 11 сентября 2014.
  23. ^ а б "Часто задаваемые вопросы". Ансамблевые геномы. Архивировано из оригинал 10 сентября 2014 г.. Получено 11 сентября 2014.
  24. ^ «Прогнозирующий эффект варианта». ensembl.org. Ансамбль. Получено 11 сентября 2014.
  25. ^ «Обзор результатов Variant Effect Predictor». ensembl.org. Ансамбль. Получено 11 сентября 2014.
  26. ^ «Ввод данных в ВЭП». ensembl.org. Ансамбль. Получено 11 сентября 2014.
  27. ^ «Поддерживаемые форматы файлов VEP». ensembl.org. Ансамбль. Получено 11 сентября 2014.
  28. ^ "Файл VEP по умолчанию". ensembl.org. Ансамбль. Получено 11 сентября 2014.
  29. ^ «Опции и дополнения VEP». ensembl.org. Ансамбль. Получено 11 сентября 2014.
  30. ^ «VEP фильтрация». ensembl.org. Ансамбль. Получено 11 сентября 2014.
  31. ^ «ВЭП Джобс». ensembl.org. Ансамбль. Получено 11 сентября 2014.
  32. ^ «Скачивание скрипта VEP». ensembl.org. Ансамбль. Получено 11 сентября 2014.
  33. ^ «Выход VEP». ensembl.org. Ансамблевые геномы. Получено 11 сентября 2014.
  34. ^ «Форматы вывода VEP». ensembl.org. Ансамблевые геномы. Получено 11 сентября 2014.
  35. ^ а б Kersey, P.J .; Allen, J. E .; Christensen, M; Дэвис, П.; Фалин, Л. Дж .; Грабмюллер, C; Hughes, D. S .; Хамфри, Дж; Kerhornou, A; Хобова, Дж; Langridge, N; McDowall, M.D .; Maheswari, U; Маслен, G; Нун, М; Ong, C.K .; Паулини, М; Педро, H; Тонева, И; Тули, М. А .; Уолтс, B; Уильямс, G; Уилсон, Д.; Юенс-Кларк, К. Монако, М. К .; Штейн, Дж; Wei, X; Посуда, D; Болсер, Д. М .; и другие. (2014). «Ensembl Genomes 2013: Расширение доступа к общегеномным данным». Исследования нуклеиновых кислот. 42 (Выпуск базы данных): D546–52. Дои:10.1093 / nar / gkt979. ЧВК  3965094. PMID  24163254.
  36. ^ «Список видов». Ансамблевые геномы. Получено 1 октября 2019.
  37. ^ «Список видов». Ансамблевые геномы. Получено 1 октября 2019.
  38. ^ «Список видов». Ансамблевые геномы. Получено 1 октября 2019.
  39. ^ «Список видов». Ансамблевые геномы. Получено 1 октября 2019.
  40. ^ «Список видов». Ансамблевые геномы. Получено 1 октября 2019.
  41. ^ «Список видов». Ансамблевые геномы. Получено 1 октября 2019.
  42. ^ «Коллабораторы - ансамблевые геномы». Ансамблевые геномы. Ансамблевые геномы. Получено 3 сентября 2014.