Формат FASTA - FASTA format
Расширения имени файла | .fasta, .fna, .ffn, .faa, .frn |
---|---|
Тип интернет-СМИ | текст / x-fasta |
Разработан | Дэвид Дж. Липман Уильям Р. Пирсон[1][2] |
изначальный выпуск | 1985 |
Тип формата | Биоинформатика |
Расширен с | ASCII за ФАСТА |
Расширен до | Формат FASTQ[3] |
Интернет сайт | www |
В биоинформатика и биохимия, то Формат FASTA текстовый формат для представления либо нуклеотидные последовательности или аминокислотные (белковые) последовательности, в которых нуклеотиды или аминокислоты представлены однобуквенными кодами. Формат также позволяет размещать имена последовательностей и комментарии перед последовательностями. Формат исходит из ФАСТА программный пакет, но теперь стал почти универсальным стандартом в области биоинформатика.[4]
Простота формата FASTA позволяет легко управлять последовательностями и анализировать их с помощью инструментов обработки текста и языки сценариев словно Язык программирования R, Python, Рубин, и Perl.
Исходный формат и обзор
Оригинальный FASTA /Пирсон формат описан в документации к ФАСТА набор программ. Его можно загрузить с любым бесплатным дистрибутивом FASTA (см. Fasta20.doc, fastaVN.doc или fastaVN.me - где VN - номер версии).
В исходном формате последовательность представлялась как последовательность строк, каждая из которых не превышала 120 символов и обычно не превышала 80 символов. Вероятно, это было сделано для того, чтобы предусмотреть предварительное выделение размеров фиксированных линий в программном обеспечении: в то время большинство пользователей полагалось на Корпорация цифрового оборудования (DEC) VT220 (или совместимые) терминалы, которые могут отображать 80 или 132 символа в строке.[нужна цитата ] Большинство людей предпочитали более крупный шрифт в 80-символьных режимах, поэтому стало рекомендованным использовать 80 или менее символов (часто 70) в строках FASTA. Кроме того, ширина стандартной печатной страницы составляет от 70 до 80 символов (в зависимости от шрифта). Таким образом, 80 символов стали нормой.[нужна цитата ]
Первая строка в файле FASTA начинается либо с символа «>» (больше), либо, реже, с символа «;»[нужна цитата ] (точка с запятой) была воспринята как комментарий. Последующие строки, начинающиеся с точки с запятой, будут игнорироваться программным обеспечением. Поскольку единственным использованным комментарием был первый, он быстро стал использоваться для хранения итогового описания последовательности, часто начинающегося с уникального регистрационного номера библиотеки, и со временем стало обычным делом всегда использовать ">" для первой строки и для не использовать ";" комментарии (которые в противном случае были бы проигнорированы).
После начальной строки (используемой для уникального описания последовательности) была сама последовательность в виде стандартной однобуквенной символьной строки. Все, кроме действительного символа, будет проигнорировано (включая пробелы, табуляторы, звездочки и т. Д.). Также было распространено заканчивать последовательность знаком «*» (звездочка) (по аналогии с использованием последовательностей в формате PIR) и по той же причине оставлять пустую строку между описанием и последовательностью. Ниже приведены несколько примеров последовательностей:
; LCBO - предшественник пролактина - Bovine; образец последовательности в формате FASTAMDSKGSSQKGSRLLLLLVVSNLLLCQGVVSTPVCPNGPGNCQVSLRDLFDRAVMVSHYIHDLSSEMFNEFDKRYAQGKGFITMALNSCHTSSLPTPEDKEQAQQTHHEVLMSLILGLLRSWNDPLYHLVTEVRGMKGAPDAILSRAIEIEEENKRLLEGMEMIFGQVIPGAKETEPYPVWSGLPSLQTKDEDARYSAFYNLLHCLRRDSSKIDTYLKLLNCRIIYNNNC *>MCHU - Кальмодулин - человек, кролик, крупный рогатый скот, крыса и курицаADQLTEEQIAEFKEAFSLFDKDGDGTITTKELGTVMRSLGQNPTEAELQDMINEVDADGNGTIDFPEFLTMMARKMKDTDSEEEIREAFRVFDKDGNGYISAAELRHVMTNLGEKLTDEEVDEMIREADIDGDGQVNYEEFVQMMTAK *>джи|5524211|gb|AAD44166.1| цитохром b [Elephas maximus maximus]LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLVEWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLGLLILILLLLLLALLSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLGGVLALFLSIVILGLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGXIENY
Формат FASTA с несколькими последовательностями может быть получен путем объединения нескольких файлов FASTA с одной последовательностью в общий файл (также известный как формат с несколькими FASTA). Это не означает противоречия с форматом, поскольку только первая строка в файле FASTA может начинаться с символа ";" или «>», что заставляет все последующие последовательности начинаться с «>», чтобы их можно было рассматривать как разные (и, кроме того, вынуждая исключительное резервирование «>» для строки определения последовательности). Таким образом, приведенные выше примеры можно также рассматривать как файл с несколькими последовательностями (то есть с несколькими FASTA), если брать их вместе.
В настоящее время современные биоинформатические программы, которые полагаются на формат FASTA, ожидают, что заголовкам последовательностей будет предшествовать ">", а фактическая последовательность, хотя обычно представлена как "чередующаяся", то есть на нескольких строках, как в приведенном выше примере, также может быть " последовательный », когда полный участок находится на одной строке. Пользователям часто может потребоваться выполнить преобразование между «последовательным» и «чередующимся» форматом FASTA для запуска различных биоинформатических программ.
Строка описания
Строка описания (defline) или строка заголовка / идентификатора, которая начинается с '>', дает имя и / или уникальный идентификатор для последовательности, а также может содержать дополнительную информацию. В устаревшей практике строка заголовка иногда содержала более одного заголовка, разделенных символом ^ A (Control-A). В оригинале Пирсон В формате FASTA один или несколько комментариев, выделенных точкой с запятой в начале строки, могут находиться после заголовка. Некоторые базы данных и биоинформатические приложения не распознают эти комментарии и следуют спецификация NCBI FASTA. Ниже приведен пример файла FASTA с несколькими последовательностями:
>SEQUENCE_1MTEITAAMVKELRESTGAGMMDCKNALSETNGDFDKAVQLLREKGLGKAAKKADRLAAEGLVSVKVSDDFTIAAMRPSYLSYEDLDMTFVENEYKALVAELEKENEERRRLKDPNKPEHKIPQFASRKQLSDAILKEAEEKIKEELKAQGKPEKIWDNIIPGKMNSFIADNSQLDSKLTLMGQFYVMDDKKTVEQVIAEKEKEFGGKIKIVEFICFEVGEGLEKKTEDFAAEVAAQL>SEQUENCE_2SATVSEINSETDFVAKNDQFIALTKDTTAHIQSNSLQSVEELHSSTINGVKFEEYLKSQIATIGENLVVRRFATLKAGANGVVNGYIHTNGRVGVVIAAACDSAEVASKSRDLLRQICMH
Идентификаторы NCBI
В NCBI определил стандарт уникального идентификатора, используемого для последовательности (SeqID) в строке заголовка. Это позволяет пометить последовательность, полученную из базы данных, ссылкой на ее запись в базе данных. Формат идентификатора базы данных понимается такими инструментами NCBI, как makeblastdb
и table2asn
. В следующем списке описан формат, определенный NCBI FASTA для идентификаторов последовательностей.[5]
Тип | Формат (ы) | Примеры) |
---|---|---|
локальный (т.е. без ссылки на базу данных) | lcl |целое число
| lcl | 123
|
GenInfo backbone seqid | bbs |целое число | bbs | 123 |
GenInfo магистрального типа moltype | bbm |целое число | bbm | 123 |
Идентификатор импорта GenInfo | гим |целое число | gim | 123 |
GenBank | gb |присоединение|локус | gb | M73307 | AGMA13GT |
EMBL | набережная |присоединение|локус | набр | CAM43271.1 | |
PIR | пир |присоединение|имя | пир || G36364 |
SWISS-PROT | зр |присоединение|имя | sp | P01013 | OVAX_CHICK |
патент | погладить |страна|патент|порядковый номер | pat | US | RE33188 | 1 |
предварительный патент | pgp |страна|номер заявления|порядковый номер | pgp | EP | 0238993 | 7 |
RefSeq | ref |присоединение|имя | исх | NM_010450.1 | |
общая ссылка на базу данных (ссылка на базу данных, которой нет в этом списке) | gnl |база данных|целое число
| gnl | таксон | 9606
|
Интегрированная база данных GenInfo | gi |целое число | gi | 21434723 |
DDBJ | dbj |присоединение|локус | dbj | BAC85684.1 | |
PRF | прф |присоединение|имя | prf || 0806162C |
PDB | pdb |Вход|цепь | pdb | 1I4L | D |
третья сторона GenBank | tpg |присоединение|имя | tpg | BK003456 | |
третья сторона EMBL | tpe |присоединение|имя | tpe | BN000123 | |
третья сторона DDBJ | tpd |присоединение|имя | tpd | FAA00017 | |
TrEMBL | tr |присоединение|имя | tr | Q90RT2 | Q90RT2_9HIV1 |
Вертикальные полосы ("|") в приведенном выше списке не являются разделителями в смысле Форма Бэкуса – Наура, но являются частью формата. Можно объединить несколько идентификаторов, также разделенных вертикальными полосами.
Представление последовательности
После строки заголовка представлена фактическая последовательность. Последовательности могут быть белковые последовательности или же нуклеиновая кислота последовательности, и они могут содержать пробелы или символы выравнивания (см. выравнивание последовательностей ). Ожидается, что последовательности будут представлены в стандарте IUB / IUPAC. аминокислота и нуклеиновая кислота коды, за этими исключениями: буквы нижнего регистра принимаются и отображаются в верхнем регистре; одиночный дефис или тире можно использовать для обозначения символа пробела; а в аминокислотных последовательностях допустимые буквы U и * (см. ниже). Числовые цифры не допускаются, но используются в некоторых базах данных для обозначения позиции в последовательности. Поддерживаемые коды нуклеиновых кислот:[6][7][8]
Код нуклеиновой кислоты | Смысл | Мнемонический |
---|---|---|
А | А | АDenine |
C | C | Cиттозин |
грамм | грамм | граммуанин |
Т | Т | Тгимин |
U | U | Uрасил |
(я) | я | яносин (нестандартный) |
р | A или G (I) | пурине |
Y | C, T или U | пYримидины |
K | G, T или U | базы, которые Kэтоны |
M | А или С | базы с аMгруппы ino |
S | C или G | Sнеправильное взаимодействие |
W | A, T или U | Wкак взаимодействие |
B | не A (то есть C, G, T или U) | B идет после A |
D | не C (то есть A, G, T или U) | D идет после C |
ЧАС | не G (то есть A, C, T или U) | ЧАС идет после G |
V | ни T, ни U (то есть A, C или G) | V идет после U |
N | А С Г Т У | Nнуклеиновая кислота |
- | разрыв неопределенной длины |
Поддерживаемые коды аминокислот (22 аминокислоты и 3 специальных кода):
Аминокислотный код | Смысл |
---|---|
А | Аланин |
B | Аспарагиновая кислота (D) или Аспарагин (N) |
C | Цистеин |
D | Аспарагиновая кислота |
E | Глютаминовая кислота |
F | Фенилаланин |
грамм | Глицин |
ЧАС | Гистидин |
я | Изолейцин |
J | Лейцин (L) или Изолейцин (Я) |
K | Лизин |
L | Лейцин |
M | Метионин /Стартовый кодон |
N | Аспарагин |
О | Пирролизин (редкий) |
п | Пролин |
Q | Глутамин |
р | Аргинин |
S | Серин |
Т | Треонин |
U | Селеноцистеин (редкий) |
V | Валин |
W | Триптофан |
Y | Тирозин |
Z | Глютаминовая кислота (E) или Глутамин (Q) |
Икс | любой |
* | остановка перевода |
- | разрыв неопределенной длины |
FASTA файл
Расширение имени файла
Нет стандарта расширение имени файла для текстового файла, содержащего последовательности в формате FASTA. В таблице ниже показано каждое расширение и его соответствующее значение.
Расширение | Смысл | Примечания |
---|---|---|
fasta, fa[9] | общий FASTA | Любой универсальный файл fasta. Ниже приведены другие распространенные расширения файлов FASTA. |
фна | Нуклеиновая кислота FASTA | Обычно используется для определения нуклеиновых кислот. |
ffn | Нуклеотид FASTA участков гена | Содержит кодирующие области для генома. |
фаа | Аминокислота FASTA | Содержит аминокислотные последовательности. Многобелковый файл fasta может иметь более конкретное расширение mpfa. |
frn | ФАСТА некодирующая РНК | Содержит некодирующие участки РНК для генома в алфавитном порядке ДНК, например тРНК, рРНК |
Сжатие
Для сжатия файлов FASTA требуется специальный компрессор для обработки обоих каналов информации: идентификаторов и последовательности. Для улучшения результатов сжатия они в основном разделены на два потока, где сжатие выполняется с учетом независимости. Например, алгоритм MFCompress[10] выполняет сжатие этих файлов без потерь, используя контекстное моделирование и арифметическое кодирование. Сравнительный анализ алгоритмов сжатия файлов FASTA см. В Hosseini et al, 2016.[11]
Шифрование
Шифрование файлов FASTA в основном решается с помощью специального инструмента шифрования: Cryfa.[12][13] Cryfa использует шифрование AES и позволяет сжимать данные помимо шифрования. Он также может обращаться к файлам FASTQ.
Расширения
Формат FASTQ - это форма формата FASTA, расширенная для указания информации, относящейся к секвенированию. Он создан Центр Сангера в Кембридже.[3]
A2M / A3M - это семейство форматов на основе FASTA, используемых для выравнивание последовательностей. В последовательностях A2M / A3M символы нижнего регистра означают вставки, которые затем обозначаются в других последовательностях точкой (".") символ. Точки можно отбросить для компактности без потери информации. Как и в случае с типичным FASTA, используемым при выравнивании, пробел ("-") означает ровно одну позицию.[14] A3M похож на A2M, с добавленным правилом, согласно которому пробелы, выровненные по вставкам, также могут быть отброшены.[15]
Работа с файлами FASTA
Сообщество предлагает множество удобных сценариев для выполнения операций с файлами FASTA. Также доступны онлайн-инструменты, такие как FaBox[16] или FASTX-Toolkit на серверах Galaxy.[17] Например, их можно использовать для разделения заголовков / идентификаторов последовательностей, их переименования, сокращения или извлечения интересующих последовательностей из больших файлов FASTA на основе списка требуемых идентификаторов (среди других доступных функций). Древовидный подход к сортировке файлов с несколькими FASTA (TREE2FASTA[18]) также существует на основе раскраски и / или аннотации интересующей последовательности в средстве просмотра FigTree. Кроме того, Bioconductor.org Биостринги пакет можно использовать для чтения и управления файлами FASTA в р.[19]
Существует несколько онлайн-конвертеров форматов для быстрого переформатирования файлов multi-FASTA в различные форматы (например, NEXUS, PHYLIP) для их использования в различных филогенетических программах (например, таких как конвертер, доступный на phylogeny.fr.[20]
Смотрите также
- В Формат FASTQ, используется для представления считываний секвенатора ДНК вместе с показателями качества.
- В СЭМ формат, используемый для представления считываний секвенсора генома, как правило, но не обязательно после того, как они были выровнены с последовательностями генома.[21]
- Формат GVF (формат вариации генома), расширение, основанное на GFF3 формат.
Рекомендации
- ^ Липман Д. Д., Пирсон В. Р. (март 1985 г.). «Быстрые и чувствительные поиски сходства белков». Наука. 227 (4693): 1435–41. Bibcode:1985Sci ... 227.1435L. Дои:10.1126 / science.2983426. PMID 2983426.
- ^ Пирсон WR, Lipman DJ (апрель 1988 г.). "Улучшенные инструменты для сравнения биологической последовательности". Труды Национальной академии наук Соединенных Штатов Америки. 85 (8): 2444–8. Bibcode:1988ПНАС ... 85.2444П. Дои:10.1073 / пнас.85.8.2444. ЧВК 280013. PMID 3162770.
- ^ а б Петух PJ, Филдс CJ, Goto N, Heuer ML, Rice PM (апрель 2010 г.). «Формат файла Sanger FASTQ для последовательностей с показателями качества и варианты Solexa / Illumina FASTQ». Исследования нуклеиновых кислот. 38 (6): 1767–71. Дои:10.1093 / нар / gkp1137. ЧВК 2847217. PMID 20015970.
- ^ "Что такое формат FASTA?". zhanglab.ccmb.med.umich.edu. объясняет формат FASTA
- ^ Книга по инструментам NCBI C ++. Национальный центр биотехнологической информации. Получено 2018-12-19.
- ^ Дао Тао (24.08.2011). «Однобуквенные коды для нуклеотидов». [Учебный центр NCBI]. Национальный центр биотехнологической информации. Получено 2012-03-15.
- ^ «Кодовая таблица ИЮПАК». НИАС ДНК Банк. Архивировано из оригинал на 2011-08-11.
- ^ "любой символ". MAFFT - программа множественного выравнивания последовательностей.
- ^ «Форматы файлов выравнивания». 22 мая 2019. Получено 22 мая 2019.
- ^ Пинхо А.Дж., Пратас Д. (январь 2014 г.). «MFCompress: инструмент для сжатия данных FASTA и multi-FASTA». Биоинформатика. 30 (1): 117–8. Дои:10.1093 / биоинформатика / btt594. ЧВК 3866555. PMID 24132931.
- ^ М. Хоссейни, Д. Пратас и А. Пиньо. 2016. Обзор методов сжатия данных для биологических последовательностей. Информация 7(4):(2016): 56
- ^ Пратас Д., Хоссейни М., Пинхо А. (2017). «Cryfa: инструмент для сжатия и шифрования файлов FASTA». 11-я Международная конференция по практическому применению вычислительной биологии и биоинформатики (PACBB). Достижения в интеллектуальных системах и вычислениях. 616. Springer. С. 305–312. Дои:10.1007/978-3-319-60816-7_37. ISBN 978-3-319-60815-0.
- ^ Хоссейни М., Пратас Д., Пинхо А. (2018). Cryfa: надежный инструмент шифрования геномных данных. Биоинформатика. 35. С. 146–148. Дои:10.1093 / биоинформатика / bty645. ЧВК 6298042. PMID 30020420.
- ^ "Описание формата выравнивания A2M". SAMtools.
- ^ "soedinglab / hh-suite :format.pl". GitHub.
- ^ Виллесен П. (апрель 2007 г.). «FaBox: онлайн-набор инструментов для быстрых последовательностей». Ресурсы по молекулярной экологии. 7 (6): 965–968. Дои:10.1111 / j.1471-8286.2007.01821.x.
- ^ Бланкенберг Д., Фон Кустер Г., Бувье Э., Бейкер Д., Афган Э., Столер Н., Galaxy Team, Тейлор Дж., Некрутенко А. (2014). «Распространение научного программного обеспечения с помощью Galaxy ToolShed». Геномная биология. 15 (2): 403. Дои:10.1186 / gb4161. ЧВК 4038738. PMID 25001293.
- ^ Sauvage T, Plouviez S, Schmidt WE, Fredericq S (март 2018 г.). «TREE2FASTA: гибкий Perl-скрипт для пакетного извлечения последовательностей FASTA из исследовательских филогенетических деревьев». BMC Research Notes. 11 (1): 403. Дои:10.1186 / s13104-018-3268-у. ЧВК 5838971. PMID 29506565.
- ^ Pagès, H; Aboyoun, P; Джентльмен, R; Деброй, С (2018). "Биологические струны: эффективное манипулирование биологическими струнами". Bioconductor.org. Пакет R версии 2.48.0.
- ^ Dereeper A, Guignon V, Blanc G, Audic S, Buffet S, Chevenet F, Dufayard JF, Guindon S, Lefort V, Lescot M, Claverie JM, Gascuel O (июль 2008 г.). "Phylogeny.fr: надежный филогенетический анализ для неспециалистов". Исследования нуклеиновых кислот. 36 (Проблема с веб-сервером): W465–9. Дои:10.1093 / nar / gkn180. ЧВК 2447785. PMID 18424797.
- ^ https://samtools.github.io/hts-specs/SAMv1.pdf