SAM (формат файла) - SAM (file format)
Разработан |
|
---|---|
Тип формата | Биоинформатика |
Расширен с | Значения, разделенные табуляцией |
Интернет сайт | Samtools |
Карта выравнивания последовательности (SAM) текстовый формат изначально для хранения биологические последовательности выровнены к эталонная последовательность разработан Хэн Ли и Боб Хэндсакер и другие.[1] Он широко используется для хранения данных, таких как нуклеотид последовательности, генерируемые секвенирование следующего поколения технологий, и стандарт был расширен за счет включения неотмеченных последовательностей.[2] Формат поддерживает короткие и длинные чтения (до 128 Мбит / с), производимые различными платформами секвенирования, и используется для хранения отображаемых данных в Набор инструментов для анализа генома (GATK) и через Broad Institute, то Институт Wellcome Sanger, и во всем Проект 1000 геномов.
Формат
Формат SAM состоит из заголовка и секции выравнивания.[1] Двоичный эквивалент файла SAM - это Карта двоичного выравнивания (BAM) файл, в котором одни и те же данные хранятся в сжатом двоичном представлении.[3] Файлы SAM можно анализировать и редактировать с помощью программного обеспечения SAMtools.[1] Раздел заголовка должен предшествовать разделу выравнивания, если он присутствует. Заголовки начинаются с символа «@», который отличает их от раздела выравнивания. Разделы выравнивания имеют 11 обязательных полей, а также переменное количество дополнительных полей.[1]
Col | Поле | Тип | Краткое описание |
---|---|---|---|
1 | QNAME | Нить | Шаблон запроса NAME |
2 | ФЛАГ | Int | побитовый ФЛАГ |
3 | RNAME | Нить | Ссылки на последовательность ИМЯ |
4 | POS | Int | Крайнее левое отображение на основе 1 POSition |
5 | MAPQ | Int | Качество картографирования |
6 | СИГАРА | Нить | CIGAR строка |
7 | RNEXT | Нить | Ref. имя помощника / следующее чтение |
8 | PNEXT | Int | Позиция сопряжения / следующего чтения |
9 | TLEN | Int | наблюдаемый шаблон LENgth |
10 | SEQ | Нить | SEQuence сегмента |
11 | QUAL | Нить | ASCII базового уровня с масштабированием по Phred КАЧЕСТВО + 33 |
Описание
Из спецификации:[3]
- QNAME: ИМЯ шаблона запроса. Считается, что операции чтения / сегменты с одинаковым QNAME происходят из одного и того же шаблона. QNAME "*" означает, что информация недоступна. В файле SAM чтение может занимать несколько строк выравнивания, когда его выравнивание является химерным или когда задано несколько отображений.
- ФЛАГ: Комбинация побитовых ФЛАГОВ[4]
- RNAME: ИМЯ эталонной последовательности выравнивания. Если присутствуют строки заголовка @SQ, RNAME (если не «*») должен присутствовать в одном из тегов SQ-SN. Непоказанный сегмент без координат отмечен знаком «*» в этом поле. Однако неотмеченный сегмент также может иметь обычные координаты, так что его можно разместить в желаемой позиции после сортировки. Если RNAME - «*», нельзя делать никаких предположений относительно POS и CIGAR.
- POS: крайнее левое отображение на основе 1. POSition первой совпадающей базы. Первая база в эталонной последовательности имеет координату 1. POS устанавливается как 0 для неотображенного чтения без координат. Если POS равен 0, нельзя делать никаких предположений относительно RNAME и CIGAR.
- MAPQ: качество отображения. Он равен −10 log10 Pr {неверная позиция отображения}, округленное до ближайшего целого числа. Значение 255 указывает, что качество отображения недоступно.
- CIGAR: Строка краткого идиосинкратического отчета о выравнивании с промежутками (CIGAR).
- RNEXT: имя эталонной последовательности первичного выравнивания NEXT, считываемого в шаблоне. Для последнего чтения следующее чтение - это первое чтение в шаблоне. Если строки заголовка @SQ присутствуют, RNEXT (если не «*» или «=») должен присутствовать в одном из тегов SQ-SN. Это поле устанавливается как «*», когда информация недоступна, и как «=», если RNEXT совпадает с RNAME. Если не ‘=’ и следующее чтение в шаблоне имеет одно первичное отображение (см. Также бит 0x100 в FLAG), это поле идентично RNAME в первичной строке следующего чтения. Если RNEXT - «*», нельзя делать никаких предположений относительно PNEXT и бита 0x20.
- PNEXT: позиция первичного выравнивания СЛЕДУЮЩЕГО считывания в шаблоне. Установите 0, если информация недоступна. Это поле равно POS в основной строке следующего чтения. Если PNEXT равен 0, нельзя делать никаких предположений относительно RNEXT и бита 0x20.
- TLEN: подписанный наблюдаемый шаблон LENgth. Если все сегменты сопоставлены с одной и той же ссылкой, наблюдаемая длина шаблона без знака равна количеству оснований от самой левой сопоставленной базы до самой правой сопоставленной базы. Крайний левый сегмент имеет знак плюс, а крайний правый - знак минус. Знак сегментов посередине не определен. Устанавливается как 0 для односегментного шаблона или когда информация недоступна.
- SEQ: SEQuence сегмента. В этом поле может быть «*», если последовательность не сохранена. Если не «*», длина последовательности должна равняться сумме длин операций M / I / S / = / X в CIGAR. Знак «=» означает, что база идентична справочной базе. По регистрам для писем никаких предположений делать нельзя.
- QUAL: ASCII базового КАЧЕСТВА плюс 33 (то же, что и строка качества в Sanger Формат FASTQ ). Базовое качество - это основание, масштабируемое по шкале phred вероятность ошибки, равная −10 log10 Pr {неверная база}. В этом поле может быть «*», если качество не сохраняется. Если это не «*», SEQ не должна быть «*», а длина строки качества должна быть равна длине SEQ.
Побитовые флаги
Поле FLAG отображается как одно целое число, но представляет собой сумму побитовых флагов для обозначения нескольких атрибутов выравнивания чтения.[3]. Каждый атрибут обозначает один бит в двоичном представлении целого числа.
Целое число | Двоичный | Описание (парная интерпретация) |
---|---|---|
1 | 000000000001 | шаблон, имеющий несколько шаблонов в последовательности (чтение является парным) |
2 | 000000000010 | каждый сегмент должным образом выровнен в соответствии с выравнивателем (считывание сопоставлено в соответствующей паре) |
4 | 000000000100 | сегмент не отображен (read1 unmapped) |
8 | 000000001000 | следующий сегмент в шаблоне не сопоставлен (read2 не сопоставлен) |
16 | 000000010000 | SEQ с обратным дополнением (обратное дополнение read1) |
32 | 000000100000 | SEQ следующего сегмента в шаблоне, подвергающегося обратному дополнению (обратное дополнение read2) |
64 | 000001000000 | первый сегмент в шаблоне (читается1) |
128 | 000010000000 | последний сегмент в шаблоне (читается2) |
256 | 000100000000 | не первичное выравнивание |
512 | 001000000000 | выравнивание не проходит проверку качества |
1024 | 010000000000 | ПЦР или оптический дубликат |
2048 | 100000000000 | дополнительное выравнивание (например, специфическое для выравнивателя, может быть частью разделенного считывания или связанной области) |
Атрибуты FLAG суммируются, чтобы получить окончательное значение, например строка SAM, полученная на основе записи FASTQ с парным концом Illumina со значением 2145 FLAG, будет указывать:
Значение флага | Смысл | Сумма флага |
---|---|---|
1 | чтение парное | 1 |
32 | read2 был обратным дополнением | 33 |
64 | чтение1 | 97 |
2048 | Дополнительное выравнивание | 2145 |
Необязательные поля
Из спецификации:[3]
В тип может быть одним из А (персонаж), B (общий массив), ж (настоящий номер), ЧАС (шестнадцатеричный массив), я (целое число) или Z (нить).
Тег | Тип | Описание |
---|---|---|
ЯВЛЯЮСЬ | я | Наименьшее независимое от шаблона качество отображения в шаблоне |
В КАЧЕСТВЕ | я | Оценка выравнивания, созданная элайнером |
до н.э | Z | Последовательность штрих-кода, идентифицирующая образец |
BQ | Z | Смещение к основному качеству выравнивания (BAQ) |
BZ | Z | Качество Phred уникальных молекулярных баз штрих-кода в теге OX |
CB | Z | Идентификатор соты |
CC | Z | Ссылочное название следующего обращения |
CG | Б, я | Только BAM: СИГАРА в двоичной кодировке BAM, если (и только если) она состоит из> 65535 операторов |
СМ | я | Изменить расстояние между последовательностью цветов и эталоном цвета (см. Также NM) |
CO | Z | Комментарии в виде произвольного текста |
CP | я | Крайняя левая координата следующего удара |
CQ | Z | Цветное считывание основных качеств |
CR | Z | Базы последовательностей сотовых штрих-кодов (нескорректированные) |
CS | Z | Последовательность считывания цвета |
CT | Z | Тег аннотации полного чтения, используемый для фиктивных функций аннотации консенсуса |
CY | Z | Качество Phred последовательности штрих-кода сотового телефона в теге CR |
E2 | Z | 2-й наиболее вероятный вызов базы |
FI | я | Индекс сегмента в шаблоне |
FS | Z | Суффикс сегмента |
FZ | B, S | Интенсивность сигнала потока |
GC | ? | Зарезервировано для целей обратной совместимости |
GQ | ? | Зарезервировано для целей обратной совместимости |
GS | ? | Зарезервировано для целей обратной совместимости |
H0 | я | Количество идеальных попаданий |
H1 | я | Количество совпадений с 1 разницей (см. Также NM) |
H2 | я | Количество совпадений с двумя разностями |
ЗДРАВСТВУЙ | я | Индекс попадания запроса |
IH | я | Общее количество обращений к запросу |
ФУНТ | Z | Библиотека |
MC | Z | Строка CIGAR для пары / следующего сегмента |
MD | Z | Строка для несовпадающих позиций |
MF | ? | Зарезервировано для целей обратной совместимости |
MI | Z | Молекулярный идентификатор; строка, которая однозначно идентифицирует молекулу, из которой была получена запись |
MQ | я | Качество отображения сопряженного / следующего сегмента |
NH | я | Количество представленных выравниваний, содержащих запрос в текущей записи |
НМ | я | Изменить расстояние до ссылки |
OA | Z | Исходное выравнивание |
OC | Z | Оригинальная СИГАРА (не рекомендуется; используйте вместо этого OA) |
OP | я | Исходная позиция сопоставления (не рекомендуется; вместо этого используйте OA) |
OQ | Z | Исходное базовое качество |
OX | Z | Оригинальные уникальные молекулярные основы штрих-кода |
PG | Z | Программа |
PQ | я | Phred вероятность шаблона |
PT | Z | Чтение аннотаций для частей дополненной последовательности чтения |
ПУ | Z | Платформенный блок |
2 квартал | Z | Качество Phred последовательности сопряжения / следующего сегмента в теге R2 |
QT | Z | Качество Phred образца последовательности штрих-кода в теге BC |
QX | Z | Показатель качества уникального молекулярного идентификатора в теге RX |
R2 | Z | Последовательность сопряжения / следующего сегмента в шаблоне |
RG | Z | Прочитать группу |
RT | ? | Зарезервировано для целей обратной совместимости |
RX | Z | Основания последовательности (возможно исправленного) уникального молекулярного идентификатора |
S2 | ? | Зарезервировано для целей обратной совместимости |
SA | Z | Другие канонические выравнивания в химерном выравнивании |
SM | я | Независимое от шаблона качество отображения |
SQ | ? | Зарезервировано для целей обратной совместимости |
TC | я | Количество сегментов в шаблоне |
U2 | Z | Вероятность Phred ошибочного 2-го звонка зависит от того, что лучший вариант ошибочен |
UQ | я | Вероятность Phred сегмента при условии правильности сопоставления |
ИКС? | ? | Зарезервировано для конечных пользователей |
Y? | ? | Зарезервировано для конечных пользователей |
Z? | ? | Зарезервировано для конечных пользователей |
Смотрите также
- В ФАСТА формат, используемый для представления последовательностей генома
- В FASTQ формат, используемый для представления показаний секвенатора ДНК вместе с оценками качества
- В GVF формат (Genome Variation Format), расширение, основанное на GFF3 формат
Рекомендации
- ^ а б c d е Li, H .; Handsaker, B .; Wysoker, A .; Fennell, T .; Ruan, J .; Гомер, Н .; Marth, G .; Abecasis, G .; Дурбин, Р. (2009). "Формат выравнивания / карты последовательностей и SAMtools" (PDF). Биоинформатика. 25 (16): 2078–2079. Дои:10.1093 / биоинформатика / btp352. ISSN 1367-4803. ЧВК 2723002. PMID 19505943.
- ^ https://samtools.github.io/hts-specs/SAMv1.pdf
- ^ а б c d «Спецификация формата SAM / BAM» (PDF). samtools.github.io.
- ^ Расшифровка флагов SAM