SAM (формат файла) - SAM (file format)

Формат файла SAM
Разработан
Тип форматаБиоинформатика
Расширен сЗначения, разделенные табуляцией
Интернет сайтSamtools.github.io/ hts-specs/

Карта выравнивания последовательности (SAM) текстовый формат изначально для хранения биологические последовательности выровнены к эталонная последовательность разработан Хэн Ли и Боб Хэндсакер и другие.[1] Он широко используется для хранения данных, таких как нуклеотид последовательности, генерируемые секвенирование следующего поколения технологий, и стандарт был расширен за счет включения неотмеченных последовательностей.[2] Формат поддерживает короткие и длинные чтения (до 128 Мбит / с), производимые различными платформами секвенирования, и используется для хранения отображаемых данных в Набор инструментов для анализа генома (GATK) и через Broad Institute, то Институт Wellcome Sanger, и во всем Проект 1000 геномов.

Формат

Формат SAM состоит из заголовка и секции выравнивания.[1] Двоичный эквивалент файла SAM - это Карта двоичного выравнивания (BAM) файл, в котором одни и те же данные хранятся в сжатом двоичном представлении.[3] Файлы SAM можно анализировать и редактировать с помощью программного обеспечения SAMtools.[1] Раздел заголовка должен предшествовать разделу выравнивания, если он присутствует. Заголовки начинаются с символа «@», который отличает их от раздела выравнивания. Разделы выравнивания имеют 11 обязательных полей, а также переменное количество дополнительных полей.[1]

ColПолеТипКраткое описание
1QNAMEНитьШаблон запроса NAME
2ФЛАГIntпобитовый ФЛАГ
3RNAMEНитьСсылки на последовательность ИМЯ
4POSIntКрайнее левое отображение на основе 1 POSition
5MAPQIntКачество картографирования
6СИГАРАНитьCIGAR строка
7RNEXTНитьRef. имя помощника / следующее чтение
8PNEXTIntПозиция сопряжения / следующего чтения
9TLENIntнаблюдаемый шаблон LENgth
10SEQНитьSEQuence сегмента
11QUALНитьASCII базового уровня с масштабированием по Phred КАЧЕСТВО + 33

Описание

Из спецификации:[3]

  1. QNAME: ИМЯ шаблона запроса. Считается, что операции чтения / сегменты с одинаковым QNAME происходят из одного и того же шаблона. QNAME "*" означает, что информация недоступна. В файле SAM чтение может занимать несколько строк выравнивания, когда его выравнивание является химерным или когда задано несколько отображений.
  2. ФЛАГ: Комбинация побитовых ФЛАГОВ[4]
  3. RNAME: ИМЯ эталонной последовательности выравнивания. Если присутствуют строки заголовка @SQ, RNAME (если не «*») должен присутствовать в одном из тегов SQ-SN. Непоказанный сегмент без координат отмечен знаком «*» в этом поле. Однако неотмеченный сегмент также может иметь обычные координаты, так что его можно разместить в желаемой позиции после сортировки. Если RNAME - «*», нельзя делать никаких предположений относительно POS и CIGAR.
  4. POS: крайнее левое отображение на основе 1. POSition первой совпадающей базы. Первая база в эталонной последовательности имеет координату 1. POS устанавливается как 0 для неотображенного чтения без координат. Если POS равен 0, нельзя делать никаких предположений относительно RNAME и CIGAR.
  5. MAPQ: качество отображения. Он равен −10 log10 Pr {неверная позиция отображения}, округленное до ближайшего целого числа. Значение 255 указывает, что качество отображения недоступно.
  6. CIGAR: Строка краткого идиосинкратического отчета о выравнивании с промежутками (CIGAR).
  7. RNEXT: имя эталонной последовательности первичного выравнивания NEXT, считываемого в шаблоне. Для последнего чтения следующее чтение - это первое чтение в шаблоне. Если строки заголовка @SQ присутствуют, RNEXT (если не «*» или «=») должен присутствовать в одном из тегов SQ-SN. Это поле устанавливается как «*», когда информация недоступна, и как «=», если RNEXT совпадает с RNAME. Если не ‘=’ и следующее чтение в шаблоне имеет одно первичное отображение (см. Также бит 0x100 в FLAG), это поле идентично RNAME в первичной строке следующего чтения. Если RNEXT - «*», нельзя делать никаких предположений относительно PNEXT и бита 0x20.
  8. PNEXT: позиция первичного выравнивания СЛЕДУЮЩЕГО считывания в шаблоне. Установите 0, если информация недоступна. Это поле равно POS в основной строке следующего чтения. Если PNEXT равен 0, нельзя делать никаких предположений относительно RNEXT и бита 0x20.
  9. TLEN: подписанный наблюдаемый шаблон LENgth. Если все сегменты сопоставлены с одной и той же ссылкой, наблюдаемая длина шаблона без знака равна количеству оснований от самой левой сопоставленной базы до самой правой сопоставленной базы. Крайний левый сегмент имеет знак плюс, а крайний правый - знак минус. Знак сегментов посередине не определен. Устанавливается как 0 для односегментного шаблона или когда информация недоступна.
  10. SEQ: SEQuence сегмента. В этом поле может быть «*», если последовательность не сохранена. Если не «*», длина последовательности должна равняться сумме длин операций M / I / S / = / X в CIGAR. Знак «=» означает, что база идентична справочной базе. По регистрам для писем никаких предположений делать нельзя.
  11. QUAL: ASCII базового КАЧЕСТВА плюс 33 (то же, что и строка качества в Sanger Формат FASTQ ). Базовое качество - это основание, масштабируемое по шкале phred вероятность ошибки, равная −10 log10 Pr {неверная база}. В этом поле может быть «*», если качество не сохраняется. Если это не «*», SEQ не должна быть «*», а длина строки качества должна быть равна длине SEQ.

Побитовые флаги

Поле FLAG отображается как одно целое число, но представляет собой сумму побитовых флагов для обозначения нескольких атрибутов выравнивания чтения.[3]. Каждый атрибут обозначает один бит в двоичном представлении целого числа.

Побитовые флаги
Целое числоДвоичныйОписание (парная интерпретация)
1000000000001шаблон, имеющий несколько шаблонов в последовательности (чтение является парным)
2000000000010каждый сегмент должным образом выровнен в соответствии с выравнивателем (считывание сопоставлено в соответствующей паре)
4000000000100сегмент не отображен (read1 unmapped)
8000000001000следующий сегмент в шаблоне не сопоставлен (read2 не сопоставлен)
16000000010000SEQ с обратным дополнением (обратное дополнение read1)
32000000100000SEQ следующего сегмента в шаблоне, подвергающегося обратному дополнению (обратное дополнение read2)
64000001000000первый сегмент в шаблоне (читается1)
128000010000000последний сегмент в шаблоне (читается2)
256000100000000не первичное выравнивание
512001000000000выравнивание не проходит проверку качества
1024010000000000ПЦР или оптический дубликат
2048100000000000дополнительное выравнивание (например, специфическое для выравнивателя, может быть частью разделенного считывания или связанной области)

Атрибуты FLAG суммируются, чтобы получить окончательное значение, например строка SAM, полученная на основе записи FASTQ с парным концом Illumina со значением 2145 FLAG, будет указывать:

Значение флагаСмыслСумма флага
1чтение парное1
32read2 был обратным дополнением33
64чтение197
2048Дополнительное выравнивание2145

Необязательные поля

Из спецификации:[3]

В тип может быть одним из А (персонаж), B (общий массив), ж (настоящий номер), ЧАС (шестнадцатеричный массив), я (целое число) или Z (нить).

ТегТипОписание
ЯВЛЯЮСЬяНаименьшее независимое от шаблона качество отображения в шаблоне
В КАЧЕСТВЕяОценка выравнивания, созданная элайнером
до н.эZПоследовательность штрих-кода, идентифицирующая образец
BQZСмещение к основному качеству выравнивания (BAQ)
BZZКачество Phred уникальных молекулярных баз штрих-кода в теге OX
CBZИдентификатор соты
CCZСсылочное название следующего обращения
CGБ, яТолько BAM: СИГАРА в двоичной кодировке BAM, если (и только если) она состоит из> 65535 операторов
СМяИзменить расстояние между последовательностью цветов и эталоном цвета (см. Также NM)
COZКомментарии в виде произвольного текста
CPяКрайняя левая координата следующего удара
CQZЦветное считывание основных качеств
CRZБазы последовательностей сотовых штрих-кодов (нескорректированные)
CSZПоследовательность считывания цвета
CTZТег аннотации полного чтения, используемый для фиктивных функций аннотации консенсуса
CYZКачество Phred последовательности штрих-кода сотового телефона в теге CR
E2Z2-й наиболее вероятный вызов базы
FIяИндекс сегмента в шаблоне
FSZСуффикс сегмента
FZB, SИнтенсивность сигнала потока
GC?Зарезервировано для целей обратной совместимости
GQ?Зарезервировано для целей обратной совместимости
GS?Зарезервировано для целей обратной совместимости
H0яКоличество идеальных попаданий
H1яКоличество совпадений с 1 разницей (см. Также NM)
H2яКоличество совпадений с двумя разностями
ЗДРАВСТВУЙяИндекс попадания запроса
IHяОбщее количество обращений к запросу
ФУНТZБиблиотека
MCZСтрока CIGAR для пары / следующего сегмента
MDZСтрока для несовпадающих позиций
MF?Зарезервировано для целей обратной совместимости
MIZМолекулярный идентификатор; строка, которая однозначно идентифицирует молекулу, из которой была получена запись
MQяКачество отображения сопряженного / следующего сегмента
NHяКоличество представленных выравниваний, содержащих запрос в текущей записи
НМяИзменить расстояние до ссылки
OAZИсходное выравнивание
OCZОригинальная СИГАРА (не рекомендуется; используйте вместо этого OA)
OPяИсходная позиция сопоставления (не рекомендуется; вместо этого используйте OA)
OQZИсходное базовое качество
OXZОригинальные уникальные молекулярные основы штрих-кода
PGZПрограмма
PQяPhred вероятность шаблона
PTZЧтение аннотаций для частей дополненной последовательности чтения
ПУZПлатформенный блок
2 кварталZКачество Phred последовательности сопряжения / следующего сегмента в теге R2
QTZКачество Phred образца последовательности штрих-кода в теге BC
QXZПоказатель качества уникального молекулярного идентификатора в теге RX
R2ZПоследовательность сопряжения / следующего сегмента в шаблоне
RGZПрочитать группу
RT?Зарезервировано для целей обратной совместимости
RXZОснования последовательности (возможно исправленного) уникального молекулярного идентификатора
S2?Зарезервировано для целей обратной совместимости
SAZДругие канонические выравнивания в химерном выравнивании
SMяНезависимое от шаблона качество отображения
SQ?Зарезервировано для целей обратной совместимости
TCяКоличество сегментов в шаблоне
U2ZВероятность Phred ошибочного 2-го звонка зависит от того, что лучший вариант ошибочен
UQяВероятность Phred сегмента при условии правильности сопоставления
ИКС??Зарезервировано для конечных пользователей
Y??Зарезервировано для конечных пользователей
Z??Зарезервировано для конечных пользователей

Смотрите также

  • В ФАСТА формат, используемый для представления последовательностей генома
  • В FASTQ формат, используемый для представления показаний секвенатора ДНК вместе с оценками качества
  • В GVF формат (Genome Variation Format), расширение, основанное на GFF3 формат

Рекомендации

  1. ^ а б c d е Li, H .; Handsaker, B .; Wysoker, A .; Fennell, T .; Ruan, J .; Гомер, Н .; Marth, G .; Abecasis, G .; Дурбин, Р. (2009). "Формат выравнивания / карты последовательностей и SAMtools" (PDF). Биоинформатика. 25 (16): 2078–2079. Дои:10.1093 / биоинформатика / btp352. ISSN  1367-4803. ЧВК  2723002. PMID  19505943.
  2. ^ https://samtools.github.io/hts-specs/SAMv1.pdf
  3. ^ а б c d «Спецификация формата SAM / BAM» (PDF). samtools.github.io.
  4. ^ Расшифровка флагов SAM