Формат Pileup - Pileup format

Формат Pileup текстовый формат для суммирования базовых вызовов выровненных чтений в ссылочную последовательность. Этот формат облегчает визуальное отображение SNP / indel вызов и выравнивание. Впервые его использовали Тони Кокс и Цземин Нин на Wellcome Trust Sanger Institute, но стал широко известен благодаря его внедрению в SAMtools программный комплекс.[1]</ref>

Формат

Пример

ПоследовательностьПозицияСправочная базаСчитайте счетЧитать результатыКачественный
seq1272Т24,.$.....,,.,.,...,,,.,..^+.<<<+;<<<<<<<<<<<=<;<;7<&
seq1273Т23, ..... ,,.,., ... ,,,., .. A<<<;<<<<<<<<<3<=<<<;<<+
seq1274Т23,.$....,,.,.,...,,,.,...7<7;<;<<<<<<<<<=<;<;<<6
seq1275А23, $ .... ,,.,., ... ,,,., ... ^ l.<+;9*<<<<<<<<<=<<:;<<<<
seq1276грамм22... Т ,,.,., ... ,,,., ....33;+<<7=7<<7<&<<1;<<6<
seq1277Т22.... ,,.,.,. C. ,,,., .. G.+7<;<<<<<<<&<=<<:;<<&<
seq1278грамм23.... ,,.,., ... ,,,., .... ^ k.%38*<<;<7<<7<=<<<;<<<<<
seq1279C23В,,.,.,...,,,.,.....75&<<<<<<<<<=<<<9<<:<<<

Колонны

Каждая строка состоит из 5 (или, возможно, 6) столбцов, разделенных табуляцией:

  1. Идентификатор последовательности
  2. Позиция по порядку (начиная с 1)
  3. Контрольный нуклеотид в этом положении
  4. Количество выровненных чтений, охватывающих эту позицию (глубина охвата)
  5. Базы в этой позиции из выровненных чтений
  6. Phred Качество этих баз, представленное в ASCII со смещением -33 (НЕОБЯЗАТЕЛЬНО)

Столбец 5: базовая строка.

  • . (точка) означает основу, которая соответствует ссылке на передней пряди
  • , (запятая) означает базу, которая соответствует ссылке на обратной нити
  • (знак меньше / больше) обозначает пропуск ссылки. Это происходит, например, если основание в эталонном геноме является интронным, а чтение отображается на два фланкирующих экзона. Если оценки качества указаны в шестой столбец, они относятся к качеству чтения, а не к конкретной базе.
  • AGTCN (верхний регистр) обозначает базу, которая не соответствует ссылке на прямой нити.
  • agtcn (нижний регистр) обозначает базу, которая не соответствует ссылке на обратной нити
  • Последовательность, соответствующая регулярное выражение + [0-9] + [ACGTNacgtn] + обозначает вставку одного или нескольких оснований, начиная со следующей позиции. Например, + 2AG означает вставку AG в переднюю цепь.
  • Последовательность, соответствующая регулярному выражению - [0-9] + [ACGTNacgtn] +, означает удаление одного или нескольких оснований, начиная со следующей позиции. Например, -2ct означает удаление CT в обратной цепи.
  • ^ (каретка) отмечает начало сегмента чтения, а ASCII символа, следующего за `^ 'минус 33, дает качество отображения
  • $ (доллар) отмечает конец прочитанного сегмента
  • * (звездочка) - это заполнитель для удаленной базы при удалении нескольких базовых пар, которое было упомянуто в предыдущей строке обозначением - [0-9] + [ACGTNacgtn] +

Столбец 6: строка базового качества.

Это необязательный столбец. Если присутствует, ASCII значение символа минус 33 дает отображение Фред качество каждой из баз в предыдущем столбце 5. Это похоже на качество кодирования в Формат FASTQ.

Расширение файла

Нет стандарта расширение файла для файла Pileup, но .msf (файл с несколькими последовательностями), .pup[2] и .pileup[нужна цитата ] используются.

Смотрите также

Рекомендации

  1. ^ Li H .; Handsaker B .; Wysoker A .; Fennell T .; Ruan J .; Гомер Н .; Marth G .; Abecasis G .; Дурбин Р; Подгруппа по обработке данных проекта «1000 геном» (2009 г.) (2009 г.). "Формат выравнивания / карты последовательностей (SAM) и SAMtools". Биоинформатика. 25 (16): 2078–2079. Дои:10.1093 / биоинформатика / btp352. ЧВК  2723002. PMID  19505943.
  2. ^ Accelrys (1998-10-02). «QUANTA: Protein Design. 3. Чтение и запись файлов данных последовательности». Université de Montréal. Получено 2020-03-27.

внешняя ссылка