SPAdes (программное обеспечение) - SPAdes (software)
Разработчики) | Санкт-Петербургский государственный университет, Россия Санкт-Петербургский академический университет, Россия Калифорнийский университет в Сан-Диего, СОЕДИНЕННЫЕ ШТАТЫ АМЕРИКИ |
---|---|
Стабильный выпуск | 3.12.0 / 14 мая 2018 г. |
Репозиторий | |
Операционная система | Linux, Mac OS |
Тип | Биоинформатика |
Лицензия | бесплатное использование |
Интернет сайт | cab.spbu.ru/software/spades/ |
SPAdes (Санкт-Петербург геном ассемблер )[1] это сборка генома алгоритм который был разработан для одиночных и многокамерных бактериальный наборы данных. Следовательно, он может не подходить для крупных проектов геномов.[1][2]
SPAdes работает с Ион Торрент, PacBio, Оксфорд Нанопор, и Иллюмина парные, парные и одиночные чтения.[1]SPAdes был интегрирован в Галактика конвейеры Гая Лайонела и Филипа Мабона.[3]
Задний план
Изучение генома отдельных клеток поможет отследить изменения, происходящие в ДНК с течением времени или связанные с воздействием различных условий. Кроме того, многие проекты, такие как Проект человеческого микробиома и антибиотики открытие сильно выиграет от одноклеточного последовательность действий (СКС).[4][5] SCS имеет преимущество перед секвенированием ДНК, выделенной из большого количества клеток. Проблема усреднения значимых вариации между ячейками можно преодолеть с помощью SCS.[6] Экспериментальные и вычислительные технологии оптимизируются, чтобы позволить исследователям секвенировать отдельные клетки. Например, амплификация ДНК, выделенной из одной клетки, является одной из экспериментальных задач. Для максимальной точности и качества SCS необходима равномерная амплификация ДНК. Было продемонстрировано, что при использовании многократных циклов отжига и циклического усиления (МАЛЬБАК ) для амплификации ДНК вызывает меньшую систематическую ошибку по сравнению с полимеразной цепной реакцией (ПЦР ) или многократное усиление смещения (МДА).[7] Более того, было признано, что задачи, стоящие перед SCS, носят скорее вычислительный, чем экспериментальный характер.[8] Доступный в настоящее время ассемблер, такой как Бархат,[9] Ассемблер графов строк (SGA)[10] и EULER-SR,[11] не были предназначены для сборки SCS.[2] Сборка данных отдельных ячеек затруднена из-за неравномерного охвата чтения, вариации длины вставки, высокого уровня ошибок секвенирования и химерный читает.[8][12][13] Поэтому для решения этих проблем был разработан новый алгоритмический подход SPAdes.
Подход к сборке SPAdes
SPAdes использует k-mers для построения начального граф де Брейна и на следующих этапах он выполняет теоретико-графические операции, основанные на структуре графа, покрытии и длине последовательности. Более того, он итеративно корректирует ошибки.[2]Этапы сборки в SPAdes:[2]
- Этап 1: построение сборочного графа. SPAdes использует многомерный граф де Брейна (см. Ниже), который обнаруживает и удаляет выпуклости / пузыри и химерные чтения.
- 2 этап: Регулировка k-бимеров (пар k-мер). Оцениваются точные расстояния между k-мерами в геноме (ребра в графе сборки).
- 3 этап: построение графа парной сборки.
- 4 этап: строительство контигов. SPAdes выводит контиги и позволяет отображать считанные данные обратно в их позиции в графе сборки после упрощения графа (обратного отслеживания).
Подробная информация о сборке SPAdes
SPAdes был разработан для решения следующих проблем, связанных со сборкой данных одной ячейки:[2]
1. Неравномерное покрытие.SPAdes использует многомерный граф де Брейна, который позволяет использовать различные значения k. Было предложено использовать меньшие значения k в регионах с низким охватом, чтобы минимизировать фрагментацию, и большие значения k в регионах с высоким покрытием, чтобы уменьшить повторное коллапсирование (этап 1 выше).
2. Переменные размеры вставки парных чтений. SPAdes использует базовую концепцию парных графов де Брейна. Тем не менее, парное чтение де Брейна хорошо работает с парным чтением с фиксированным размером вставки. Следовательно, SPAdes оценивает «расстояния» вместо использования «размеров вставки». Расстояние (d) при считывании парных концов определяется как для длины считывания L, d = размер вставки - L. Используя подход регулировки k-бимера, расстояния точно оцениваются. K-бимер, состоящий из k-мер «α» и «β» вместе с предполагаемым расстоянием между ними в геноме (α | β, d). Этот подход разбивает чтение с парными концами на пары k-мер, которые преобразуются, чтобы определить пары ребер (biedges) в графах де Брейна. Эти наборы уступов участвуют в оценке расстояний между краевыми путями между k-мерами α и β. Посредством кластеризации оптимальная оценка расстояния выбирается из каждого кластера (этап 2, выше). Для построения парного графа де Брейна прямоугольные графы используются в SPAdes (этап 3). Подход с использованием прямоугольных графиков был впервые представлен в 2012 году.[15] построить парные графы де Брейна с сомнительными расстояниями.
3. Выпуклость, кончики и химеры. Выпуклости и подсказки возникают из-за ошибок в середине и в конце чтения соответственно. Химерная связь соединяет две неродственные подстроки генома. SPAdes идентифицирует их на основе топологии графа, длины и покрытия включенных в них неразветвленных путей. SPAdes сохраняет структуру данных, чтобы иметь возможность отследить все исправления или удаления.
SPAdes изменяет ранее использованный подход к удалению выпуклости[16] и итеративный граф де Брейна от Peng и другие (2010)[17] и создает новый подход, названный "корреляция выпуклости", который означает коррекцию и удаление выпуклости. Алгоритм коррекции выпуклости можно резюмировать следующим образом: простая выпуклость образована двумя небольшими и похожими путями (P и Q), соединяющими один концентраторы. Если P - неразветвленный путь (h-путь), то SPAdes сопоставляет каждое ребро в P с проекцией ребра в Q и удаляет P из графа, в результате чего покрытие Q увеличивается. В отличие от других ассемблеров, которые используют Устранение выпуклости отсечки фиксированного покрытия, SPAdes шаг за шагом удаляет или проецирует h-пути с низким покрытием. Это достигается путем постепенного увеличения пороговых значений и повторения всех h-путей в порядке увеличения охвата (для коррекции выпуклости и удаления химерных элементов) или длины (для удаления наконечника). Более того, чтобы гарантировать отсутствие новых источников / приемники вводятся в граф, SPAdes удаляет h-путь (при удалении химерного h-пути) или проекты (при коррекции выпуклости), только если его начальная и конечная вершины имеют по крайней мере два исходящих и входящих ребра. Это помогает удалить h-пути с низким покрытием, возникающие из-за ошибок секвенирования и химерного чтения, но не из-за повторов.
Конвейеры и производительность SPAdes
SPAdes состоит из следующих инструментов:[1]
- Инструмент исправления ошибок чтения, BayesHammer (для данных Illumina) и IonHammer (для данных IonTorrent) .[14] При традиционном исправлении ошибок редкие k-меры считаются ошибками. Это не применимо для СКС из-за неравномерного покрытия. Поэтому BayesHammer использует вероятностную субкластеризацию, которая исследует несколько центральных нуклеотидов, которые будут лучше охвачены, чем другие, аналогичных k-мер.[14] Утверждалось, что для кишечная палочка (Кишечная палочка) для набора данных с одной ячейкой BayesHammer работает примерно за 75 минут, требует до 10 ГБ ОЗУ для исправления ошибок чтения и требует 10 ГБ дополнительного дискового пространства для временных файлов.
- Итеративный ассемблер короткого чтения генома, SPAdes. Для того же набора данных этот шаг длится ~ 75 мин. На выполнение этапа 1 требуется ~ 40% этого времени (см. Подход к сборке SPAdes выше) при использовании трех итераций (k = 22, 34 и 56) и ~ 45%, 14% и 1% для завершения этапов 2, 3 и 4 соответственно. Также для сборки требуется до 5 ГБ ОЗУ и 8 ГБ дополнительного дискового пространства.
- Корректор рассогласования (который использует BWA орудие труда). Этот модуль требует наибольшего времени (~ 120 мин) и наибольшего дополнительного дискового пространства (~ 21 ГБ) для временных файлов. Для полной коррекции рассогласования собранной системы требуется до 9 Гб ОЗУ. Кишечная палочка набор данных одной ячейки.
- Модуль для сборки высокополиморфных диплоидных геномов, dipSPAdes. dipSPAdes конструирует более длинные контиги, используя дивергенцию между гапломами в повторяющихся областях генома. После этого он производит построение консенсусных контигов и выполняет сборку гаплотипов.
Сравнение ассемблеров
Недавнее исследование[18] сравнил несколько ассемблеров генома на одной клетке Кишечная палочка образцы. Это сборщики EULER-SR,[11] Бархат,[9] SOAPденово,[19] Velvet-SC, EULER + Velvet-SC (E + V-SC),[16] IDBA-UD[20] и SPAdes. Было продемонстрировано, что IDBA-UD и SPAdes показали лучшие результаты.[18] У SPAdes был самый большой NG50 (99 913, статистика NG50 такая же, как и у N50, за исключением того, что используется размер генома, а не размер сборки).[21] Более того, используя Кишечная палочка эталонный геном,[22] SPAdes собрали самый высокий процент генома (97%) и наибольшее количество полных генов (4071 из 4324).[18] Выступления монтажников были следующими:[18]
- Количество контигов:
IDBA-UD <Бархат SPAdes > ИДБА-УД >>> E + V-SC> EULER-SR> Velvet> Velvet-SC> SOAPdenovo IDBA-UD> SPAdes >> EULER-SR> Velvet = E + V-SC> Бархат-SC> SOAPdenovo SPAdes > IDBA-UD> E + V-SC> Velvet-SC> EULER-SR> SOAPdenovo> Бархат E + V-SC = Бархат = Бархат-SC Смотрите также
использованная литература