Ошибки чтения ДНК - DNA read errors - Wikipedia

В биоинформатика, а Ошибка чтения ДНК происходит, когда ассемблер последовательности меняет один ДНК база для другого основание. Читает из ассемблер последовательности затем можно использовать для создания граф де Брейна, который можно использовать по-разному, чтобы найти ошибки.

Обзор

последовательность 1
Рисунок 1
Образец последовательности ДНК и соответствующий ей график де Брейна.

В граф де Брейна, существует возможность 4 ^ k различных узлов для организации геном. Число узлов, используемых для создания графа, можно уменьшить, если рассматривать только k-mers найдено в ДНК интересующая нить. Учитывая последовательность 1, можно определить узлы размера 7 или 7-меров, которые будут в графе. Эти 7-меры затем создают график, показанный на рисунке 1.[1]

В график На рисунке 1 показан очень простой вариант того, как мог бы выглядеть график.[2] Этот граф формируется путем связывания последних 6 элементов 7-мера с узлом, первые 6 элементов которого совпадают. Рисунок 1 - самый упрощенный граф де Брейна может быть, так как каждый узел имеет ровно один путь внутрь и один путь наружу. В большинстве случаев графы будут иметь более одного ребра, направленного к узлу, и / или более одного ребра, выходящего из узла. Это происходит из-за способа подключения узлов. Узлы соединены ребрами, указывающими на узлы, если последний к-1 элементы k-мерный матч первый к-1 элементы любого узла. Это позволяет получить многогранный граф де Брейна формировать. Эти более сложные графики возникают из-за ошибок чтения или вариаций в цепях ДНК. Обе причины затрудняют определение правильной структуры ДНК и того, что вызывает различия. Поскольку большинство нитей ДНК, вероятно, будут содержать ошибки чтения и вариации, ученые надеются использовать процесс сборки, который может объединять узлы графа, когда они однозначно соединяются после того, как граф был очищен от вершин и ребер, созданных ошибками.[3]

Советы и пузыри

Когда граф формируется из последовательный данных, ошибки чтения образуют подсказки и пузыри. А кончик это то место, где в процессе секвенирования произошла ошибка, которая привела к преждевременному завершению графика и включает как правильные, так и неправильные k-меры. А пузырь также формируется при возникновении ошибки в процессе чтения последовательности; однако, где бы ни произошла ошибка, есть путь для k-mer читает, чтобы повторно подключиться к основному графу и продолжить работу, как будто ничего не произошло. Когда в граф де Брейна сформированные из данных, их можно удалить только в том случае, если возникла ошибка, вызвавшая появление наконечника или пузыря. Когда ученые используют эталонный геном, они могут быстро и легко определить, где расположены подсказки, сравнив график эталонного генома и график последовательности. Если эталонного генома нет, подсказки удаляются путем прослеживания ветвей назад до тех пор, пока не будет найдена двусмысленная точка. Затем наконечники удаляются только в том случае, если длина ветви, содержащей наконечник, короче установленного порогового значения.[3] Процесс удаления пузырей несколько сложнее. Первое, что нужно сделать, это определить начало пузыря. Отсюда следует каждый путь от начала пузыря до точки повторного соединения. Точка переподключения может быть разной для каждого пути. Поскольку от начального узла могут проходить пути разной длины, путь с меньшим покрытием удаляется.[3]

Пример

последовательность 2

Для последовательности любой длины первый шаг, который необходимо сделать, это ввести последовательность в программу секвенирования, упорядочить ее и вернуть базовая пара (bp) чтения определенной длины. Поскольку не существует полностью точной программы секвенирования, всегда будут считывания, содержащие ошибки. Наиболее распространенный метод секвенирования - это метод дробовика, который, скорее всего, используется в последовательности 2. После того, как метод выбран, вы должны указать длину чтения битов, которое вы хотите вернуть. В случае последовательности 2 он возвратил 7-битные чтения со всеми ошибками, сделанными во время процесса, отмеченными красным.[4]

Как только чтения получены, они хешируются в k-меры. В k-меры записываются в таблицу с указанием того, сколько раз каждый k-mer появился в читалках. В этом примере каждое чтение было хешировано в 4-mers, и в случае ошибки она записывалась красным цветом. Все 4Затем были записаны -меры с их частотой в следующей таблице.

ACAG (5X)АCGCAGAАAGAC (9X)АГАГ (9X)АГАТ (8X)
AGGC (16X)СЛКП (7X)ATCC (7X)ATGA (8X)CCGA (7X)CGAC
CGAG (8X)CGAT (6X)CТЕГ (2X)CTCТCTTT (8X)GACA (8X)
GACграммГАГА (12X)ГАГГ (16X)GATG (5X)GATC (8X)GATТ
GCTC (2X)GCTT (8X)GGCT (11X)GTCG (9X)ТАГА (16X)TAGT (3X)
TCCG (7X)TCGA (10X)ТCTA (2X)ТГАГ (9X)TTAG (12X)TTTA (8X)

Каждая отдельная ячейка таблицы затем образует узел, позволяя граф де Брейна формироваться из данного k-меры. На рисунке 2 обозначены линейные участки, а затем сформирован другой график, рис.3, где линейные участки стали одним узлом другого k-Меньший размер, позволяющий сделать график более кратким. На этом упрощенном графике легко идентифицировать различные подсказки и пузыри, как показано на рисунке 4. Эти пузыри и подсказки затем можно удалить, так как мы можем определить, что они были сформированы из-за ошибок при чтении bp, давая нам структуру графика. который должен точно и полностью отражать исходную последовательность.[4] Если вы проследите график де Брейна, показанный на рисунке 5, вы увидите, что образованная последовательность действительно соответствует последовательности ДНК, приведенной в последовательности 2.

фигура 2
Граф де Брейна с выделенными линейными отрезками
фигура 3
Упрощенный граф де Брейна
фигура 4
График де Брейна с обозначенными кончиками и пузырьками
цифра 5
Окончательный график де Брейна из нити ДНК

Сравнение двух цепей ДНК

При сравнении двух нитей ДНК, цветные графы де Брейна часто используются для выявления ошибок. Эти ошибки, часто полиморфизмы, вызывают образование пузырьков, подобных упомянутым выше. В настоящее время существует четыре основных алгоритмы используется для обобщения данных и поиска пузырей. Эти четыре алгоритма расширяют графы де Брейна, позволяя раскрашивать узлы и ребра графа в соответствии с образцами, из которых они наблюдались.[5]

Вызов пузыря

Простейшее использование цветного графа де Брейна известно как алгоритм вызова пузыря. Этот алгоритм ищет и находит пузырьки на геноме, которые отличаются от оригинала. Эти пузыри должны быть «чистыми» или просто отличаться от эталонного генома, но не могут быть вызваны делециями оснований ДНК. Этот алгоритм может иметь высокий ложный положительный результат скорости, поскольку существует сложность разделения пузырей, вызванных повторением и вариантом; однако часто существует эталонный геном, чтобы помочь улучшить надежность. Эталонный геном также помогает в обнаружении вариантов и важен для обнаружения вариантных сайтов.[5] Недавно ученые обнаружили способ использования алгоритма вызова пузыря с изменение количества копий обнаружение, чтобы учесть возможность беспристрастный обнаружение этих вариаций в будущем[6][7]

Расхождение пути

При рассмотрении сложных вариантов вероятность того, что из них получится чистый, очень мала. контиг. Так как это происходит чаще всего, путь расхождение алгоритм полезен, особенно при рассмотрении того, где происходят удаления, а вариант настолько сложен, что ограничен ссылкой аллель. Когда образуется пузырь, алгоритм расхождения пути используется наиболее часто и позволяет удалять обнаруженные пузырьки в очень систематической процедуре. Сначала алгоритм определяет каждую точку расхождения. Затем из каждой точки расхождение, нити, образующие пузырек, отслеживаются, чтобы найти, где соединяются два пути после п узлы. Если два пути соединяются, то путь с меньшим покрытием удаляется и сохраняется в файле.[3][8]

Анализ множественных проб

Использование нескольких образцов существенно увеличивает мощность и вероятность ложного обнаружения вариантов. В простейших случаях образцы объединяются в группу одного цвета, и данные анализируются, как описано ранее. Однако, поддерживая отдельные цвета для каждого набора образцов, появляется дополнительная информация о том, как были сформированы пузырьки, ошибочно или в результате повторов.[5] В 1997 г. на кафедре технологий г. Genzyme Genetics в Framingham, Массачусетс разработали новый подход, который обеспечил прорыв в борьбе с пузырями с помощью мультиплекс аллель-специфический диагностический анализ (MASDA). Эта программа объединяет вперед дот-блот, комплексный одновременный гибридизация зонда и прямое обнаружение мутаций, чтобы помочь решить двойную проблему анализа нескольких образцов.[9]

Генотипирование

Цветные графы де Брейна можно использовать для генотип любой образец ДНК в известном места, даже когда покрытие менее чем достаточно для вариантной сборки.[5] Первым шагом к этому процессу является построение графика справочной аллель, известные варианты и данные из выборки. В алгоритм затем вычисляет вероятность каждого генотипа и учитывает структуру графа, как локальной, так и общегеномной последовательности. Затем это обобщается на несколько аллельных типов и помогает определять сложные и сложные варианты генотипа.[5] Этот алгоритм используется часто, так как не образуются пузыри, с которыми нужно иметь дело. Это также напрямую помогает находить более сложные проблемы в генах более прямым образом, чем любой из трех алгоритмов, упомянутых ранее.[10]

Рекомендации

  1. ^ Механизмы рекомбинации ДНК и перестройки генома: пересечение между гомологичной рекомбинацией, репликацией ДНК и репарацией ДНК. Академическая пресса. 2018-03-06. ISBN  978-0-12-813980-6.
  2. ^ График Де Брейна небольшой последовательности. (2011). Получено 7 февраля 2015 г. с сайта Homolog.us - Биоинформатика: http://www.homolog.us/Tutorials/index.php?p=2.1&s=1 В архиве 2014-10-30 на Wayback Machine
  3. ^ а б c d Симпсон, Дж. Т., Вонг, К., Джекман, С. Д., Шейн, Дж. Э., Джонс, С. Дж., И Бирол, И. (2009). ABySS: параллельный ассемблер для данных короткой последовательности чтения. Геномные исследования, 19(6), 1117-1123
  4. ^ а б Фличек, П., и Бирни, Э. (2009). Смысл из последовательности гласит: методы выравнивания и сборки. Природные методы, 6, S6-S12. Рисунок 3
  5. ^ а б c d е Икбал, З., Каккамо, М., Тернер, И., Фличек, П., и Маквин, Г. (2012). Сборка de novo и генотипирование вариантов с использованием цветных графов де Брейна. Природная генетика, 44(2), 226-232
  6. ^ Найкамп, Дж. Ф., ван ден Брук, М. А., Гиртман, Дж. М. А., Рейндерс, М. Дж., Даран, Дж. М. Г., и де Риддер, Д. (2012). Обнаружение de novo изменения количества копий при совместной сборке. Биоинформатика, 28(24), 3195-3202
  7. ^ Меснер, Ларри Д.; Валсакумар, Вина; Цеслик, Марцин; Пикин, Ребекка; Hamlin, Joyce L .; Бекиранов, Стефан (ноябрь 2013 г.). «Пузырьковый анализ генома человека выявляет различные механизмы, опосредованные хроматином, для регулирования ранних и поздних генов». Геномные исследования. 23 (11): 1774–1788. Дои:10.1101 / гр.155218.113. ISSN  1088-9051. ЧВК  3814878. PMID  23861383.
  8. ^ «Расхождение путей - знание управления проектами». Получено 2020-10-09.
  9. ^ Шубер, А. П., Михаловский, Л. А., Насс, Г. С., Сколецкий, Дж., Хайр, Л. М., Коцопулос, С. К., ... и Клингер, К. В. (1997). Высокопроизводительный параллельный анализ сотен образцов пациентов на наличие более 100 мутаций в генах нескольких заболеваний. Молекулярная генетика человека, 6(3), 337-347
  10. ^ «Генотипирование - обзор | Темы ScienceDirect». www.sciencedirect.com. Получено 2020-10-09.