Фильтры Блума в биоинформатике - Bloom filters in bioinformatics

Фильтры Блума компактно-вероятностные структуры данных используется для проверки того, является ли элемент частью набора. Фильтры Блума требуют гораздо меньше места, чем другие структуры данных для представления наборов, однако обратная сторона фильтров Блума заключается в том, что существует ложноположительный рейтинг при запросе структуры данных. Поскольку несколько элементов могут иметь одинаковые хеш-значения для нескольких хеш-функций, тогда существует вероятность того, что запрос несуществующего элемента может вернуть положительный результат, если к фильтру Блума был добавлен другой элемент с такими же хеш-значениями. Предполагая, что хеш-функция имеет равную вероятность выбора любого индекса фильтра Блума, частота ложных срабатываний при запросе фильтра Блума является функцией количества битов, количества хэш-функций и количества элементов фильтра Блума. Это позволяет пользователю управлять риском получения ложного срабатывания, жертвуя преимуществами пространства фильтра Блума.

Фильтры Блума в основном используются в биоинформатике для проверки наличия к-мер в последовательности или наборе последовательностей. K-меры последовательности индексируются в фильтре Блума, и любой k-мер того же размера может быть запрошен против фильтра Блума. Это предпочтительная альтернатива хеширование k-мер последовательности с хеш-таблица, особенно когда последовательность очень длинная, так как очень сложно хранить в памяти большое количество k-мер.

Приложения

Характеристика последовательности

Визуализация запроса фильтра Блума k-меров последовательности ДНК.
Визуализация запроса фильтра Блума k-мерных последовательностей ДНК. Первый шаг - это сохранение k-мер последовательности в фильтре Блума. Запросы выполняются аналогично, когда последовательность запросов разбивается на соответствующие k-мерки, а k-меры используются для запроса фильтра Блума.

Этап предварительной обработки во многих приложениях биоинформатики включает в себя классификацию последовательностей, в первую очередь классификацию чтений из Секвенирование ДНК эксперимент. Например, в метагеномный В исследованиях важно иметь возможность определить, принадлежит ли считывание секвенирования новому виду.[1] а в проектах клинического секвенирования жизненно важно отфильтровывать считывания из геномов заражающих организмов. Существует множество инструментов биоинформатики, которые используют фильтры Блума для классификации чтений путем запроса k-мер чтения к набору фильтров Блума, сгенерированных из известных эталонные геномы. Некоторые инструменты, использующие этот метод, - это FACS.[2] и инструменты BioBloom.[3] Хотя эти методы не могут превзойти другие инструменты классификации биоинформатики, такие как Kraken,[4] они предлагают альтернативу с эффективным использованием памяти.

Недавняя область исследований с использованием фильтров Блума в характеристике последовательностей заключается в разработке способов запроса необработанных считываний из экспериментов по секвенированию. Например, как определить, какие чтения содержат определенный 30-мер во всем NCBI? Последовательность чтения из архива ? Эта задача аналогична той, которую выполняет ВЗРЫВ, однако это требует запроса гораздо большего набора данных; пока BLAST запрашивает базу данных эталонных геномов, эта задача требует, чтобы возвращались определенные чтения, содержащие k-мер. BLAST и подобные инструменты не могут эффективно справиться с этой проблемой, поэтому с этой целью были реализованы структуры данных на основе фильтра Блума. Бинарные цветущие деревья[5] являются бинарными деревьями фильтров Блума, которые упрощают запросы транскриптов в больших РНК-последовательность эксперименты. BIGSI[6] заимствует битовые подписи из области поиск документов индексировать и запрашивать полные данные микробного и вирусного секвенирования в Европейский архив нуклеотидов. Подпись данного набора данных кодируется как набор фильтров Блума из этого набора данных.

Сборка генома

Фильтры Блума используют меньше памяти, чем хэш-таблицы для графов де Брейна, но не сохраняют информацию о краях.
Сравнение хеш-таблицы и фильтра Блума для хранения графа де Брейна в памяти. Обратите внимание, что хотя информация о краях может храниться в хеш-таблице, она не сохраняется в фильтре Блума, что усложняет обход графа. Фильтр Блума того же размера, что и хеш-таблица, по-прежнему будет использовать меньше места из-за того, что не хранит значения самих k-мер.

Эффективность памяти фильтров Блума использовалась в сборка генома как способ уменьшить занимаемое k-мерами пространство от данных секвенирования. Вклад методов сборки на основе фильтров Блума состоит в объединении фильтров Блума и графы де Брейна в структуру, называемую вероятностным графом де Брейна,[7] который оптимизирует использование памяти за счет количества ложных срабатываний, присущих фильтрам Блума. Вместо того чтобы хранить график де Брейна в хеш-таблице, он хранится в фильтре Блума.

Использование фильтра Блума для хранения графа де Брейна усложняет этап обхода графа для построения сборки, поскольку информация о ребрах не кодируется в фильтре Блума. Обход графа выполняется путем запроса фильтра Блума для любого из четырех возможных последующих k-мер от текущего узла. Например, если текущий узел предназначен для k-мерного ACT, то следующий узел должен быть для одного из k-мерных CTA, CTG, CTC или CTT. Если запрос k-mer существует в фильтре Блума, то k-mer добавляется к пути. Следовательно, есть два источника ложных срабатываний при запросе фильтра Блума при обходе графа де Брейна. Существует вероятность того, что один или несколько из трех ложных k-мер существуют где-то в другом месте в наборе секвенирования, чтобы вернуть ложное срабатывание, и существует вышеупомянутая собственная частота ложных срабатываний самого фильтра Блума. Инструменты сборки, которые используют фильтры Блума, должны учитывать эти источники ложных срабатываний в своих методах. ABySS 2[8] и Миния[9] примеры ассемблеров, которые используют этот подход для de novo сборка.

Исправление ошибок секвенирования

Секвенирование нового поколения (NGS) методы позволили генерировать новые последовательности генома намного быстрее и дешевле, чем предыдущие. Секвенирование по Сэнгеру методы. Однако эти методы имеют более высокий уровень ошибок,[10][11] что усложняет последующий анализ последовательности и даже может привести к ошибочным выводам. Многие методы были разработаны для исправления ошибок при чтении NGS, но они используют большой объем памяти, что делает их непрактичными для больших геномов, таких как геном человека. Поэтому для устранения этих ограничений были разработаны инструменты, использующие фильтры Блума, которые используют их эффективное использование памяти. Мушкет[12] и БЛАГОСЛОВЕНИЕ[13] примеры таких инструментов. Оба метода используют подход k-мерного спектра для исправления ошибок. Первым шагом этого подхода является подсчет множественности k-мер, однако, в то время как BLESS использует только фильтры Блума для хранения подсчетов, Маскет использует фильтры Блума только для подсчета уникальных k-мер и сохраняет неуникальные k-меры в хеш-таблица, как описано в предыдущей работе[14]

РНК-Seq

Фильтры Блума также используются в некоторых РНК-Seq трубопроводы. РНК-снимок[15] группирует транскрипты РНК, а затем использует фильтры Блума для поиска сиг-меров: k-меров, которые встречаются только в одном из кластеров. Затем эти сиг-меры используются для оценки уровней распространенности транскриптов. Следовательно, он не анализирует все возможные k-меры, что приводит к повышению производительности и использования памяти, и было показано, что он работает так же, как и предыдущие методы.

использованная литература

  1. ^ Лундеберг, Иоаким; Арвестад, Ларс; Андерссон, Бьёрн; Алландер, Тобиас; Келлер, Макс; Страннехейм, Хенрик (01.07.2010). «Классификация последовательностей ДНК с использованием фильтров Блума». Биоинформатика. 26 (13): 1595–1600. Дои:10.1093 / биоинформатика / btq230. ISSN  1367-4803. ЧВК  2887045. PMID  20472541.
  2. ^ Лундеберг, Иоаким; Арвестад, Ларс; Андерссон, Бьёрн; Алландер, Тобиас; Келлер, Макс; Страннехейм, Хенрик (01.07.2010). «Классификация последовательностей ДНК с использованием фильтров Блума». Биоинформатика. 26 (13): 1595–1600. Дои:10.1093 / биоинформатика / btq230. ISSN  1367-4803. ЧВК  2887045. PMID  20472541.
  3. ^ Чу, Джастин; Садеги, Сара; Раймонд, Энтони; Джекман, Шон Д .; Нип, Ка Мин; Мар, Ричард; Мохамади, Хамид; Баттерфилд, Ярон С .; Робертсон, А. Гордон (2014-12-01). «Инструменты BioBloom: быстрый, точный и эффективный с точки зрения памяти скрининг последовательности видов-хозяев с использованием фильтров цветения». Биоинформатика. 30 (23): 3402–3404. Дои:10.1093 / биоинформатика / btu558. ISSN  1367-4811. ЧВК  4816029. PMID  25143290.
  4. ^ Вуд, Деррик Э .; Зальцберг, Стивен Л. (2014-03-03). «Kraken: сверхбыстрая классификация метагеномных последовательностей с использованием точного выравнивания». Геномная биология. 15 (3): R46. Дои:10.1186 / gb-2014-15-3-r46. ISSN  1474-760X. ЧВК  4053813. PMID  24580807.
  5. ^ Карл Кингсфорд; Соломон, Брэд (март 2016 г.). «Быстрый поиск тысяч коротких экспериментов по секвенированию». Природа Биотехнологии. 34 (3): 300–302. Дои:10.1038 / nbt.3442. ISSN  1546-1696. ЧВК  4804353. PMID  26854477.
  6. ^ Икбал, Замин; Маквин, Гил; Rocha, Eduardo P.C .; Баккер, Хенк С. ден; Брэдли, Фелим (февраль 2019 г.). «Сверхбыстрый поиск всех депонированных бактериальных и вирусных геномных данных». Природа Биотехнологии. 37 (2): 152–159. Дои:10.1038 / s41587-018-0010-1. ISSN  1546-1696. ЧВК  6420049. PMID  30718882.
  7. ^ Браун, К. Титус; Тидже, Джеймс М .; Хау, Адина; Канино-Конинг, Росангела; Хинтце, Аренд; Пелл, Джейсон (14 августа 2012 г.). «Масштабирование сборки последовательности метагенома с помощью вероятностных графов де Брейна». Труды Национальной академии наук. 109 (33): 13272–13277. arXiv:1112.4193. Bibcode:2012PNAS..10913272P. Дои:10.1073 / pnas.1121464109. ISSN  0027-8424. ЧВК  3421212. PMID  22847406.
  8. ^ Бироль, Инанк; Уоррен, Рене Л .; Кумб, Лорен; Хан, Хамза; Джахеш, Гольназ; Хаммонд, С. Остин; Йео, Сара; Чу, Джастин; Мохамади, Хамид (01.05.2017). «ABySS 2.0: ресурсоэффективная сборка больших геномов с использованием фильтра Блума». Геномные исследования. 27 (5): 768–777. Дои:10.1101 / гр.214346.116. ISSN  1088-9051. ЧВК  5411771. PMID  28232478.
  9. ^ Чихи, Райан; Ризк, Гийом (16 сентября 2013 г.). «Экономичное и точное представление графа де Брейна на основе фильтра Блума». Алгоритмы молекулярной биологии. 8 (1): 22. Дои:10.1186/1748-7188-8-22. ISSN  1748-7188. ЧВК  3848682. PMID  24040893.
  10. ^ Ломан, Николас Дж .; Мисра, Раджу В .; Даллман, Тимоти Дж .; Константиниду, Кристала; Gharbia, Saheer E .; Уэйн, Джон; Паллен, Марк Дж. (Май 2012 г.). «Сравнение производительности настольных платформ секвенирования с высокой пропускной способностью». Природа Биотехнологии. 30 (5): 434–439. Дои:10.1038 / nbt.2198. ISSN  1546-1696. PMID  22522955. S2CID  5300923.
  11. ^ Ван, Синь Виктория; Blades, Натали; Дин, Джи; Султана, Разван; Пармиджани, Джованни (30 июля 2012 г.). «Оценка частоты ошибок секвенирования при коротких чтениях». BMC Bioinformatics. 13: 185. Дои:10.1186/1471-2105-13-185. ISSN  1471-2105. ЧВК  3495688. PMID  22846331.
  12. ^ Шмидт, Бертил; Шредер, Ян; Лю, Юнчао (01.02.2013). "Musket: многоступенчатый корректор ошибок на основе спектра k-mer для данных последовательности Illumina". Биоинформатика. 29 (3): 308–315. Дои:10.1093 / биоинформатика / bts690. ISSN  1367-4803. PMID  23202746.
  13. ^ Хву, Вэнь-Мэй; Ма, Цзянь; Чен, Деминг; У Сяо-Лун; Хео, Юн (15.05.2014). «БЛЕСС: решение для исправления ошибок на основе фильтра Блума для высокопроизводительных операций чтения». Биоинформатика. 30 (10): 1354–1362. Дои:10.1093 / биоинформатика / btu030. ISSN  1367-4803. ЧВК  6365934. PMID  24451628.
  14. ^ Пеллоу, Дэвид; Филиппова, Дарья; Кингсфорд, Карл (2017-06-01). «Повышение эффективности фильтра Блума для данных последовательности с использованием фильтров Блума k-mer». Журнал вычислительной биологии. 24 (6): 547–557. Дои:10.1089 / cmb.2016.0155. ISSN  1066-5277. ЧВК  5467106. PMID  27828710.
  15. ^ Чжан, Чжаоцзюнь; Ван, Вэй (2014-06-15). «RNA-Skim: быстрый метод количественной оценки RNA-Seq на уровне транскриптов». Биоинформатика. 30 (12): i283 – i292. Дои:10.1093 / биоинформатика / btu288. ISSN  1367-4803. ЧВК  4058932. PMID  24931995.