BLOSUM - BLOSUM

Матрица BLOSUM62

В биоинформатика, то BLOSUM (BLOcks SUучреждение Matrix) матрица является матрица замещения используется для выравнивание последовательностей из белки. Матрицы BLOSUM используются для оценки совпадений между эволюционно расходящийся белковые последовательности. Они основаны на локальных раскладах. Матрицы BLOSUM были впервые представлены в статье Стивен Хеникофф и Джорджа Хеникофф.[1] Они просмотрели База данных BLOCKS для очень сохраненные регионы семейств белков (которые не имеют пробелов в выравнивании последовательностей), а затем подсчитали относительные частоты аминокислоты и вероятности их замещения. Затем они рассчитали логарифм оценка для каждой из 210 возможных пар замен 20 стандартных аминокислот. Все матрицы BLOSUM основаны на наблюдаемых сопоставлениях; они не экстраполируются из сравнений близкородственных белков, таких как Матрицы PAM.

Биологический фон

Генетические инструкции каждой репликации клетка в живом организме содержатся в его ДНК.[2] На протяжении всей жизни клетки эта информация транскрибируется и реплицируется клеточными механизмами для производства белков или предоставления инструкций дочерним клеткам во время деление клеток, и существует вероятность того, что ДНК может быть изменена во время этих процессов.[2][3] Это известно как мутация. На молекулярном уровне существуют регуляторные системы, которые корректируют большую часть - но не все - этих изменений в ДНК до того, как она будет реплицирована.[3][4]

Функциональность протеина сильно зависит от его структуры.[5] Изменение одной аминокислоты в белке может снизить его способность выполнять эту функцию, или мутация может даже изменить функцию, которую выполняет белок.[3] Подобные изменения могут серьезно повлиять на важную функцию клетки, потенциально вызывая смерть клетки, а в крайних случаях и организма.[6] И наоборот, изменение может позволить клетке продолжать функционировать, хотя и по-другому, и мутация может быть передана потомству организма. Если это изменение не приведет к какому-либо значительному физическому ущербу для потомства, существует вероятность того, что эта мутация сохранится в популяции. Также существует возможность того, что изменение функции станет выгодным.

20 аминокислот переведены генетический код сильно различаются физическими и химическими свойствами их боковых цепей.[5] Однако эти аминокислоты можно разделить на группы со схожими физико-химическими свойствами.[5] Замена аминокислоты другой из той же категории с большей вероятностью окажет меньшее влияние на структуру и функцию белка, чем замена аминокислотой из другой категории.

Выравнивание последовательностей - фундаментальный метод исследования современной биологии. Наиболее распространенное выравнивание последовательностей белков - это поиск сходства между различными последовательностями, чтобы сделать вывод о функции или установить эволюционные отношения. Это помогает исследователям лучше понять происхождение и функцию генов через природу гомология и сохранение. Матрицы замещения используются в алгоритмах для расчета сходства различных последовательностей белков; однако полезность Dayhoff PAM Матрица со временем уменьшилась из-за требования последовательностей с сходством более 85%. Чтобы восполнить этот пробел, Хеникофф и Хеникофф представили матрицу BLOSUM (BLOcks SUbstitution Matrix), которая привела к заметным улучшениям в выравнивании и поиске с использованием запросов из каждой из групп связанных белков.[1]

Терминология

BLOSUM: Матрица замещения блоков, a матрица замещения используется для выравнивание последовательностей из белки.

Показатели оценки (статистические по сравнению с биологическими): при оценке выравнивания последовательностей хотелось бы знать, насколько это значимо. Для этого требуется оценочная матрица или таблица значений, которая описывает вероятность появления пары биологически значимых аминокислот или нуклеотидных остатков в выравнивании. Баллы для каждой позиции представляют собой частоты замен в блоках локальных выравниваний последовательностей белков.[7]

Существует несколько наборов матриц BLOSUM с использованием различных баз данных выравнивания, названных номерами. Матрицы BLOSUM с большими числами предназначены для сравнения близкородственных последовательностей, а матрицы с низкими номерами предназначены для сравнения отдаленных связанных последовательностей. Например, BLOSUM80 используется для близкородственных сопоставлений, а BLOSUM45 используется для более отдаленных сопоставлений. Матрицы были созданы путем объединения (кластеризации) всех последовательностей, которые были более похожими, чем заданный процент, в одну единственную последовательность, а затем только сравнения этих последовательностей (которые все были более расходящимися, чем заданное процентное значение); таким образом уменьшая вклад близкородственных последовательностей. Используемый процент был добавлен к имени, давая, например, BLOSUM80, где последовательности, которые были более чем на 80% идентичны, были сгруппированы.

BLOSUM r: матрица, построенная из блоков с менее чем r% сходства - например, BLOSUM62 - это матрица, построенная с использованием последовательностей с менее чем 62% сходства (последовательности с идентичностью ≥ 62% были сгруппированы) - Примечание: BLOSUM 62 является матрицей по умолчанию для белка BLAST. Эксперименты показали, что матрица BLOSUM-62 является одной из лучших для обнаружения самых слабых сходств белков.[1]

Построение матриц BLOSUM

Матрицы BLOSUM получают путем использования блоков схожих аминокислотных последовательностей в качестве данных, а затем применения статистических методов к данным для получения оценок сходства. [8]

Устранение последовательностей

Удалите последовательности, которые идентичны более чем на r%. Есть два способа устранить последовательности. Это можно сделать либо путем удаления последовательностей из блока, либо просто путем поиска похожих последовательностей и замены их новыми последовательностями, которые могут представлять кластер. Удаление выполняется для удаления последовательностей белков, которые более похожи, чем указанный порог.

Расчет частоты и вероятности

База данных, в которой хранятся выравнивания последовательностей наиболее консервативных областей семейств белков. Эти выравнивания используются для получения матриц BLOSUM. Используются только последовательности с процентом идентичности ниже порогового значения. С помощью блока подсчитывают пары аминокислот в каждом столбце множественного выравнивания.

Логарифм нечетное отношение

Он дает отношение встречаемости каждой комбинации аминокислот в наблюдаемых данных к ожидаемому значению встречаемости пары. Оно округляется и используется в матрице замен.

В котором возможность наблюдения и это возможность ожидаемая.

Матрицы BLOSUM

Шансы на родство рассчитываются из логарифмического отношения нечетных, которые затем округляются, чтобы получить матрицы замены BLOSUM.

Оценка матриц BLOSUM

Матрица оценок или таблица значений требуются для оценки значимости выравнивания последовательностей, например, для описания вероятности появления в выравнивании пары биологически значимых аминокислот или нуклеотидных остатков. Обычно при сравнении двух нуклеотидных последовательностей оценивается только то, являются ли два основания одинаковыми в одном положении. Всем совпадениям и несоответствиям соответственно присваивается одинаковая оценка (обычно +1 или +5 для совпадений и -1 или -4 для несовпадений).[9] Но с белками все иначе. Матрицы замен для аминокислот более сложны и неявно учитывают все, что может повлиять на частоту, с которой одна аминокислота заменяется другой. Цель состоит в том, чтобы обеспечить относительно тяжелый штраф за выравнивание двух остатков вместе, если они имеют низкую вероятность быть гомологичными (правильно выровнены путем эволюционного происхождения). Две основные силы отталкивают скорость аминокислотных замен от единообразия: замены происходят с разной частотой и функционально менее переносимы, чем другие. Таким образом, замены отбираются против.[7]

Обычно используемые матрицы замены включают замену блоков (BLOSUM) [1] и точечно принятая мутация (PAM) [10][11] матрицы. Оба основаны на взятии наборов выравниваний с высокой степенью достоверности многих гомологичных белков и оценке частот всех замен, но они рассчитываются с использованием разных методов.[7]

Оценки в BLOSUM представляют собой оценки логарифма шансов, которые измеряют при выравнивании логарифм отношения вероятности появления двух аминокислот с биологическим смыслом и вероятности того, что одни и те же аминокислоты появятся случайно. Матрицы основаны на минимальной процентной идентичности выровненной белковой последовательности, используемой при их вычислении.[12] Каждой возможной идентичности или замене присваивается оценка на основе наблюдаемой частоты выравнивания родственных белков.[13] Положительная оценка дается более вероятным заменам, а отрицательная оценка - менее вероятным заменам.

Для вычисления матрицы BLOSUM используется следующее уравнение:

Здесь, вероятность двух аминокислот и заменяя друг друга в гомологической последовательности, и и - фоновые вероятности обнаружения аминокислот и в любой последовательности белка. Фактор - коэффициент масштабирования, установленный таким образом, чтобы матрица содержала легко вычисляемые целочисленные значения.

Пример - BLOSUM62

BLOSUM80: больше родственных белков

BLOSUM62: средние частоты

BLOSUM45: отдаленно родственные белки

Статья в Природа Биотехнологии[14] показали, что BLOSUM62, который так много лет использовался в качестве стандарта, не совсем точен в соответствии с алгоритмом, описанным Хеникофф и Хеникофф.[1] Удивительно, но неправильно рассчитанный BLOSUM62 повышает производительность поиска.[14]

Матрица BLOSUM62 с аминокислотами в таблице, сгруппированными в соответствии с химическим составом боковой цепи, как в (а). Каждое значение в матрице вычисляется путем деления частоты встречаемости пары аминокислот в базе данных BLOCKS, сгруппированных на уровне 62%, деленной на вероятность того, что те же две аминокислоты могут совпадать случайно. Затем отношение преобразуется в логарифм и выражается в виде логарифма шансов, как для PAM. Матрицы BLOSUM обычно масштабируются в полубитовых единицах. Нулевой балл указывает на то, что частота, с которой данные две аминокислоты были найдены выровненными в базе данных, была такой, как ожидалось, случайно, в то время как положительный балл указывает на то, что выравнивание было обнаружено чаще, чем случайно, а отрицательное значение указывает на то, что выравнивание находили реже, чем случайно.

Некоторые применения в биоинформатике

Приложения для исследований

Показатели BLOSUM использовались для прогнозирования и понимания вариантов поверхностных генов среди носителей вируса гепатита В.[15] и эпитопы Т-клеток.[16]

Варианты поверхностных генов среди носителей вируса гепатита В

Последовательности ДНК HBsAg были получены от 180 пациентов, из которых 51 был хроническим носителем HBV и 129 пациентов с новым диагнозом, и были сравнены с консенсусными последовательностями, построенными из 168 последовательностей HBV, импортированных из GenBank. Обзор литературы и баллы по шкале BLOSUM использовались для определения потенциально измененной антигенности.[15]

Надежное предсказание эпитопов Т-клеток

Было разработано новое входное представление, состоящее из комбинации разреженного кодирования, кодирования Blosum и входных данных, полученных из скрытых марковских моделей. этот метод позволяет прогнозировать эпитопы Т-клеток генома вируса гепатита С и обсуждать возможные применения метода прогнозирования для управления процессом разработки рациональной вакцины.[16]

Использование в BLAST

Матрицы BLOSUM также используются в качестве оценочной матрицы при сравнении последовательностей ДНК или последовательностей белков для оценки качества выравнивания. Эта форма системы подсчета очков используется в широком спектре программного обеспечения для выравнивания, включая ВЗРЫВ.[17]

Сравнение PAM и BLOSUM

В дополнение к матрицам BLOSUM можно использовать ранее разработанную матрицу оценок. Это известно как PAM. Оба результата дают одинаковый результат подсчета очков, но используют разные методологии. BLOSUM смотрит непосредственно на мутации в мотивах связанных последовательностей, в то время как PAM экстраполировать эволюционная информация, основанная на близкородственных последовательностях.[1]

Поскольку и PAM, и BLOSUM - это разные методы для отображения одной и той же информации о подсчете, их можно сравнивать, но из-за совершенно разных методов получения этой оценки PAM100 не равно BLOSUM100.[18]

PAMBLOSUM
PAM100BLOSUM90
PAM120BLOSUM80
PAM160BLOSUM62
PAM200BLOSUM50
PAM250BLOSUM45
Отношения между PAM и BLOSUM
PAMBLOSUM
Для сравнения близкородственных последовательностей создаются матрицы PAM с меньшими номерами.Для сравнения близкородственных последовательностей создаются матрицы BLOSUM с более высокими номерами.
Для сравнения отдаленно родственных белков создаются матрицы PAM с большим числом.Для сравнения отдаленно родственных белков создаются матрицы BLOSUM с низкими номерами.
Различия между PAM и BLOSUM
PAMBLOSUM
На основе глобального выравнивания близкородственных белков.На основе местных трасс.
PAM1 - это матрица, рассчитанная на основе сравнения последовательностей с расхождением не более 1%, но соответствует 99% идентичности последовательностей.BLOSUM 62 - это матрица, рассчитанная на основе сравнения последовательностей с попарной идентичностью не более 62%.
Другие матрицы PAM экстраполируются из PAM1.На основе наблюдаемых выравниваний; они не экстраполируются из сравнений близкородственных белков.
Более высокие числа в схеме наименования матриц означают большее эволюционное расстояние.Большие числа в схеме именования матриц означают более высокое сходство последовательностей и, следовательно, меньшее эволюционное расстояние.[19]

Смотрите также

Рекомендации

  1. ^ а б c d е ж Henikoff, S .; Хеникофф, Дж. (1992). «Матрицы аминокислотного замещения из белковых блоков». PNAS. 89 (22): 10915–10919. Bibcode:1992PNAS ... 8910915H. Дои:10.1073 / пнас.89.22.10915. ЧВК  50453. PMID  1438297.
  2. ^ а б Кэмпбелл NA; Рис JB; Мейерс Н; Urry LA; Cain ML; Вассерман С.А.; Минорский ПВ; Джексон РБ (2009). «Молекулярные основы наследования». Биология: австралийская версия (8-е изд.). Pearson Education Australia. С. 307–325. ISBN  9781442502215.
  3. ^ а б c Кэмпбелл NA; Рис JB; Мейерс Н; Urry LA; Cain ML; Вассерман С.А.; Минорский ПВ; Джексон РБ (2009). «От гена к белку». Биология: австралийская версия (8-е изд.). Pearson Education Australia. С. 327–350. ISBN  9781442502215.
  4. ^ Пал Дж. К., Гаскадби СС (2009). «Повреждение, восстановление и рекомбинация ДНК». Основы молекулярной биологии (1-е изд.). Издательство Оксфордского университета. стр.187–203. ISBN  9780195697810.
  5. ^ а б c Кэмпбелл NA; Рис JB; Мейерс Н; Urry LA; Cain ML; Вассерман С.А.; Минорский ПВ; Джексон РБ (2009). «Структура и функции крупных биологических молекул». Биология: австралийская версия (8-е изд.). Pearson Education Australia. С. 68–89. ISBN  9781442502215.
  6. ^ Лобо, Ингрид (2008). «Менделирующие соотношения и летальные гены». Природа. Получено 19 октября 2013.
  7. ^ а б c pertsemlidis A .; Fondon JW.3rd (сентябрь 2001 г.). «Провести BLAST с биоинформатикой (и избежать BLASTphemy)». Геномная биология. 2 (10): reviews2002.1–2002.10. Дои:10.1186 / gb-2001-2-10-reviews2002. ЧВК  138974. PMID  11597340.
  8. ^ «ЦВЕТОЧНЫЕ МАТРИЦЫ: Введение в БИОИНФОРМАТИКУ» (PDF). УНИВЕРСИТИ ТЕХНОЛОГИИ МАЛАЙЗИИ. 2009. Получено 9 сентября 2014.[постоянная мертвая ссылка ]
  9. ^ Мурали Сиварамакришнан; Огнен Перишич; Шаши Ранджан. «CS № 594 - Группа 13 (Инструменты и программное обеспечение)» (PDF). Иллинойсский университет в Чикаго - МСЖД. Получено 9 сентября 2014.
  10. ^ Маргарет О., Дейхофф (1978). «22». Атлас последовательности и структуры белков. 5. Вашингтон, округ Колумбия: Национальный фонд биомедицинских исследований. С. 345–352.
  11. ^ Штаты DJ .; Gish W .; Altschul SF. (1991). «Повышенная чувствительность поиска в базе данных нуклеиновых кислот с использованием оценочных матриц для конкретных приложений». Методы: дополнение к методам энзимологии. 3: 66–70. CiteSeerX  10.1.1.114.8183. Дои:10.1016 / с1046-2023 (05) 80165-3. ISSN  1046-2023.
  12. ^ Альберт Ю. Зомая (2006). Справочник по естественным и инновационным вычислениям. Нью-Йорк, штат Нью-Йорк: Спрингер. ISBN  978-0-387-40532-2.стр. 673
  13. ^ NIH «Скоринговые системы»
  14. ^ а б Марк П. Стычинский; Кайл Л. Дженсен; Исидор Ригутсос; Грегори Стефанопулос (2008). «Просчеты BLOSUM62 повышают эффективность поиска». Nat. Биотехнология. 26 (3): 274–275. Дои:10.1038 / nbt0308-274. PMID  18327232. S2CID  205266180.
  15. ^ а б Роке-Афонсо AM, Ферей MP, Ly TD (2007). «Вирусные и клинические факторы, связанные с вариантами поверхностных генов среди носителей вируса гепатита В». Антивир Тер. 12 (8): 1255–1263. PMID  18240865.
  16. ^ а б Нильсен М., Лундегаард С., Уорнинг П. и др. (2003). «Надежное предсказание эпитопов Т-клеток с использованием нейронных сетей с новыми представлениями последовательностей» (PDF). Белковая наука. 12 (5): 1007–1017. Дои:10.1110 / пс.0239403. ЧВК  2323871. PMID  12717023.
  17. ^ «Статистика оценок сходства последовательностей». Национальный центр биотехнологической информации. Получено 20 октября 2013.
  18. ^ Сауд, Омама (2009). «Матрицы замещения PAM и BLOSUM». Бирек. Архивировано из оригинал 9 марта 2013 г.. Получено 20 октября 2013.
  19. ^ «Искусство выравнивания последовательностей белков. Часть 1 Матрицы». Dai hoc Can Tho - Университет Кантхо. Архивировано из оригинал 11 сентября 2014 г.. Получено 7 сентября 2014.

внешняя ссылка