Графические модели структуры белка - Graphical models for protein structure

Графические модели стали мощной основой для предсказание структуры белка, белок-белковое взаимодействие, и свободная энергия расчеты белковых структур. Использование графической модели для представления структуры белка позволяет решить многие проблемы, включая предсказание вторичной структуры, взаимодействия белок-белок, взаимодействие белок-лекарство и расчеты свободной энергии.

Существует два основных подхода к использованию графических моделей при моделировании структуры белков. Первый подход использует дискретный переменные для представления координат или двугранные углы структуры белка. Изначально все переменные представляют собой непрерывные значения, и для преобразования их в дискретные значения обычно применяется процесс дискретизации. Второй подход использует непрерывные переменные для координат или двугранных углов.

Дискретные графические модели структуры белка

Марковские случайные поля, также известные как неориентированные графические модели, являются обычным представлением этой проблемы. Учитывая неориентированный граф грамм = (VE), набор случайные переменные Икс = (Иксv)v ∈ V проиндексировано V, образуют марковское случайное поле относительно грамм если они удовлетворяют попарному марковскому свойству:

В дискретной модели непрерывные переменные дискретизируются в набор подходящих дискретных значений. Если выбранные переменные двугранные углы, дискретизация обычно выполняется путем сопоставления каждого значения с соответствующим ротамер конформация.

Модель

Позволять Икс = {Иксб, Иксs} - случайные величины, представляющие всю структуру белка. Иксб может быть представлен набором 3-х мерных координат позвоночник атомов, или, что эквивалентно, последовательностью длина облигаций и двугранные углы. Вероятность конкретного конформация Икс тогда можно записать как:

куда представляет любые параметры, используемые для описания этой модели, включая информацию о последовательности, температуру и т. д. Часто предполагается, что основная цепь является жесткой с известной конформацией, и затем проблема преобразуется в проблему размещения боковой цепи. Структура графа также закодирована в . Эта структура показывает, какие две переменные являются условно независимыми. Например, углы боковых цепей двух далеко друг от друга остатков могут быть независимыми с учетом всех других углов в белке. Чтобы выделить эту структуру, исследователи используют порог расстояния, и только пара остатков, которые находятся в пределах этого порога, считаются связанными (то есть имеют край между ними).

Учитывая это представление, вероятность конкретной конформации боковой цепи Иксs учитывая строение позвоночника Иксб можно выразить как

куда C(грамм) - множество всех клик в грамм, это потенциальная функция определены над переменными, и Z это функция распределения.

Чтобы полностью охарактеризовать MRF, необходимо определить потенциальную функцию . Для упрощения клики графа обычно ограничиваются только кликами размера 2, что означает, что потенциальная функция определяется только над парами переменных. В Система гоблинов, эти попарные функции определяются как

куда - энергия взаимодействия ротамерного состояния p остатка и состояние ротамера q остатка и это Постоянная Больцмана.

Используя файл PDB, эта модель может быть построена на структуре белка. С помощью этой модели можно рассчитать свободную энергию.

Расчет свободной энергии: распространение веры

Было показано, что свободная энергия системы рассчитывается как

где E - энтальпия системы, T - температура, а S - энтропия. Теперь, если мы свяжем вероятность с каждым состоянием системы (p (x) для каждого значения конформации, x), G можно переписать как

Вычисление p (x) на дискретных графах выполняется с помощью распространение общих убеждений алгоритм. Этот алгоритм вычисляет приближение к вероятностям, и не гарантируется схождение к окончательному набору значений. Однако на практике было показано, что во многих случаях она успешно сходится.

Непрерывные графические модели для белковых структур

Графические модели все еще можно использовать, когда выбираемые переменные являются непрерывными. В этих случаях распределение вероятностей представляется в виде многомерное распределение вероятностей над непрерывными переменными. Каждое семейство распределения затем налагает определенные свойства на графическую модель. Многомерное гауссовское распределение один из самых удобных распределений в этой задаче. Простая форма вероятности и прямая связь с соответствующей графической моделью делают ее популярным выбором среди исследователей.

Гауссовские графические модели белковых структур

Гауссовские графические модели - это многомерные распределения вероятностей, кодирующие сеть зависимостей между переменными. Позволять быть набором переменные, такие как двугранные углы, и разреши быть ценностью функция плотности вероятности по особой цене D. Многомерная гауссовская графическая модель определяет эту вероятность следующим образом:

Где это закрытая форма для функция распределения. Параметры этого распределения: и . вектор значения величин каждой переменной и , обратное ковариационная матрица, также известный как матрица точности. Матрица точности содержит попарные зависимости между переменными. Нулевое значение в означает, что обусловленные значениями других переменных, две соответствующие переменные не зависят друг от друга.

Чтобы изучить структуру графа как многомерную гауссовскую графическую модель, мы можем использовать либо L-1 регуляризация, или же выбор района алгоритмы. Эти алгоритмы одновременно изучают структуру графа и силу ребер связанных узлов. Сила края соответствует потенциальной функции, определенной на соответствующем двухузловом клика. Мы используем обучающий набор из ряда структур PDB для изучения и .

После изучения модели мы можем повторить тот же шаг, что и в дискретном случае, чтобы получить функции плотности в каждом узле, и использовать аналитическую форму для вычисления свободной энергии. Здесь функция распределения уже есть закрытая форма, Итак вывод, по крайней мере, для гауссовских графических моделей тривиально. Если аналитическая форма статистической суммы недоступна, фильтрация частиц или же распространение ожидания можно использовать для приближения Z, а затем выполните вывод и вычислите свободную энергию.

Рекомендации

  • Неориентированные графы, изменяющиеся во времени, Шухэн Чжоу, Джон Д. Лафферти и Ларри А. Вассерман, COLT 2008
  • Оценки свободной энергии полностью атомных белковых структур с использованием обобщенного распространения веры, Hetunandan Kamisetty, Eric P. Xing, Christopher J. Langmead, RECOMB 2008

внешняя ссылка

  • http://www.liebertonline.com/doi/pdf/10.1089/cmb.2007.0131
  • https://web.archive.org/web/20110724225908/http://www.learningtheory.org/colt2008/81-Zhou.pdf
  • Лю И; Карбонелл Дж; Гопалакришнан V (2009). «Условные графические модели для распознавания структурных мотивов белков». J. Comput. Биол. 16 (5): 639–57. Дои:10.1089 / cmb.2008.0176. HDL:1721.1/62177. PMID  19432536.
  • Прогнозирование белковых складок с помощью структурных повторов с использованием модели цепного графа