Графические модели структуры белка - Graphical models for protein structure

Графические модели стали мощной основой для предсказание структуры белка, белок-белковое взаимодействие, и свободная энергия расчеты белковых структур. Использование графической модели для представления структуры белка позволяет решить многие проблемы, включая предсказание вторичной структуры, взаимодействия белок-белок, взаимодействие белок-лекарство и расчеты свободной энергии.

Существует два основных подхода к использованию графических моделей при моделировании структуры белков. Первый подход использует дискретный переменные для представления координат или двугранные углы структуры белка. Изначально все переменные представляют собой непрерывные значения, и для преобразования их в дискретные значения обычно применяется процесс дискретизации. Второй подход использует непрерывные переменные для координат или двугранных углов.

Дискретные графические модели структуры белка

Марковские случайные поля, также известные как неориентированные графические модели, являются обычным представлением этой проблемы. Учитывая неориентированный граф грамм = (V, E), набор случайные переменные Икс = (Икс_v)_v ∈ V проиндексировано V, образуют марковское случайное поле относительно грамм если они удовлетворяют попарному марковскому свойству:

любые две несмежные переменные условно независимый учитывая все остальные переменные:

{ displaystyle X_ {u} perp ! ! ! perp X_ {v} | X_ {V setminus {u, v }} quad { text {if}} {u, v } notin E.}

В дискретной модели непрерывные переменные дискретизируются в набор подходящих дискретных значений. Если выбранные переменные двугранные углы, дискретизация обычно выполняется путем сопоставления каждого значения с соответствующим ротамер конформация.

Модель

Позволять Икс = {Икс_б, Икс_s} - случайные величины, представляющие всю структуру белка. Икс_б может быть представлен набором 3-х мерных координат позвоночник атомов, или, что эквивалентно, последовательностью длина облигаций и двугранные углы. Вероятность конкретного конформация Икс тогда можно записать как:

{ Displaystyle p (X = x | Theta) = p (X_ {b} = x_ {b}) p (X_ {s} = x_ {s} | X_ {b}, Theta), ,}

куда ${ displaystyle Theta}$ представляет любые параметры, используемые для описания этой модели, включая информацию о последовательности, температуру и т. д. Часто предполагается, что основная цепь является жесткой с известной конформацией, и затем проблема преобразуется в проблему размещения боковой цепи. Структура графа также закодирована в ${ displaystyle Theta}$ . Эта структура показывает, какие две переменные являются условно независимыми. Например, углы боковых цепей двух далеко друг от друга остатков могут быть независимыми с учетом всех других углов в белке. Чтобы выделить эту структуру, исследователи используют порог расстояния, и только пара остатков, которые находятся в пределах этого порога, считаются связанными (то есть имеют край между ними).

Учитывая это представление, вероятность конкретной конформации боковой цепи Икс_s учитывая строение позвоночника Икс_б можно выразить как

{ Displaystyle p (X_ {s} = x_ {s} | X_ {b} = x_ {b}) = { frac {1} {Z}} prod _ {c in C (G)} Phi _ {c} (x_ {s} ^ {c}, x_ {b} ^ {c})}

куда C(грамм) - множество всех клик в грамм, ${ displaystyle Phi}$ это потенциальная функция определены над переменными, и Z это функция распределения.

Чтобы полностью охарактеризовать MRF, необходимо определить потенциальную функцию ${ displaystyle Phi}$ . Для упрощения клики графа обычно ограничиваются только кликами размера 2, что означает, что потенциальная функция определяется только над парами переменных. В Система гоблинов, эти попарные функции определяются как

{ displaystyle Phi (x_ {s} ^ {i_ {p}}, x_ {b} ^ {j_ {q}}) = exp (-E (x_ {s} ^ {i_ {p}}, x_ {b} ^ {j_ {q}}) / K_ {B} T)}

куда ${ Displaystyle E (x_ {s} ^ {i_ {p}}, x_ {b} ^ {j_ {q}})}$ - энергия взаимодействия ротамерного состояния p остатка ${ displaystyle X_ {i} ^ {s}}$ и состояние ротамера q остатка ${ Displaystyle X_ {j} ^ {s}}$ и ${ displaystyle k_ {B}}$ это Постоянная Больцмана.

Используя файл PDB, эта модель может быть построена на структуре белка. С помощью этой модели можно рассчитать свободную энергию.

Расчет свободной энергии: распространение веры

Было показано, что свободная энергия системы рассчитывается как

{ Displaystyle G = E-TS}

где E - энтальпия системы, T - температура, а S - энтропия. Теперь, если мы свяжем вероятность с каждым состоянием системы (p (x) для каждого значения конформации, x), G можно переписать как

{ Displaystyle G = сумма _ {х} п (х) Е (х) -T сумма _ {х} р (х) ln (р (х)) ,}

Вычисление p (x) на дискретных графах выполняется с помощью распространение общих убеждений алгоритм. Этот алгоритм вычисляет приближение к вероятностям, и не гарантируется схождение к окончательному набору значений. Однако на практике было показано, что во многих случаях она успешно сходится.

Непрерывные графические модели для белковых структур

Графические модели все еще можно использовать, когда выбираемые переменные являются непрерывными. В этих случаях распределение вероятностей представляется в виде многомерное распределение вероятностей над непрерывными переменными. Каждое семейство распределения затем налагает определенные свойства на графическую модель. Многомерное гауссовское распределение один из самых удобных распределений в этой задаче. Простая форма вероятности и прямая связь с соответствующей графической моделью делают ее популярным выбором среди исследователей.

Гауссовские графические модели белковых структур

Гауссовские графические модели - это многомерные распределения вероятностей, кодирующие сеть зависимостей между переменными. Позволять ${ displaystyle Theta = [ theta _ {1}, theta _ {2}, dots, theta _ {n}]}$ быть набором ${ displaystyle n}$ переменные, такие как ${ displaystyle n}$ двугранные углы, и разреши ${ Displaystyle е ( Theta = D)}$ быть ценностью функция плотности вероятности по особой цене D. Многомерная гауссовская графическая модель определяет эту вероятность следующим образом:

{ Displaystyle е ( Theta = D) = { frac {1} {Z}} exp left {- { frac {1} {2}} (D- mu) ^ {T} Sigma ^ {- 1} (D- mu) right }}

Где ${ Displaystyle Z = (2 pi) ^ {п / 2} | Sigma | ^ {1/2}}$ это закрытая форма для функция распределения. Параметры этого распределения: ${ displaystyle mu}$ и ${ displaystyle Sigma}$ . ${ displaystyle mu}$ вектор значения величин каждой переменной и ${ displaystyle Sigma ^ {- 1}}$ , обратное ковариационная матрица, также известный как матрица точности. Матрица точности содержит попарные зависимости между переменными. Нулевое значение в ${ displaystyle Sigma ^ {- 1}}$ означает, что обусловленные значениями других переменных, две соответствующие переменные не зависят друг от друга.

Чтобы изучить структуру графа как многомерную гауссовскую графическую модель, мы можем использовать либо L-1 регуляризация, или же выбор района алгоритмы. Эти алгоритмы одновременно изучают структуру графа и силу ребер связанных узлов. Сила края соответствует потенциальной функции, определенной на соответствующем двухузловом клика. Мы используем обучающий набор из ряда структур PDB для изучения ${ displaystyle mu}$ и ${ displaystyle Sigma ^ {- 1}}$ .

После изучения модели мы можем повторить тот же шаг, что и в дискретном случае, чтобы получить функции плотности в каждом узле, и использовать аналитическую форму для вычисления свободной энергии. Здесь функция распределения уже есть закрытая форма, Итак вывод, по крайней мере, для гауссовских графических моделей тривиально. Если аналитическая форма статистической суммы недоступна, фильтрация частиц или же распространение ожидания можно использовать для приближения Z, а затем выполните вывод и вычислите свободную энергию.

внешняя ссылка

http://www.liebertonline.com/doi/pdf/10.1089/cmb.2007.0131
https://web.archive.org/web/20110724225908/http://www.learningtheory.org/colt2008/81-Zhou.pdf
Лю И; Карбонелл Дж; Гопалакришнан V (2009). «Условные графические модели для распознавания структурных мотивов белков». J. Comput. Биол. 16 (5): 639–57. Дои:10.1089 / cmb.2008.0176. HDL:1721.1/62177. PMID 19432536.
Прогнозирование белковых складок с помощью структурных повторов с использованием модели цепного графа