Тупиковое устранение - Dead-end elimination

В тупиковое устранение алгоритм (DEE) это метод для сведение к минимуму функция над дискретным набором независимых переменных. Основная идея состоит в том, чтобы определить «тупики», то есть комбинации переменных, которые не являются необходимыми для определения глобального минимума, потому что всегда есть способ заменить такую ​​комбинацию лучшей или эквивалентной. Тогда мы сможем воздержаться от дальнейшего поиска таких комбинаций. Следовательно, устранение тупика является зеркальным отражением динамическое программирование, в котором выявляются и исследуются "хорошие" комбинации. Хотя сам метод является общим, он был разработан и применялся в основном для решения проблем предсказание и проектирование структуры белки. Это тесно связано с идеей доминирования в оптимизации, также известной как замещаемость в Проблема удовлетворения ограничений. Оригинальное описание и доказательство теоремы об исключении тупика можно найти в [1].

Базовые требования

Для эффективной реализации DEE требуется четыре части информации:

  1. Хорошо определенный конечный набор дискретных независимых переменных
  2. Предварительно вычисленное числовое значение (считающееся «энергией»), связанное с каждым элементом в наборе переменных (и, возможно, с их парами, тройками и т. Д.)
  3. Критерий или критерии для определения, когда элемент находится в "тупике", то есть когда он не может быть членом набора решений.
  4. An целевая функция (считается «энергетической функцией») минимизируется

Обратите внимание, что критерии можно легко поменять местами, чтобы определить максимум заданной функции.

Приложения для предсказания структуры белков

Устранение тупика эффективно используется для прогнозирования структуры боковых цепей на заданном структура белкового остова путем минимизации энергетической функции . В двугранный угол пространство поиска боковых цепей ограничено дискретным набором ротамеры для каждого аминокислота положение в белке (которое, очевидно, имеет фиксированную длину). Первоначальное описание DEE включало критерии исключения одиночных ротамеров и пар ротамеров, хотя это можно расширить.

В следующем обсуждении пусть быть длиной белка и пусть представляют собой ротамер боковая цепь. Поскольку предполагается, что атомы в белках взаимодействуют только двухчастичными потенциалы, можно записать энергию

Где представляет собой «собственную энергию» конкретного ротамера , и представляет «парную энергию» ротамеров .

Также обратите внимание, что (то есть энергия пары между ротамером и самим собой) принимается равной нулю и, таким образом, не влияет на суммирование. Это обозначение упрощает описание критерия пар ниже.

Критерий исключения одиночных игр

Если конкретный ротамер боковой цепи не может дать энергии лучше, чем другой ротамер того же сайдчейна, то ротамер A можно исключить из дальнейшего рассмотрения, что сокращает пространство поиска. Математически это условие выражается неравенством

куда это минимальная (лучшая) энергия, возможная между ротамерами боковой цепи и любой ротамер X боковой цепи . По аналогии, это максимальная (наихудшая) энергия, возможная между ротамерами боковой цепи и любой ротамер X боковой цепи .

Критерий исключения пар

Критерий пар труднее описать и реализовать, но он добавляет значительную исключающую способность. Для краткости определим сокращенную переменную это внутренний энергия пары ротамеров и на позициях и , соответственно

Данная пара ротамеров и на позициях и соответственно не может обе быть в окончательном решении (хотя может быть одно или другое), если есть другая пара и это всегда дает лучшую энергию. Выражаясь математически,

куда , и .

Матрицы энергии

Для больших , хранение матриц предварительно вычисленных энергий может стать дорогостоящим. Позволять - количество позиций аминокислот, как указано выше, и пусть - количество ротамеров в каждой позиции (обычно, но не обязательно, постоянно для всех позиций). Каждая матрица собственной энергии для данной позиции требует записей, поэтому общее количество хранимых собственных энергий составляет . Каждый матрица энергии пары между двумя положениями и , за дискретных ротамеров в каждой позиции, требуется матрица. Это делает общее количество записей в матрице нередуцированной пары . Это можно несколько урезать за счет дополнительной сложности в реализации, поскольку энергии пар симметричны, а энергия пары между ротамером и им самим равна нулю.

Реализация и эффективность

Вышеупомянутые два критерия обычно применяются итеративно до сходимости, определяемой как точка, в которой больше невозможно удалить ротамеры или пары. Поскольку обычно это сокращение пространства выборки на много порядков, простого перечисления будет достаточно для определения минимума в этом сокращенном наборе.

Учитывая эту модель, ясно, что алгоритм DEE гарантированно найдет оптимальное решение; то есть это глобальная оптимизация процесс. Поисковые весы с одним ротамером квадратично вовремя с общий количество ротамеров. Поиск пар масштабируется кубическим образом и является самой медленной частью алгоритма (за исключением расчетов энергии). Это резкое улучшение по сравнению с перебором, который масштабируется как .

Масштабный ориентир ДЭЭ по сравнению с альтернативными методами предсказание структуры белка и дизайн обнаружил, что DEE надежно сходится к оптимальному решению для длин белка, для которого он работает за разумное количество времени.[2]. Он значительно превосходит рассматриваемые альтернативы, в которых используются методы, полученные из теория среднего поля, генетические алгоритмы, а Метод Монте-Карло. Однако другие алгоритмы значительно быстрее, чем DEE, и поэтому могут применяться к более крупным и более сложным задачам; их относительная точность может быть экстраполирована из сравнения с решением DEE в рамках задач, доступных для DEE.

Белковый дизайн

В предыдущем обсуждении неявно предполагалось, что ротамеры представляют собой разные ориентации одной и той же боковой цепи аминокислоты. То есть предполагалось, что последовательность белка зафиксирована. Также возможно позволить нескольким боковым цепям «соревноваться» за позицию. включив оба типа боковых цепей в набор ротамеров для этой позиции. Это позволяет сконструировать новую последовательность на основе данного белкового остова. Короткое цинковый палец белковая складка была переработана таким образом[3]. Однако это значительно увеличивает количество ротамеров на позицию и по-прежнему требует фиксированной длины белка.

Обобщения

Были введены более мощные и более общие критерии, которые улучшают как эффективность, так и устраняющую способность метода как для прогнозирования, так и для приложений проектирования. Одним из примеров является уточнение критерия исключения одиночных игр, известного как критерий Гольдштейна.[4], который возникает в результате довольно простых алгебраических манипуляций перед применением минимизации:

Таким образом, ротамер можно исключить, если какой-либо альтернативный ротамер из набора вносит меньший вклад в общую энергию, чем . Это улучшение по сравнению с исходным критерием, который требует сравнения наилучшего возможного (то есть наименьшего) энергетического вклада от с наихудший возможен вклад альтернативного ротамера.

Подробное обсуждение сложных критериев DEE и эталон их относительной производительности можно найти в [5].

Рекомендации

  1. ^ Десмет Дж., Де Мейер М., Хейз Б., Ластерс И. (1992). Теорема об исключении тупика и ее использование в позиционировании боковых цепей белка. Природа, 356, 539-542. PMID  21488406.
  2. ^ Voigt CA, Gordon DB, Mayo SL. (2000). Торговля точностью ради скорости: количественное сравнение алгоритмов поиска при разработке последовательности белков. Дж Мол Биол 299(3):789-803.
  3. ^ Дахият Б.И., Майо С.Л. (1997). Дизайн белков de novo: полностью автоматический выбор последовательности. Наука 278(5335):82-7.
  4. ^ Гольдштейн РФ. (1994). Эффективное удаление ротамера применительно к боковым цепям белка и связанным с ними спиновым стеклам. Biophys J 66(5):1335-40.
  5. ^ Пирс Н.А., Сприт Дж. А., Десмет Дж., Мэйо С.Л. (2000). Конформационное расщепление: более мощный критерий устранения тупика. J Comput Chem 21: 999-1009.