Метод газового фактора - GOR method - Wikipedia

В Метод газового фактора (сокращение от Гарнье – Осгуторпа – Робсона) - это теория информации -основанный метод для прогноз из второстепенные конструкции в белки.[1] Он был разработан в конце 1970-х годов вскоре после более простого Метод Чоу – Фасмана. Как и Чжоу – Фасман, метод ГФ основан на вероятность параметры, полученные на основе эмпирических исследований известного белка третичные структуры решено Рентгеновская кристаллография. Однако, в отличие от Чжоу – Фасмана, метод газового фактора учитывает не только склонности отдельных людей. аминокислоты для формирования определенных вторичных структур, но также условная возможность аминокислоты, чтобы сформировать вторичную структуру, при условии, что ее ближайшие соседи уже сформировали эту структуру. Таким образом, метод по существу Байесовский в своем анализе.[2]

Метод

Метод GOR анализирует последовательности для прогнозирования альфа-спираль, бета-лист, повернуть, или же случайный катушки вторичная структура в каждом положении на основе окон 17-аминокислотной последовательности. Первоначальное описание метода включало четыре скоринговые матрицы размером 17 × 20, где столбцы соответствуют логарифм оценка, которая отражает вероятность нахождения данной аминокислоты в каждом положении в последовательности из 17 остатков. Четыре матрицы отражают вероятности того, что центральная, девятая аминокислота находится в спиральной, листовой, витой или спиральной конформации. В последующих версиях метода матрица поворотов была исключена из-за высокой вариабельности последовательностей в областях чередования (особенно в таком большом окне). Метод был признан наилучшим, требующим не менее четырех смежных остатков для оценки как альфа-спирали для классификации области как спиральной и не менее двух смежных остатков для бета-листа.[3]

Алгоритм

Математика и алгоритм метода газового фактора были основаны на более ранней серии исследований Робсона и его коллег, представленных в основном в Журнал молекулярной биологии и Биохимический журнал.[4][5] Последний описывает теоретико-информационные разложения в терминах условных информационных мер. Использование слова «простой» в названии статьи GOR отразило тот факт, что вышеупомянутые более ранние методы предоставили доказательства и методы, несколько устрашающие, будучи довольно незнакомыми в науке о белках в начале 1970-х; даже методы Байеса тогда были незнакомы и вызывали споры. Важной особенностью этих ранних исследований, которые выжили в методе GOR, была обработка разреженных данных о последовательности белков начала 1970-х годов с помощью ожидаемых информационных мер. То есть ожидания на байесовской основе с учетом распределения правдоподобной информации измеряют значения с учетом фактических частот (количества наблюдений). Меры ожидания, полученные в результате интегрирования этого и подобных распределений, теперь можно рассматривать как составленные из «неполных» или расширенных дзета-функций, например z (s, наблюдаемая частота) - z (s, ожидаемая частота) с неполной дзета-функцией z (s, n) = 1 + (1/2)s + (1/3)s+ (1/4)s + …. +(1/п)s. В методе газового фактора используется s = 1. Кроме того, в методе GOR и более ранних методах мера противоположного состояния, например, спираль H, то есть ~ H, была вычтена из спирали для H, и аналогичным образом для бета-листа, витков и катушки или петли. Таким образом, можно рассматривать метод как использующий оценку дзета-функцией логарифмических прогнозных шансов. Можно также применить регулируемую константу решения, что, таким образом, также подразумевает подход теории принятия решений; метод GOR позволил использовать константы решения для оптимизации прогнозов для различных классов белков. Ожидаемая информационная мера, используемая в качестве основы для расширения информации, была менее важна к моменту публикации метода GOR, потому что данных о последовательности белков стало больше, по крайней мере, для терминов, рассматриваемых в то время. Затем для s = 1 выражение z (s, наблюдаемая частота) - z (s, ожидаемая частота) приближается к натуральному логарифму (наблюдаемая частота / ожидаемая частота) по мере увеличения частот. Однако эта мера (включая использование других значений s) остается важной в более поздних более общих приложениях с многомерными данными, где данные для более сложных терминов в расширении информации неизбежно являются разреженными.[6]

Смотрите также

Рекомендации

  1. ^ Garnier, J .; Gibrat, J. F .; Робсон, Б. (1996). «Метод GOR для предсказания вторичной структуры белка по аминокислотной последовательности». Методы Энзимол. 266: 540–53. Дои:10.1016 / S0076-6879 (96) 66034-0.
  2. ^ Garnier, J .; Осгуторп, Д. Дж .; Робсон, Б. (1978). «Анализ точности и последствий простых методов для предсказания вторичной структуры глобулярных белков». Дж Мол Биол. 120: 97–120. Дои:10.1016/0022-2836(78)90297-8.
  3. ^ Маунт, Д. М. (2004). Биоинформатика: анализ последовательности и генома. 2. Лабораторный пресс Колд-Спринг-Харбор. ISBN  0-87969-712-1.
  4. ^ Робсон, Б .; Пейн, Р. Х. (1971). «Анализ кода, связанного с последовательностью конформации в глобулярных белках: возможные последствия для механизма образования спиральных областей». J. Mol. Биол. 58: 237–256. Дои:10.1016/0022-2836(78)90297-8.
  5. ^ Робсон, Б. (1974). «Анализ кода, связанного с последовательностью конформации в глобулярных белках: теория и применение ожидаемой информации». Биохимический журнал. 141 (3): 853–867. Дои:10.1042 / bj1410853.
  6. ^ например Робсон, Б. (2005). «Анализ клинических и фармакогеномных данных: 3. Зета-теория как общая тактика клинической биоинформатики». J. Proteome Res. Являюсь. Chem. Soc. 4 (2): 445–455. Дои:10.1021 / pr049800p.