Сайт связывания ДНК - DNA binding site

Сайты связывания ДНК являются разновидностью сайт привязки нашел в ДНК где могут связываться другие молекулы. Сайты связывания ДНК отличаются от других сайтов связывания тем, что (1) они являются частью последовательности ДНК (например, генома) и (2) они связаны ДНК-связывающие белки. Сайты связывания ДНК часто связаны со специализированными белками, известными как факторы транскрипции, и поэтому связаны с транскрипционная регуляция. Сумма сайтов связывания ДНК конкретного фактора транскрипции называется его цистром. Сайты связывания ДНК также охватывают мишени других белков, таких как рестрикционные ферменты, сайт-специфические рекомбиназы (см. сайт-специфическая рекомбинация ) и метилтрансферазы.^[1]

Таким образом, сайты связывания ДНК можно определить как короткие последовательности ДНК (обычно длиной от 4 до 30 пар оснований, но до 200 пар оснований для сайтов рекомбинации), которые специфически связываются одним или несколькими ДНК-связывающие белки или белковые комплексы. Сообщалось, что некоторые сайты связывания потенциально могут претерпевать быстрые эволюционные изменения.^[2]

Типы сайтов связывания ДНК

Сайты связывания ДНК можно разделить на категории в соответствии с их биологической функцией. Таким образом, мы можем различать сайты связывания факторов транскрипции, сайты рестрикции и сайты рекомбинации. Некоторые авторы предложили, чтобы сайты связывания также можно было классифицировать в соответствии с их наиболее удобным способом представления.^[3] С одной стороны, сайты рестрикции обычно могут быть представлены консенсусными последовательностями. Это потому, что они нацелены в основном на идентичные последовательности, а эффективность рестрикции резко снижается для менее похожих последовательностей. С другой стороны, сайты связывания ДНК для данного фактора транскрипции обычно все разные, с разной степенью сродства фактора транскрипции к различным сайтам связывания. Это затрудняет точное представление сайтов связывания факторов транскрипции с использованием консенсусные последовательности, и они обычно представляются с использованием частотных матриц, специфичных для положения (PSFM), которые часто графически изображаются с использованием последовательность логотипов. Однако этот аргумент отчасти произвольный. Ферменты рестрикции, такие как факторы транскрипции, дают постепенный, хотя и резкий, диапазон аффинности для разных сайтов. ^[4] и поэтому лучше всего представлены PSFM. Точно так же сайт-специфические рекомбиназы также демонстрируют различный диапазон аффинности к различным сайтам-мишеням.^[5]^[6]

История и основные экспериментальные методики

Существование чего-то похожего на сайты связывания ДНК подозревалось в экспериментах по биологии бактериофаг лямбда ^[7] и регуляция кишечной палочки лак оперон.^[8] Сайты связывания ДНК были окончательно подтверждены в обеих системах. ^[9]^[10]^[11] с появлением Секвенирование ДНК техники. С тех пор сайты связывания ДНК для многих факторов транскрипции, рестрикционных ферментов и сайт-специфических рекомбиназ были открыты с использованием множества экспериментальных методов. Исторически сложилось так, что экспериментальные методы обнаружения и анализа сайтов связывания ДНК были Анализ следа ДНКазы и Анализ сдвига электрофоретической подвижности (EMSA). Однако развитие ДНК-микрочипы и быстрые методы секвенирования привели к новым, массово-параллельным методам идентификации сайтов связывания in vivo, таких как ЧИП-чип и ChIP-Seq.^[12] Для количественной оценки сродства связывания^[13] белков и других молекул к специфическим участкам связывания ДНК биофизическим методом Микромасштабный термофорез^[14] используется.

Базы данных

Из-за разнообразия экспериментальных методик, используемых для определения сайтов связывания, а также из-за неоднородного покрытия большинства организмов и факторов транскрипции, не существует центральной базы данных (по аналогии с GenBank на Национальный центр биотехнологической информации ) для сайтов связывания ДНК. Несмотря на то, что NCBI предполагает аннотацию сайта связывания ДНК в своих контрольных последовательностях (RefSeq ), в большинстве материалов эта информация отсутствует. Более того, из-за ограниченного успеха биоинформатики в создании эффективных инструментов прогнозирования сайтов связывания ДНК (большие ложный положительный результат часто связаны с методами обнаружения мотивов in-silico / поиска по сайту), не было никаких систематических усилий по компьютерной аннотации этих особенностей в секвенированных геномах.

Однако существует несколько частных и общедоступных баз данных, посвященных компиляции экспериментально зарегистрированных, а иногда и предсказанных с помощью вычислений сайтов связывания для разных факторов транскрипции у разных организмов. Ниже представлена неисчерпывающая таблица доступных баз данных:

Имя	Организмы	Источник	Доступ	URL
PlantRegMap	165 видов растений (например, Arabidopsis thaliana, Oryza sativa, Zea mays и др.)	Экспертное курирование и проектирование	Общественные	[1]
ДЖАСПАР	Позвоночные, растения, грибы, мухи и черви	Экспертное кураторство с литературной поддержкой	Общественные	[2]
СНГ-ВР	Все эукариоты	Экспериментально полученные мотивы и предсказания	Общественные	[3]
CollecTF	Прокариоты	Литературное руководство	Общественные	[4]
RegPrecise	Прокариоты	Экспертное курирование	Общественные	[5]
RegTransBase	Прокариоты	Эксперт / литература	Общественные	[6]
RegulonDB	кишечная палочка	Экспертное курирование	Общественные	[7]
ПРОДОРИК	Прокариоты	Экспертное курирование	Общественные	[8]
ТРАНСФАК	Млекопитающие	Эксперт / подбор литературы	Общественный / Частный	[9]
TRED	Человек, Мышь, Крыса	Компьютерные прогнозы, ручное управление	Общественные	[10]
DBSD	Виды дрозофилы	Литература / Экспертное кураторство	Общественные	[11]
HOCOMOCO	Человек, Мышь	Литература / Экспертное кураторство	Общественные	[12],[13]
MethMotif	Человек, Мышь	Экспертное курирование	Общественные	[14]

Представление сайтов связывания ДНК

Набор сайтов связывания ДНК, обычно называемых мотивом связывания ДНК, может быть представлен консенсусная последовательность. Это представление имеет то преимущество, что оно компактно, но за счет игнорирования значительного объема информации.^[15] Более точный способ представления сайтов привязки - использование матриц частот, зависящих от положения (PSFM). Эти матрицы дают информацию о частоте каждого основания в каждом положении ДНК-связывающего мотива.^[3] PSFM обычно понимается с неявным предположением о позиционной независимости (разные положения в сайте связывания ДНК вносят независимый вклад в функцию сайта), хотя это предположение оспаривается для некоторых сайтов связывания ДНК.^[16] Информацию о частоте в PSFM можно формально интерпретировать в рамках Теория информации,^[17] приводя к его графическому представлению в виде логотип последовательности.

	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16
А	1	0	1	5	32	5	35	23	34	14	43	13	34	4	52	3
C	50	1	0	1	5	6	0	4	4	13	3	8	17	51	2	0
грамм	0	0	54	15	5	5	12	2	7	1	1	3	1	0	1	52
Т	5	55	1	35	14	40	9	27	11	28	9	32	4	1	1	1
Сумма	56	56	56	56	56	56	56	56	56	56	56	56	56	56	56	56

PSFM для репрессора транскрипции LexA как производные от 56 сайтов связывания LexA, хранящихся в Prodoric. Относительные частоты получаются путем деления количества в каждой ячейке на общее количество (56).

Вычислительный поиск и обнаружение сайтов привязки

В биоинформатика, можно различить две отдельные проблемы, касающиеся сайтов связывания ДНК: поиск дополнительных членов известного ДНК-связывающего мотива (проблема поиска сайта) и обнаружение новых ДНК-связывающих мотивов в коллекциях функционально связанных последовательностей ( мотив последовательности проблема открытия).^[18] Было предложено много разных методов поиска сайтов привязки. Большинство из них полагаются на принципы теории информации и имеют доступные веб-серверы (Yellaboina) (Munch), в то время как другие авторы прибегают к машинное обучение методы, такие как искусственные нейронные сети.^[3]^[19]^[20] Также доступно множество алгоритмов для мотив последовательности открытие. Эти методы основаны на гипотезе о том, что набор последовательностей имеет общий связывающий мотив по функциональным причинам. Методы обнаружения мотивов привязки можно условно разделить на перечислительные, детерминированные и стохастические.^[21] ЦМем ^[22] и консенсус ^[23] являются классическими примерами детерминированной оптимизации, а Сэмплер Гиббса ^[24] представляет собой обычную реализацию чисто стохастического метода обнаружения ДНК-связывающих мотивов. Еще один экземпляр этого класса методов - SeSiMCMC.^[25] который ориентирован на слабые сайты TFBS с симметрией. В то время как методы перечисления часто прибегают регулярное выражение представление сайтов связывания, PSFM и их формальная обработка в рамках методов теории информации являются предпочтительным представлением как для детерминированных, так и для стохастических методов. Гибридные методы, например Бурундук^[26] который сочетает в себе жадную оптимизацию с подвыборкой, также использует PSFM. Недавние достижения в области секвенирования привели к внедрению подходов сравнительной геномики к открытию ДНК-связывающих мотивов, как это продемонстрировано PhyloGibbs.^[27]^[28]

Более сложные методы поиска сайтов связывания и открытия мотивов основаны на укладке оснований и других взаимодействиях между основаниями ДНК, но из-за небольших размеров выборки, обычно доступных для сайтов связывания в ДНК, их эффективность до сих пор не используется полностью. Примером такого инструмента является ULPB^[29]

Смотрите также

внешняя ссылка

ENCODE Thread Explorer Мотивы факторов транскрипции в Природа
Отобранные вручную связывающие мотивы TF для 157 видов растений

[Halford2004-1] Halford E.S; Марко Дж. Ф. (2004). «Как сайт-специфические ДНК-связывающие белки находят свои мишени?». Исследования нуклеиновых кислот. 32 (10): 3040–3052. Дои:10.1093 / нар / гх624. ЧВК 434431. PMID 15178741.

[Borneman2007-2] Borneman, A.R .; Gianoulis, T.A .; Zhang, Z.D .; Yu, H .; Rozowsky, J .; Seringhaus, M.R .; Wang, L.Y .; Герштейн, М. и Снайдер, М. (2007). «Дивергенция сайтов связывания фактора транскрипции у родственных видов дрожжей». Наука. 317 (5839): 815–819. Bibcode:2007Научный ... 317..815B. Дои:10.1126 / наука.1140748. PMID 17690298. S2CID 21535866.

[Stormo2000-3] а ^б ^c Стормо Г.Д. (2000). «Сайты связывания ДНК: представление и открытие». Биоинформатика. 16 (1): 16–23. Дои:10.1093 / биоинформатика / 16.1.16. PMID 10812473.

[Pingoud1997-4] Pingoud A, Jeltsch A (1997). «Распознавание и расщепление ДНК эндонуклеазами рестрикции типа II». Европейский журнал биохимии. 246 (1): 1–22. Дои:10.1111 / j.1432-1033.1997.t01-6-00001.x. PMID 9210460.

[Gyohda2000-5] Гьода А., Комано Т. (2000). «Очистка и характеристика рекомбиназы, специфичной для шаффлона R64». Журнал бактериологии. 182 (10): 2787–2792. Дои:10.1128 / JB.182.10.2787-2792.2000. ЧВК 101987. PMID 10781547.

[Birge2006-6] Бирге, Э.А. (2006). «15: Специфическая рекомбинация». Бактериальная и бактериофаговая генетика (5-е изд.). Springer. С. 463–478. ISBN 978-0-387-23919-4.

[Campbell1963-7] Кэмпбелл А (1963). «Генетика тонкой структуры и ее связь с функцией». Ежегодный обзор микробиологии. 17 (1): 2787–2792. Дои:10.1146 / annurev.mi.17.100163.000405. PMID 14145311.

[autogenerated1-8] Джейкоб Ф, Монод Дж (1961). «Генетические механизмы регуляции синтеза белков». Журнал молекулярной биологии. 3 (3): 318–356. Дои:10.1016 / S0022-2836 (61) 80072-7. PMID 13718526.

[Gilbert1973-9] Гилберт В., Максам А. (1973). «Нуклеотидная последовательность оператора lac». Труды Национальной академии наук Соединенных Штатов Америки. 70 (12): 3581–3584. Bibcode:1973PNAS ... 70.3581G. Дои:10.1073 / pnas.70.12.3581. ЧВК 427284. PMID 4587255.

[Maniatis1974-10] Маниатис Т, Пташне М, Баррелл Б.Г., Донельсон Дж. (1974). «Последовательность сайта связывания репрессора в ДНК бактериофага лямбда». Природа. 250 (465): 394–397. Bibcode:1974Натура 250..394М. Дои:10.1038 / 250394a0. PMID 4854243. S2CID 4204720.

[Nash1975-11] Нэш Х. А. (1975). «Интегративная рекомбинация ДНК бактериофага лямбда in vitro». Труды Национальной академии наук Соединенных Штатов Америки. 72 (3): 1072–1076. Bibcode:1975ПНАС ... 72.1072Н. Дои:10.1073 / pnas.72.3.1072. ЧВК 432468. PMID 1055366.

[Elnitski2006-12] Ельницкий Л., Джин В. X., Фарнхэм П. Дж., Джонс С. Дж. (2006). «Поиск сайтов связывания факторов транскрипции млекопитающих: обзор вычислительных и экспериментальных методов». Геномные исследования. 16 (12): 1455–1464. Дои:10.1101 / гр. 4140006. PMID 17053094.

[Baaske-13] Baaske P, Wienken CJ, Reineck P, Duhr S, Braun D (февраль 2010 г.). «Оптический термофорез количественно определяет зависимость связывания аптамера от буфера». Энгью. Chem. Int. Эд. 49 (12): 2238–41. Дои:10.1002 / anie.200903998. PMID 20186894. S2CID 42489892. Сложить резюме – Phsyorg.com.

[Wienken-14] Винкен CJ; и другие. (2010). «Анализы связывания белков в биологических жидкостях с использованием термофореза на микроуровне». Nature Communications. 1 (7): 100. Bibcode:2010 НатКо ... 1..100 Вт. Дои:10.1038 / ncomms1093. PMID 20981028.

[Schneider2002-15] Шнайдер Т.Д. (2002). «Согласованная последовательность дзэн». Прикладная биоинформатика. 1 (3): 111–119. ЧВК 1852464. PMID 15130839.

[Bulyk2002-16] Булык М.Л .; Джонсон П.Л .; Черч Г.М. (2002). «Нуклеотиды сайтов связывания факторов транскрипции оказывают взаимозависимые эффекты на аффинность связывания факторов транскрипции». Исследования нуклеиновых кислот. 30 (5): 1255–1261. Дои:10.1093 / nar / 30.5.1255. ЧВК 101241. PMID 11861919.

[Schneider1986-17] Шнайдер Т.Д., Стормо Г.Д., Голд Л., Эренфейхт А. (1986). «Информационное наполнение сайтов связывания нуклеотидных последовательностей». Журнал молекулярной биологии. 188 (3): 415–431X. Дои:10.1016/0022-2836(86)90165-8. PMID 3525846.

[Erill2009-18] Эрилл I; О'Нил М.К. (2009). «Пересмотр основанных на теории информации методов идентификации ДНК-связывающих участков». BMC Bioinformatics. 10 (1): 57. Дои:10.1186/1471-2105-10-57. ЧВК 2680408. PMID 19210776.

[Bisant1995-19] Бисант Д., Майзель Дж. (1995). «Идентификация сайтов связывания рибосом в Escherichia coli с использованием моделей нейронных сетей». Исследования нуклеиновых кислот. 23 (9): 1632–1639. Дои:10.1093 / nar / 23.9.1632. ЧВК 306908. PMID 7784221.

[O’Neill1991-20] О'Нил М.К. (1991). «Обучение нейронных сетей обратного распространения для определения и обнаружения участков связывания ДНК». Исследования нуклеиновых кислот. 19 (2): 133–318. Дои:10.1093 / nar / 19.2.313. ЧВК 333596. PMID 2014171.

[Bailey2008-21] Бейли Т.Л. (2008). «Обнаружение мотивов последовательности». Биоинформатика (PDF). Методы молекулярной биологии. Методы молекулярной биологии ™. 452. С. 231–251. Дои:10.1007/978-1-60327-159-2_12. ISBN 978-1-58829-707-5. PMID 18566768.

[Bailey2002-22] Бейли Т.Л. (2002). «Обнаружение новых мотивов последовательности с цМемом». Текущие протоколы в биоинформатике. 2 (4): 2.4.1–2.4.35. Дои:10.1002 / 0471250953.bi0204s00. PMID 18792935. S2CID 205157795.

[Stormo1989-23] Стормо GD, Hartzell GW 3-е место (1989). «Определение сайтов связывания с белками из невыровненных фрагментов ДНК». Труды Национальной академии наук Соединенных Штатов Америки. 86 (4): 1183–1187. Bibcode:1989ПНАС ... 86.1183С. Дои:10.1073 / pnas.86.4.1183. ЧВК 286650. PMID 2919167.

[Lawrence1993-24] Лоуренс CE, Альтшул С.Ф., Богуски М.С., Лю Дж.С., Нойвальд А.Ф., Вуттон Дж.С. (1993). «Обнаружение тонких сигналов последовательности: стратегия выборки Гиббса для множественного выравнивания». Наука. 262 (5131): 208–214. Bibcode:1993Научный ... 262..208Л. Дои:10.1126 / science.8211139. PMID 8211139. S2CID 3040614.

[25] Фаворов, А В; Г-н С. Гельфанд; А.В. Герасимова; Д. А. Равчеев; Миронов А.А. Макеев В.Дж. (15.05.2005). «Пробоотборник Гиббса для идентификации симметрично структурированных, разнесенных мотивов ДНК с улучшенной оценкой длины сигнала». Биоинформатика. 21 (10): 2240–2245. Дои:10.1093 / биоинформатика / bti336. ISSN 1367-4803. PMID 15728117.

[26] Кулаковский, И В; В. А. Боева; А. В. Фаворов; Макеев В.Дж. (24.08.2010). «Глубокий и широкий поиск связывающих мотивов в данных ChIP-Seq». Биоинформатика. 26 (20): 2622–3. Дои:10.1093 / биоинформатика / btq488. ISSN 1367-4811. PMID 20736340.

[Das2007-27] Дас МК, Дай ХК (2007). «Обзор алгоритмов поиска мотивов ДНК». BMC Биоинформатика. 8 (Приложение 7): S21. Дои:10.1186 / 1471-2105-8-S7-S21. ЧВК 2099490. PMID 18047721.

[Siddharthan2005-28] Сиддхартан Р., Сиггиа Э.Д., ван Нимвеген Э. (2005). "PhyloGibbs: программа для поиска мотивов Гиббса, учитывающая филогению". PLOS Comput Biol. 1 (7): e67. Bibcode:2005PLSCB ... 1 ... 67S. Дои:10.1371 / journal.pcbi.0010067. ЧВК 1309704. PMID 16477324.

[Salama2010-29] Салама Р.А., Стекель Д.Д. (2010). «Включение взаимозависимостей соседних оснований существенно улучшает предсказание сайта связывания прокариотического фактора транскрипции по всему геному». Исследования нуклеиновых кислот. 38 (12): e135. Дои:10.1093 / nar / gkq274. ЧВК 2896541. PMID 20439311.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]