Выраженный тег последовательности - Expressed sequence tag

В генетика, выраженный тег последовательности (стандартное восточное время) является короткой подпоследовательностью кДНК последовательность.[1] EST могут использоваться для идентификации гена стенограммы, и играют важную роль в открытии генов и определении последовательности генов.[2] Идентификация EST прошла быстро, примерно 74,2 миллиона EST теперь доступны в общедоступных базах данных (например, GenBank 1 января 2013 г., все виды).

Результат EST от однократного последовательность действий из клонированный кДНК. КДНК, используемые для генерации EST, обычно представляют собой отдельные клоны из библиотека кДНК. Результирующая последовательность представляет собой фрагмент относительно низкого качества, длина которого ограничена современной технологией примерно от 500 до 800 нуклеотиды. Поскольку эти клоны состоят из ДНК, комплементарной мРНК, EST представляют собой части экспрессируемых генов. Они могут быть представлены в базах данных либо как последовательность кДНК / мРНК, либо как обратный комплемент мРНК, шаблон прядь.

Можно сопоставить EST с определенными местоположениями хромосом, используя физическое отображение методы, такие как радиационное гибридное картирование, Счастливое отображение, или же РЫБЫ. В качестве альтернативы, если геном организма, который является источником EST, секвенирован, можно выровнять последовательность EST с этим геномом с помощью компьютера.

Текущее понимание человеческий набор генов (по состоянию на 2006 г.) включает существование тысяч генов, основанных исключительно на доказательствах EST. В этом отношении EST стали инструментом для уточнения предсказанных транскриптов для этих генов, что приводит к предсказанию их белковых продуктов и, в конечном итоге, их функции. Более того, ситуация, в которой получены эти EST (ткань, орган, болезненное состояние - например, рак ) дает информацию об условиях, в которых действует соответствующий ген. EST содержат достаточно информации, чтобы можно было разработать точные датчики для ДНК-микрочипы что затем может быть использовано для определения экспрессия гена профили.

Некоторые авторы используют термин «EST» для описания генов, для которых существует мало или совсем нет дополнительной информации, кроме метки.[3]

История

В 1979 году команды из Гарварда и Калифорнийского технологического института расширили основную идею создания ДНК-копий мРНК in vitro на амплификацию их библиотеки в бактериальных плазмидах.[4]

В 1982 году идея выбора случайных или полуслучайных клонов из такой библиотеки кДНК для секвенирования была исследована Грегом Сатклиффом и его сотрудниками.[5]

В 1983 году Патни и др. секвенировали 178 клонов из библиотеки кДНК мышц кролика.[6]

В 1991 году Адамс и его сотрудники придумали термин EST и инициировали более систематическое секвенирование в качестве проекта (начиная с 600 кДНК мозга).[2]

Источники данных и аннотации

dbEST

DbEST - это подразделение Genbank, созданное в 1992 году. GenBank данные в dbEST предоставляются лабораториями по всему миру напрямую и не курируются.

EST контиги

Из-за способа секвенирования EST многие отдельные теги экспрессируемых последовательностей часто являются частичными последовательностями, которые соответствуют одной и той же мРНК организма. В попытке уменьшить количество тегов экспрессированной последовательности для последующих анализов обнаружения генов, несколько групп собрали теги экспрессированной последовательности в EST. контиги. Примеры ресурсов, которые предоставляют контиги EST, включают: индексы генов TIGR,[7] Unigene,[8] и СТЕК [9]

Создание контигов EST нетривиально и может давать артефакты (контиги, содержащие два различных генных продукта). Когда доступна полная последовательность генома организма и транскрипты аннотированы, можно обойти сборку контигов и напрямую сопоставить транскрипты с EST. Этот подход используется в системе TissueInfo (см. Ниже) и позволяет легко связывать аннотации в геномной базе данных с информацией о тканях, предоставляемой данными EST.

Информация о тканях

При высокопроизводительном анализе EST часто возникают аналогичные проблемы с управлением данными. Первая проблема заключается в том, что тканевое происхождение библиотек EST описано простым английским языком в dbEST.[10] Это затрудняет написание программ, которые могут однозначно определить, что две библиотеки EST были секвенированы из одной и той же ткани. Точно так же болезненные состояния ткани не аннотируются удобным для вычислений способом. Например, происхождение рака в библиотеке часто смешивают с названием ткани (например, с названием ткани "глиобластома "означает, что библиотека EST была секвенирована из ткани мозга и заболевание представляет собой рак).[11] За заметным исключением рака, болезненное состояние часто не регистрируется в записях dbEST. Проект TissueInfo был начат в 2000 году, чтобы помочь в решении этих проблем. Проект предоставляет тщательно отобранные данные (обновляемые ежедневно) для устранения неоднозначности происхождения ткани и болезненного состояния (рак / отсутствие рака), предлагает онтологию тканей, которая связывает ткани и органы с помощью отношений «является частью» (т.е. формализует знания о том, что гипоталамус является частью мозга. , и этот мозг является частью центральной нервной системы) и распространяет программное обеспечение с открытым исходным кодом для связывания аннотаций транскриптов из секвенированных геномов с профилями экспрессии тканей, рассчитанными с данными в dbEST.[12]

Смотрите также

Рекомендации

  1. ^ Информационный бюллетень ESTs. Национальный центр биотехнологической информации.
  2. ^ а б Adams MD, Kelley JM, Gocayne JD, et al. (Июнь 1991 г.). «Комплементарное секвенирование ДНК: метки экспрессированной последовательности и проект генома человека». Наука. 252 (5013): 1651–6. Дои:10.1126 / science.2047873. PMID  2047873. S2CID  13436211.
  3. ^ dbEST
  4. ^ Сим Г.К., Кафатос ФК, Джонс К.В., Келер, доктор медицины, Эфстратиадис А., Маниатис Т. (декабрь 1979 г.). «Использование библиотеки кДНК для изучения эволюции и развития экспрессии мультигенных семейств хориона». Клетка. 18 (4): 1303–16. Дои:10.1016/0092-8674(79)90241-1. PMID  519770.
  5. ^ Сатклифф Дж. Г., Милнер Р. Дж., Блум Ф. Е., Лернер Р. А. (август 1982 г.). «Общая 82-нуклеотидная последовательность, уникальная для РНК мозга». Proc Natl Acad Sci U S A. 79 (16): 4942–6. Дои:10.1073 / пнас.79.16.4942. ЧВК  346801. PMID  6956902.
  6. ^ Патни С.Д., Херлихи В.К., Шиммель П. (1983). «Новые клоны тропонина Т и кДНК для 13 различных мышечных белков, обнаруженные путем секвенирования дробовика». Природа. 302 (5910): 718–21. Дои:10.1038 / 302718a0. PMID  6687628. S2CID  4364361.
  7. ^ Ли Й, Цай Дж, Сункара С. и др. (Январь 2005 г.). «Индексы генов TIGR: кластеризация и сборка EST и известных генов и интеграция с геномами эукариот». Нуклеиновые кислоты Res. 33 (Выпуск базы данных): D71–4. Дои:10.1093 / nar / gki064. ЧВК  540018. PMID  15608288.
  8. ^ Стэнтон Дж. А., Макгрегор А. Б., Грин Д. П. (2003). «Идентификация тканевой экспрессии гена в тканях мышей с использованием базы данных NIH UniGene». Приложение Биоинформ. 2 (3 Дополнение): S65–73. PMID  15130819.
  9. ^ Кристоффельс А., ван Гелдер А., Грейлинг Дж., Миллер Р., Хиде Т, Хайд В. (январь 2001 г.). "СТЕК: база знаний о согласовании тегов последовательностей и согласовании". Нуклеиновые кислоты Res. 29 (1): 234–8. Дои:10.1093 / nar / 29.1.234. ЧВК  29830. PMID  11125101.
  10. ^ Skrabanek L, Campagne F (ноябрь 2001 г.). «TissueInfo: высокопроизводительная идентификация профилей тканевой экспрессии и специфичности». Нуклеиновые кислоты Res. 29 (21): E102–2. Дои:10.1093 / nar / 29.21.e102. ЧВК  60201. PMID  11691939.
  11. ^ Campagne F, Skrabanek L (2006). «Анализ тегов экспрессируемой последовательности позволяет выявить маркеры рака, представляющие клинический интерес». BMC Bioinformatics. 7: 481. Дои:10.1186/1471-2105-7-481. ЧВК  1635568. PMID  17078886.
  12. ^ : институт вычислительной биомедицины :: TissueInfo В архиве 4 июня 2008 г. Wayback Machine

внешняя ссылка

Информация о тканях