Уоррен Гиш - Warren Gish
Уоррен Ричард Гиш | |
---|---|
Национальность | Американец |
Альма-матер | Калифорнийский университет в Беркли |
Известен | ВЗРЫВ |
Научная карьера | |
Поля | Биоинформатика |
Учреждения | Национальный центр биотехнологической информации Вашингтонский университет в Сент-Луисе ООО «Продвинутый Биокомпьютинг» Калифорнийский университет в Беркли |
Тезис | I. Мутанты SV40, выделенные из трансформированных клеток человека. II. Методы анализа последовательностей (1988) |
Докторант | Майкл Ботчан[1] |
Уоррен Ричард Гиш является владельцем ООО «Продвинутый Биокомпьютинг». Он присоединился Вашингтонский университет в Сент-Луисе в 1994 г. работал младшим преподавателем, а с 2002 по 2007 гг. был доцентом-исследователем генетики.[2][3]
Образование
Изначально изучив физику, Гиш получил А.Б. степень в области Биохимия из Калифорнийский университет в Беркли, и закончил работу для своего Кандидат наук. степень в области Молекулярная биология в том же учреждении в 1988 г.[1]
Исследование
Гиш прежде всего известен своим вкладом в NCBI ВЗРЫВ,[4][5] его создание ВЗРЫВ Сетевая служба и номер (неизбыточные) базы данных, его выпуск 1996 года оригинальной версии с пробелами ВЗРЫВ (WU-BLAST 2.0 ), и совсем недавно его разработка и поддержка AB-BLAST. В Вашингтонский университет в Сент-Луисе, Гиш также возглавлял группу анализа генома, которая аннотировала все готовые данные генома человека, мыши и крысы, полученные университетским Центр секвенирования генома с 1995 по 2002 гг.
Будучи аспирантом, Гиш применил Алгоритм Куайна-Маккласки к анализу последовательностей узнавания сайтов сплайсинга. В 1985 г. с целью быстрой идентификации рестрикционный фермент сайтов узнавания в ДНК, Гиш разработал DFA библиотека функций в Язык C. Идея применить конечный автомат к этой задаче был предложен сокурсником и BSD UNIX разработчик Майк Карелс. Реализация DFA Гиша была Мучная машина архитектура, более компактная, чем аналог Машина Мура а значит быстрее. Строительство DFA было O (п), где п это сумма длин последовательностей запросов. Затем DFA можно использовать для сканирования тематических последовательностей за один проход без возврата в O (м) время, где м это общая длина предмета (ов). Позже был признан метод построения DFA как объединение двух алгоритмов, алгоритмов 3 и 4, описанных Альфред В. Ахо и Маргарет Дж. Корасик.[6]
Во время работы на U.C. Беркли в декабре 1986 года Гиш ускорил FASTP программа[7](позже известный как FASTA[8]) из Уильям Р. Пирсон и Дэвид Дж. Липман в 2–3 раза без изменения результатов. Когда изменения производительности были переданы Пирсону и Липману, Гиш далее предположил, что DFA (а не таблица поиска) обеспечит более быструю идентификацию k-кортежей и повысит общую скорость программы, возможно, на 10% в некоторых случаях; однако такое незначительное улучшение даже в лучшем случае авторы сочли не оправданным дополнительной сложности кода. Гиш также предполагал в то время централизованную поисковую службу, в которой все нуклеотидные последовательности из GenBank будет храниться в памяти для устранения узких мест ввода-вывода - и храниться в сжатом виде для экономии памяти - при вызове клиентов FASTN ищет удаленно через Интернет.
Самые ранние вклады Гиша в ВЗРЫВ были сделаны во время работы на NCBI, начиная с июля 1989 года. Даже в ранних прототипах ВЗРЫВ обычно был намного быстрее, чем FASTA. Гиш осознал потенциальные дополнительные преимущества в этом приложении использования DFA для распознавания совпадений слов. Он преобразовал свой предыдущий код DFA в гибкую форму, которую включил во все ВЗРЫВ режимы поиска. Другие его вклады в ВЗРЫВ включают: использование сжатых нуклеотидных последовательностей как в качестве эффективного формата хранения, так и в качестве формата быстрого, естественного поиска; параллельная обработка; ввод-вывод с отображением памяти; использование контрольных байтов и контрольных слов в начале и в конце последовательностей для повышения скорости расширения совпадения слов; оригинальные реализации BLASTX,[9]TBLASTN[4]и TBLASTX (не опубликовано); прозрачное использование внешних (подключаемых) программ, таких как сег, xnu, и пыль для маскировки областей низкой сложности в последовательностях запросов во время выполнения; служба электронной почты NCBI BLAST с дополнительным шифрованием с открытым ключом; экспериментальная сетевая служба BLAST NCBI; NCBI без резервирования (номер) базы данных белков и нуклеотидных последовательностей, которые обычно обновляются ежедневно со всеми данными из GenBank, Swiss-Prot, а PIR. Гиш разработал первую ВЗРЫВ API, который использовался в стандартное восточное время[10]аннотация и Entrez производство данных, а также в NCBI ВЗРЫВ пакет приложений версии 1.4 (Gish, не опубликовано). Гиш также был создателем и руководителем проекта самого раннего NCBI. Диспетчер для распределенных сервисов (на основе CORBA с Брокер объектных запросов ). Экспериментальная сетевая служба NCBI BLAST, впервые открытая для внешних пользователей в декабре 1989 г. ВЗРЫВ программное обеспечение на SMP аппаратное обеспечение по сравнению с последними выпусками основных баз данных последовательностей, быстро зарекомендовало NCBI как удобный универсальный магазин для поиска сходства последовательностей.
В Вашингтонский университет в Сент-Луисе, Гиш произвел революцию в поиске сходства, разработав первые ВЗРЫВ набор программ для комбинирования быстрого выравнивания последовательностей с пробелами со статистическими методами оценки, подходящими для оценок выравнивания с пробелами. Полученные в результате программы поиска были значительно более чувствительными, но лишь незначительно медленнее, чем без пробелов ВЗРЫВ, благодаря новому применению показателя падения BLAST Икс во время расширения выравнивания с пропуском. Чувствительность BLAST с пропуском была дополнительно улучшена за счет нового приложения статистики Karlin-Altschul Sum[11]к оценке нескольких баллов с разрывом во всех ВЗРЫВ Статистические данные сумм изначально разрабатывались аналитически для оценки множественных баллов выравнивания без пропусков. Эмпирическое использование статистики сумм при обработке показателей сопоставления с пропусками было проверено в сотрудничестве с Стивен Альтшул в 1994-1995 гг. В мае 1996 г. была публично выпущена версия 2.0 WU-BLAST с выравниванием с пропусками в виде прямого обновления для существующих пользователей NCBI без пропусков. ВЗРЫВ и WU-BLAST (оба в версии 1.4, после форка в 1994 г.). Небольшое финансирование от NIH было получено на его разработку WU-BLAST, в среднем 20% FTE, начиная с ноября 1995 г. и заканчивая вскоре после выпуска в сентябре 1997 г. NCBI пропустил ВЗРЫВ («Blastall»). В качестве опции для WU-BLAST Гиш реализовал более быстрый, более эффективный с точки зрения памяти и более чувствительный метод двойного удара ВЗРЫВ алгоритма, который использовался программным обеспечением NCBI в течение многих лет. В 1999 году Гиш добавил поддержку WU-BLAST для расширенного формата базы данных (XDF), первого ВЗРЫВ формат базы данных, способный точно представить полную черновую последовательность человеческого генома в полноразмерных объектах последовательности хромосом. ВЗРЫВ пакет представил новый формат базы данных прозрачно для существующих пользователей, не отказываясь от поддержки предыдущих форматов, в результате абстрагирования функций ввода-вывода базы данных от функций анализа данных. WU-BLAST с XDF был первым ВЗРЫВ набор для поддержки индексированного поиска идентификаторов последовательностей в стандартном формате FASTA NCBI (включая весь диапазон идентификаторов NCBI); первая, позволяющая извлекать отдельные последовательности частично или полностью, изначально, транслировать или обратно дополнять; и первый может выгрузить все содержимое ВЗРЫВ база данных обратно в удобочитаемую Формат FASTA. В 2000 году уникальная поддержка отчетов о ссылки (согласованные наборы HSP; также называемые цепи в некоторых более поздних программных пакетах), наряду с возможностью для пользователей ограничивать расстояние между HSP, разрешенное в одном наборе, до биологически релевантной длины (например., длина ожидаемого самого длинного интрона в интересующем виде) и с ограничением расстояния, входящим в расчет E-значения. В период с 2001 по 2003 годы Гиш улучшил скорость DFA код, используемый в WU-BLAST.Gish, также предложил мультиплексирование последовательностей запросов для ускорения ВЗРЫВ поиск на порядок и более (MPBLAST); реализованы сегментированные последовательности с внутренними контрольными байтами, отчасти для облегчения мультиплексирования с MPBLAST и отчасти для облегчения анализа сегментированных последовательностей запросов из сборок секвенирования дробовика; и направленное использование WU-BLAST в качестве быстрой и гибкой поисковой машины для точной идентификации и маскирования генома последовательности для повторяющихся элементов и последовательностей низкой сложности (MaskerAid[12] пакет для RepeatMasker). Совместно с докторантом Мяо Чжаном Гиш руководил разработкой EXALIN,[13] что значительно повысило точность прогнозов сплайсингового выравнивания за счет нового подхода, объединяющего информацию из моделей донорских и акцепторных сайтов сплайсинга с информацией о сохранении последовательности. динамическое программирование по умолчанию он может дополнительно использовать вывод WU-BLAST для заполнения динамическое программирование и ускорить процесс примерно в 100 раз без потери чувствительности или точности.
В 2008 году Гиш основал Advanced Biocomputing, LLC, где он продолжает улучшать и поддерживать пакет AB-BLAST.[нужна цитата ]
Рекомендации
- ^ а б Гиш, Уоррен Ричард (1988). I. Мутанты SV40, выделенные из трансформированных клеток человека. II. Методы анализа последовательностей (Кандидатская диссертация). Калифорнийский университет в Беркли. ProQuest 303669506.
- ^ Список публикаций из Microsoft Academic
- ^ Уоррен Гиш в DBLP Сервер библиографии
- ^ а б Альтшул, С.; Гиш, В.; Миллер, В.; Майерс, Э.; Липман, Д. (1990). «Базовый инструмент поиска местного выравнивания». Журнал молекулярной биологии. 215 (3): 403–410. Дои:10.1016 / S0022-2836 (05) 80360-2. PMID 2231712.
- ^ Смысл от последовательностей: Стивен Ф. Альтшул об улучшении BLAST
- ^ Ахо, Альфред В.; Корасик, Маргарет Дж. (Июнь 1975 г.). «Эффективное сопоставление строк: помощь в библиографическом поиске». Коммуникации ACM. 18 (6): 333–340. Дои:10.1145/360825.360855.
- ^ Липман, диджей; Пирсон, WR (1985). «Быстрые и чувствительные поиски сходства белков». Наука. 227 (4693): 1435–41. Bibcode:1985Sci ... 227.1435L. Дои:10.1126 / science.2983426. PMID 2983426.
- ^ Pearson, W. R .; Липман, Д. Дж. (1988). "Улучшенные инструменты для сравнения биологической последовательности". Труды Национальной академии наук Соединенных Штатов Америки. 85 (8): 2444–2448. Bibcode:1988ПНАС ... 85.2444П. Дои:10.1073 / пнас.85.8.2444. ЧВК 280013. PMID 3162770.
- ^ Gish, W .; Штаты, Д.Дж. (1993). «Идентификация кодирующих областей белков с помощью поиска сходства в базе данных». Природа Генетика. 3 (3): 266–272. Дои:10.1038 / ng0393-266. PMID 8485583.
- ^ Богуски, M.S .; Lowe, T.M .; Толстошев, К. (1993). «dbEST - база данных для» тегов выраженной последовательности"". Природа Генетика. 4 (4): 332–333. Дои:10.1038 / ng0893-332. PMID 8401577.
- ^ Карлин, С.; Альтшул, С.Ф. (1993). «Приложения и статистика для нескольких сегментов с высокими показателями в молекулярных последовательностях». Труды Национальной академии наук Соединенных Штатов Америки. 90 (12): 5873–5877. Bibcode:1993ПНАС ... 90,5873К. Дои:10.1073 / пнас.90.12.5873. ЧВК 46825. PMID 8390686.
- ^ Bedell, J. A .; Корф, I .; Гиш, В. (2000). «MaskerAid: повышение производительности RepeatMasker». Биоинформатика. 16 (11): 1040–1041. Дои:10.1093 / биоинформатика / 16.11.1040. PMID 11159316.
- ^ Zhang, M .; Гиш, В. (2005). «Улучшенное совмещение сращиваний на основе теоретико-информационного подхода». Биоинформатика. 22 (1): 13–20. Дои:10.1093 / биоинформатика / bti748. PMID 16267086.