Общая архитектура для текстовой инженерии - General Architecture for Text Engineering

ВОРОТА
Главное окно GATE Developer v5
Главное окно GATE Developer v5
Разработчики)Исследовательская группа GATE, Кафедра компьютерных наук, Шеффилдский университет
изначальный выпуск1995; 25 лет назад (1995)
Стабильный выпуск8.6 (10 июня 2019 г.; 17 месяцев назад (2019-06-10)) [±]
Предварительный выпуск8.5 (28 ноября 2020 г. (ночные сборки выпускаются каждый день)) [±]
Репозиторий Отредактируйте это в Викиданных
Написано вЯва
Операционная системаКроссплатформенность
Доступно ванглийский
ТипТекстовый анализ Извлечение информации
ЛицензияLGPL
Интернет сайтворота.ac.Великобритания

Общая архитектура для текстовой инженерии или же ВОРОТА это Ява набор инструментов, изначально разработанный в Университет Шеффилда начиная с 1995 года и сейчас используется во всем мире широким сообществом ученых, компаний, преподавателей и студентов для многих обработка естественного языка задачи, в том числе извлечение информации на многих языках.[1]

GATE сравнивают с НЛТК, р и RapidMiner.[2] Помимо того, что он широко используется сам по себе, он составляет основу семантической платформы KIM.[3]

Сообщество GATE и исследователи принимали участие в нескольких европейских исследовательских проектах, включая ТАО, SEKT, NeOn, Медиа-Кампания, Musing, Сервис-Finder, ЛИРИКИ и KnowledgeWeb, а также многие другие проекты.

По состоянию на 28 мая 2011 года 881 человек находится в списке рассылки геймеров на SourceForge.net и 111932 загрузок с SourceForge записываются с момента переезда проекта на SourceForge в 2005 году.[4] Статья «GATE: среда разработки и графическая среда для надежных инструментов и приложений НЛП»[5] получил более 800 ссылок за семь лет с момента публикации (по данным Google Scholar). Книги, посвященные использованию GATE, в дополнение к Руководству пользователя GATE,[6] включают "Создание поисковых приложений: Lucene, LingPipe и Gate" Ману Кончади,[7] и «Введение в лингвистическую аннотацию и текстовую аналитику» Грэма Уилкока.[8]

Функции

GATE включает извлечение информации система называется ЭННИ (Почти новая система извлечения информации), который представляет собой набор модулей, состоящий из токенизатор, а географический справочник, а разделитель предложений, а часть речевого теггера, а названные объекты преобразователь и Coreference tagger. ANNIE можно использовать как есть для обеспечения основных извлечение информации функциональность, или предоставить отправную точку для более конкретных задач.

В настоящее время GATE поддерживает следующие языки: английский, Китайский, арабский, болгарский, Французский, Немецкий, хинди, Итальянский, Себуано, румынский, русский, Датский.

Плагины включены для машинное обучение с Weka, RASP, MAXENT, SVM Light, а также LIBSVM интеграция и собственный перцептрон реализация, для управления онтологии подобно WordNet, для запроса поисковые системы подобно Google или же Yahoo, за часть тегов речи с Brill или TreeTagger и многое другое. Также доступны многие внешние плагины для обработки, например твиты.[9]

GATE принимает ввод в различных форматах, таких как текст, HTML, XML, Док, PDF документы и Последовательный порт Java, PostgreSQL, Lucene, Oracle Базы данных с помощью СУБД хранение более JDBC.

JAPE преобразователи используются в GATE для управления аннотациями к тексту. Документация представлена ​​в Руководстве пользователя GATE.[10] Учебное пособие также было написано Press Association Images.[11]

GATE Разработчик

Главное окно GATE 5.

На снимке экрана показано средство просмотра документов, используемое для отображения документа и его аннотаций. Розовым цветом выделены аннотации гиперссылок из HTML файл. Правый список - это список наборов аннотаций, а нижняя таблица - это список аннотаций. В центре находится окно редактора аннотаций.

ВОРОТА Мимир

GATE генерирует огромное количество информации, включая: текст на естественном языке, семантические аннотации и онтологическая информация. Иногда данные сами по себе являются конечным продуктом приложения, но часто информация была бы более полезной, если бы ее можно было эффективно искать. GATE Mimir обеспечивает поддержку индексации и поиска лингвистической и семантической информации, генерируемой такими приложениями, и позволяет запрашивать информацию, используя произвольные комбинации текста, структурной информации и SPARQL.

Смотрите также

Рекомендации

  1. ^ Языки, упомянутые на http://gate.ac.uk/gate/plugins/ включают арабский, болгарский, кебуанский, китайский, французский, немецкий, хинди, итальянский, румынский и русский языки.
  2. ^ «Анализ текста с открытым исходным кодом, Сет Граймс - BeyeNETWORK». Получено 17 декабря 2016.
  3. ^ Попов, Борислав; Кирьяков, Атанас; Огнянов, Дамян; Манов, Димитар; Кирилов, Ангел (1 сентября 2004 г.). «KIM - семантическая платформа для извлечения и поиска информации». Инженерия естественного языка. 10 (3–4): 375–392. Дои:10.1017 / S135132490400347X. Получено 17 декабря 2016 - через Cambridge Core.
  4. ^ "ВОРОТА". Получено 17 декабря 2016.
  5. ^ «GATE: среда разработки и графическая среда для надежных инструментов и приложений НЛП», Каннингема Х., Мейнард Д., Бончева К., Таблан В. (Материалы 40-й юбилейной встречи Ассоциации компьютерной лингвистики, 2002 г.)
  6. ^ "GATE.ac.uk - продажа / tao / split.html". Получено 17 декабря 2016.
  7. ^ Кончады, Ману. Создание приложений для поиска: Lucene, LingPipe и Gate. Издательство Мустру. 2008 г.
  8. ^ Уилкок, Грэм (1 января 2009 г.). Введение в лингвистическую аннотацию и текстовую аналитику. Издательство Morgan & Claypool. ISBN  9781598297386. Получено 17 декабря 2016 - через Google Книги.
  9. ^ "GATE.ac.uk - wiki / twitie.html". Получено 17 декабря 2016.
  10. ^ "GATE.ac.uk - продажа / tao / splitch8.html". Получено 17 декабря 2016.
  11. ^ Таккер, Дхавалкумар (17 июля 2009 г.). "Реализация семантической паутины: учебник по грамматике JAPE". Получено 17 декабря 2016.

внешняя ссылка