Общая архитектура для текстовой инженерии - General Architecture for Text Engineering
Главное окно GATE Developer v5 | |
Разработчики) | Исследовательская группа GATE, Кафедра компьютерных наук, Шеффилдский университет |
---|---|
изначальный выпуск | 1995 |
Стабильный выпуск | 8.6 (10 июня 2019 г.[±] | )
Предварительный выпуск | 8.5 (28 ноября 2020 г. (ночные сборки выпускаются каждый день)) [±] |
Репозиторий | |
Написано в | Ява |
Операционная система | Кроссплатформенность |
Доступно в | английский |
Тип | Текстовый анализ Извлечение информации |
Лицензия | LGPL |
Интернет сайт | ворота |
Общая архитектура для текстовой инженерии или же ВОРОТА это Ява набор инструментов, изначально разработанный в Университет Шеффилда начиная с 1995 года и сейчас используется во всем мире широким сообществом ученых, компаний, преподавателей и студентов для многих обработка естественного языка задачи, в том числе извлечение информации на многих языках.[1]
GATE сравнивают с НЛТК, р и RapidMiner.[2] Помимо того, что он широко используется сам по себе, он составляет основу семантической платформы KIM.[3]
Сообщество GATE и исследователи принимали участие в нескольких европейских исследовательских проектах, включая ТАО, SEKT, NeOn, Медиа-Кампания, Musing, Сервис-Finder, ЛИРИКИ и KnowledgeWeb, а также многие другие проекты.
По состоянию на 28 мая 2011 года 881 человек находится в списке рассылки геймеров на SourceForge.net и 111932 загрузок с SourceForge записываются с момента переезда проекта на SourceForge в 2005 году.[4] Статья «GATE: среда разработки и графическая среда для надежных инструментов и приложений НЛП»[5] получил более 800 ссылок за семь лет с момента публикации (по данным Google Scholar). Книги, посвященные использованию GATE, в дополнение к Руководству пользователя GATE,[6] включают "Создание поисковых приложений: Lucene, LingPipe и Gate" Ману Кончади,[7] и «Введение в лингвистическую аннотацию и текстовую аналитику» Грэма Уилкока.[8]
Функции
GATE включает извлечение информации система называется ЭННИ (Почти новая система извлечения информации), который представляет собой набор модулей, состоящий из токенизатор, а географический справочник, а разделитель предложений, а часть речевого теггера, а названные объекты преобразователь и Coreference tagger. ANNIE можно использовать как есть для обеспечения основных извлечение информации функциональность, или предоставить отправную точку для более конкретных задач.
В настоящее время GATE поддерживает следующие языки: английский, Китайский, арабский, болгарский, Французский, Немецкий, хинди, Итальянский, Себуано, румынский, русский, Датский.
Плагины включены для машинное обучение с Weka, RASP, MAXENT, SVM Light, а также LIBSVM интеграция и собственный перцептрон реализация, для управления онтологии подобно WordNet, для запроса поисковые системы подобно Google или же Yahoo, за часть тегов речи с Brill или TreeTagger и многое другое. Также доступны многие внешние плагины для обработки, например твиты.[9]
GATE принимает ввод в различных форматах, таких как текст, HTML, XML, Док, PDF документы и Последовательный порт Java, PostgreSQL, Lucene, Oracle Базы данных с помощью СУБД хранение более JDBC.
JAPE преобразователи используются в GATE для управления аннотациями к тексту. Документация представлена в Руководстве пользователя GATE.[10] Учебное пособие также было написано Press Association Images.[11]
GATE Разработчик
На снимке экрана показано средство просмотра документов, используемое для отображения документа и его аннотаций. Розовым цветом выделены аннотации гиперссылок из HTML файл. Правый список - это список наборов аннотаций, а нижняя таблица - это список аннотаций. В центре находится окно редактора аннотаций.
ВОРОТА Мимир
GATE генерирует огромное количество информации, включая: текст на естественном языке, семантические аннотации и онтологическая информация. Иногда данные сами по себе являются конечным продуктом приложения, но часто информация была бы более полезной, если бы ее можно было эффективно искать. GATE Mimir обеспечивает поддержку индексации и поиска лингвистической и семантической информации, генерируемой такими приложениями, и позволяет запрашивать информацию, используя произвольные комбинации текста, структурной информации и SPARQL.
Смотрите также
- Архитектура управления неструктурированной информацией (UIMA)
- OpenNLP
- Pheme, крупный проект ЕС, управляемый группой GATE, по раннему обнаружению ложной информации в социальных сетях.
Рекомендации
- ^ Языки, упомянутые на http://gate.ac.uk/gate/plugins/ включают арабский, болгарский, кебуанский, китайский, французский, немецкий, хинди, итальянский, румынский и русский языки.
- ^ «Анализ текста с открытым исходным кодом, Сет Граймс - BeyeNETWORK». Получено 17 декабря 2016.
- ^ Попов, Борислав; Кирьяков, Атанас; Огнянов, Дамян; Манов, Димитар; Кирилов, Ангел (1 сентября 2004 г.). «KIM - семантическая платформа для извлечения и поиска информации». Инженерия естественного языка. 10 (3–4): 375–392. Дои:10.1017 / S135132490400347X. Получено 17 декабря 2016 - через Cambridge Core.
- ^ "ВОРОТА". Получено 17 декабря 2016.
- ^ «GATE: среда разработки и графическая среда для надежных инструментов и приложений НЛП», Каннингема Х., Мейнард Д., Бончева К., Таблан В. (Материалы 40-й юбилейной встречи Ассоциации компьютерной лингвистики, 2002 г.)
- ^ "GATE.ac.uk - продажа / tao / split.html". Получено 17 декабря 2016.
- ^ Кончады, Ману. Создание приложений для поиска: Lucene, LingPipe и Gate. Издательство Мустру. 2008 г.
- ^ Уилкок, Грэм (1 января 2009 г.). Введение в лингвистическую аннотацию и текстовую аналитику. Издательство Morgan & Claypool. ISBN 9781598297386. Получено 17 декабря 2016 - через Google Книги.
- ^ "GATE.ac.uk - wiki / twitie.html". Получено 17 декабря 2016.
- ^ "GATE.ac.uk - продажа / tao / splitch8.html". Получено 17 декабря 2016.
- ^ Таккер, Дхавалкумар (17 июля 2009 г.). "Реализация семантической паутины: учебник по грамматике JAPE". Получено 17 декабря 2016.