DELPH-IN - DELPH-IN
Академики | |
---|---|
Дисциплина: Формализмы: | Обработка естественного языка HPSG, Г-ЖА |
Саммиты DELPH-IN | |
Инаугурация: | Лиссабон (2005) |
Самый последний: | Дидро (2018) |
Предстоящие: | TBA |
Деep Lпаховый пработа с ЧАСПСЖ - Винициативный (DELPH-IN) - это сотрудничество, в котором компьютерные лингвисты во всем мире разрабатывают обработка естественного языка инструменты для глубокая лингвистическая обработка человеческого языка.[1] Цель DELPH-IN - объединить лингвистические и статистические методы обработки, чтобы с помощью вычислений понять значение текстов и высказываний.
Инструменты, разработанные DELPH-IN, используют два лингвистических формализма для глубокого лингвистического анализа, а именно. грамматика структуры фраз, управляемая головой (HPSG) и семантика минимальной рекурсии (Г-ЖА).[2] Все инструменты в рамках сотрудничества DELPH-IN разработаны для общего использования Открытый исходный код лицензирование.
С 2005 года DELPH-IN проводит ежегодный саммит. Это слабо структурированный несогласие где люди информируют друг друга о работе, которую они делают, ищут отзывы о текущей работе и иногда достигают согласия по стандартам и передовой практике.
Технологии и ресурсы DELPH-IN
В сотрудничестве с DELPH-IN постепенно создаются вычислительные инструменты для глубокий лингвистический анализ, Такие как:
- Система LKB (Строитель лингвистических знаний): a грамматическая инженерия среда, в которой лингвисты могут создавать объединяющие грамматики с Грамматика структуры фраз, управляемая головой формализм
- Парсер ПЭТ (Платформа для экспериментов с эффективными методами обработки HPSG): анализатор с открытым исходным кодом, который производит HPSG разбирать деревья с Семантика минимальной рекурсии (MRS) выходы [3]
- Процессор ACE (Answer Constraint Engine): эффективная система для обработки грамматик DELPH-IN, которые обеспечивают HPSG синтаксический анализ с Г-ЖА выходы. Последняя версия ACE может генерировать естественный язык фразы.[4]
- Инфраструктура LOGON представляет собой набор программного обеспечения и грамматик DELPH-IN для обеспечения машинный перевод на основе переводов. Доказано, что подход LOGON к машинному переводу обеспечивает качественный гибридный (основанный на правилах и стохастический) перевод.[5]
Помимо инструментов глубокой лингвистической обработки, сотрудничество DELPH-IN предоставляет вычислительные ресурсы для Обработка естественного языка такие как вычислительные грамматики HPSG и языковые прототипы, например:
- Грамматики DELPH-IN: каталог вычислительной грамматики HPSG, созданный вручную для глубокого лингвистического анализа, специфичного для соответствующих языков. [6]
- Грамматическая матрица LinGO: стартовый набор с открытым исходным кодом для быстрого прототипирования точных грамматик с широким охватом, совместимых с LKB. Он содержит библиотеку общеязыковых явлений, которые компьютерные грамматики могут унаследовать для своих грамматик HPSG.[7]
- Библиотеки CLIMB (Сравнительные библиотеки реализаций с матричной базой): расширенная языковая библиотека, построенная на основе грамматической матрицы. Задача библиотеки CLIMB - поддерживать альтернативный анализ одного и того же явления на разных языках, чтобы проверить их влияние на долгосрочное развитие грамматики.[8]
Другой диапазон ресурсов DELPH-IN мало чем отличается от данных, используемых для неглубокая лингвистическая обработка, Такие как Text_corpus и берега деревьев:
- Набор тестов MRS: короткий, но репрезентативный набор предложений, призванный уловить некоторые семантика минимальной рекурсии явления. Наборы тестов доступны на болгарском, английском, французском, немецком, греческом, японском, китайском, норвежском, португальском, русском и испанском языках.[9]
- Wikiwoods: WikiWoods - это проанализированный корпус который предоставляет богатые синтаксо-семантические аннотации для английской Википедии.[10]
- DeepBank: текущий проект по аннотированию одного миллиона слов текста Wall Street Journal 1989 года (тот же набор предложений, аннотированных в оригинальном проекте Penn Treebank) с помощью английской ресурсной грамматики, дополненной надежной аппроксимирующей PCFG для полного охвата.[11][12]
- Собор и базар: сборник раннего эссе Эрика Рэймонда об открытом исходном коде с переводами на несколько языков. Он был предложен как многоязычный общий набор тестов, чтобы мы могли сравнивать синтаксический анализ различных грамматик.[13][14]
Культура открытого исходного кода сотрудничества DELPH-IN обеспечивает Обработка естественного языка сообщество с множеством глубокая лингвистическая обработка инструменты и ресурсы. Однако удобство использования инструментов DELPH-IN было проблемой для пользователей и разработчиков приложений, плохо знакомых с экологией DELPH-IN.[нужна цитата ] Разработчики DELPH-IN знают об этих проблемах с удобством использования, и предпринимаются постоянные попытки улучшить документацию и учебные пособия по технологиям DELPH-IN.[15]
Смотрите также
Рекомендации
- ^ DELPH-IN: глубокая обработка с открытым исходным кодом
- ^ Энн Копестак, Дэн Фликингер, Карл Поллард и Иван А. Саг. 2005 г. Семантика минимальной рекурсии: введение. In Proceedings of Research on Language and Computing.
- ^ Сайт PET Parser
- ^ Домашняя страница парсера / генератора ACE
- ^ Стефан Опен, Эрик Веллдал, Ян Тор Лённинг, Пол Мейрер, Виктория Розен и Дэн Фликингер. 2007 г.К гибридному машинному переводу, ориентированному на качество. О лингвистике и вероятностях в МП. В материалах 10-й Международной конференции по теоретическим и методологическим вопросам машинного перевода, стр.144–153. Скёвде, Швеция.
- ^ Каталог грамматик DELPH-IN
- ^ Фоккенс, Антске, Эмили Михайловна Бендер и Варвара Грачева. 2012 г. | Документация по системе настройки грамматической матрицы LinGO. Интернет-ресурс.
- ^ Фоккенс А., Августинова Т., Чжан Ю. 2012. Climb grammars: три проекта с использованием метаграмматической инженерии. В материалах восьмой Международной конференции по языковым ресурсам и оценке (LREC’12), Стамбул, Турция.
- ^ Страница MRS Test Suite
- ^ Дэн Фликингер, Стефан Опен и Жисл Итрестол. 2010 г. WikiWoods: синтаксически-семантическая аннотация для английской Википедии. В материалах LREC-2010, страницы 1665–1671.
- ^ Дэн Фликингер, Валя Кордони и И Чжан. 2012 г. DeepBank: динамически аннотированный Treebank от Wall Street Journal. В трудах TLT-11, Лиссабон, Португалия.
- ^ Домашняя страница DeepBank
- ^ Страница DELPH-IN CatB
- ^ Официальный сайт Собора и Базара
- ^ Саммит DELPH-IN 2013: Специальная группа по вопросам удобства использования