DELPH-IN - DELPH-IN

DELPH-IN
Академики
Дисциплина:
Формализмы:
Обработка естественного языка
HPSG, Г-ЖА
Саммиты DELPH-IN
Инаугурация:Лиссабон (2005)
Самый последний:Дидро (2018)
Предстоящие:TBA

Деep Lпаховый пработа с ЧАСПСЖ - Винициативный (DELPH-IN) - это сотрудничество, в котором компьютерные лингвисты во всем мире разрабатывают обработка естественного языка инструменты для глубокая лингвистическая обработка человеческого языка.[1] Цель DELPH-IN - объединить лингвистические и статистические методы обработки, чтобы с помощью вычислений понять значение текстов и высказываний.

Инструменты, разработанные DELPH-IN, используют два лингвистических формализма для глубокого лингвистического анализа, а именно. грамматика структуры фраз, управляемая головой (HPSG) и семантика минимальной рекурсии (Г-ЖА).[2] Все инструменты в рамках сотрудничества DELPH-IN разработаны для общего использования Открытый исходный код лицензирование.

С 2005 года DELPH-IN проводит ежегодный саммит. Это слабо структурированный несогласие где люди информируют друг друга о работе, которую они делают, ищут отзывы о текущей работе и иногда достигают согласия по стандартам и передовой практике.

Технологии и ресурсы DELPH-IN

В сотрудничестве с DELPH-IN постепенно создаются вычислительные инструменты для глубокий лингвистический анализ, Такие как:

Помимо инструментов глубокой лингвистической обработки, сотрудничество DELPH-IN предоставляет вычислительные ресурсы для Обработка естественного языка такие как вычислительные грамматики HPSG и языковые прототипы, например:

  • Грамматики DELPH-IN: каталог вычислительной грамматики HPSG, созданный вручную для глубокого лингвистического анализа, специфичного для соответствующих языков. [6]
  • Грамматическая матрица LinGO: стартовый набор с открытым исходным кодом для быстрого прототипирования точных грамматик с широким охватом, совместимых с LKB. Он содержит библиотеку общеязыковых явлений, которые компьютерные грамматики могут унаследовать для своих грамматик HPSG.[7]
  • Библиотеки CLIMB (Сравнительные библиотеки реализаций с матричной базой): расширенная языковая библиотека, построенная на основе грамматической матрицы. Задача библиотеки CLIMB - поддерживать альтернативный анализ одного и того же явления на разных языках, чтобы проверить их влияние на долгосрочное развитие грамматики.[8]

Другой диапазон ресурсов DELPH-IN мало чем отличается от данных, используемых для неглубокая лингвистическая обработка, Такие как Text_corpus и берега деревьев:

  • Набор тестов MRS: короткий, но репрезентативный набор предложений, призванный уловить некоторые семантика минимальной рекурсии явления. Наборы тестов доступны на болгарском, английском, французском, немецком, греческом, японском, китайском, норвежском, португальском, русском и испанском языках.[9]
  • Wikiwoods: WikiWoods - это проанализированный корпус который предоставляет богатые синтаксо-семантические аннотации для английской Википедии.[10]
  • DeepBank: текущий проект по аннотированию одного миллиона слов текста Wall Street Journal 1989 года (тот же набор предложений, аннотированных в оригинальном проекте Penn Treebank) с помощью английской ресурсной грамматики, дополненной надежной аппроксимирующей PCFG для полного охвата.[11][12]
  • Собор и базар: сборник раннего эссе Эрика Рэймонда об открытом исходном коде с переводами на несколько языков. Он был предложен как многоязычный общий набор тестов, чтобы мы могли сравнивать синтаксический анализ различных грамматик.[13][14]

Культура открытого исходного кода сотрудничества DELPH-IN обеспечивает Обработка естественного языка сообщество с множеством глубокая лингвистическая обработка инструменты и ресурсы. Однако удобство использования инструментов DELPH-IN было проблемой для пользователей и разработчиков приложений, плохо знакомых с экологией DELPH-IN.[нужна цитата ] Разработчики DELPH-IN знают об этих проблемах с удобством использования, и предпринимаются постоянные попытки улучшить документацию и учебные пособия по технологиям DELPH-IN.[15]

Смотрите также

Рекомендации

  1. ^ DELPH-IN: глубокая обработка с открытым исходным кодом
  2. ^ Энн Копестак, Дэн Фликингер, Карл Поллард и Иван А. Саг. 2005 г. Семантика минимальной рекурсии: введение. In Proceedings of Research on Language and Computing.
  3. ^ Сайт PET Parser
  4. ^ Домашняя страница парсера / генератора ACE
  5. ^ Стефан Опен, Эрик Веллдал, Ян Тор Лённинг, Пол Мейрер, Виктория Розен и Дэн Фликингер. 2007 г.К гибридному машинному переводу, ориентированному на качество. О лингвистике и вероятностях в МП. В материалах 10-й Международной конференции по теоретическим и методологическим вопросам машинного перевода, стр.144–153. Скёвде, Швеция.
  6. ^ Каталог грамматик DELPH-IN
  7. ^ Фоккенс, Антске, Эмили Михайловна Бендер и Варвара Грачева. 2012 г. | Документация по системе настройки грамматической матрицы LinGO. Интернет-ресурс.
  8. ^ Фоккенс А., Августинова Т., Чжан Ю. 2012. Climb grammars: три проекта с использованием метаграмматической инженерии. В материалах восьмой Международной конференции по языковым ресурсам и оценке (LREC’12), Стамбул, Турция.
  9. ^ Страница MRS Test Suite
  10. ^ Дэн Фликингер, Стефан Опен и Жисл Итрестол. 2010 г. WikiWoods: синтаксически-семантическая аннотация для английской Википедии. В материалах LREC-2010, страницы 1665–1671.
  11. ^ Дэн Фликингер, Валя Кордони и И Чжан. 2012 г. DeepBank: динамически аннотированный Treebank от Wall Street Journal. В трудах TLT-11, Лиссабон, Португалия.
  12. ^ Домашняя страница DeepBank
  13. ^ Страница DELPH-IN CatB
  14. ^ Официальный сайт Собора и Базара
  15. ^ Саммит DELPH-IN 2013: Специальная группа по вопросам удобства использования

внешняя ссылка