Расширенный WordNet - EXtended WordNet

В Расширенный WordNet это проект в Техасский университет в Далласе (и финансируется Национальный фонд науки ), цель которого - улучшить WordNet путем семантического анализа блески, таким образом делая информацию, содержащуюся в этих определениях, доступной для систем автоматической обработки знаний. Он находится в свободном доступе под Лицензия в стиле BSD. Хотя он не обновлялся с ноября 2004 г. (самая последняя версия основана на WordNet 2.0), он по-прежнему остается полезным ресурсом.

Формат базы данных

База данных доступна в виде набора из четырех XML файлы - по одному на глаголы, наречия, существительные и прилагательные. Следующая информация извлечена из глоссов:

В качестве примера доступна следующая информация для синсет отлично, первоклассно, сказочно:

Блеск:

 высочайшего качества

Значение смысла слова:

   pos ="В" >из</wf>   pos =«ДТ» >в</wf>   pos ="JJS" лемма ="наибольший" качество ="нормальный" wnsn ="1" >наибольший</wf>   pos =«НН» лемма ="качественный" качество ="нормальный" wnsn ="2" >качественный</wf>

Дерево разбора:

 (TOP (S (NP (JJ отлично)) (VP (VBZ) (NP (NP (NN что-то)) (PP (IN) (NP (DT) (JJS наивысшее) (NN качество))))) (..)))

Логическая форма:

 отлично: JJ (x1) -> of: IN (x1, x2) высшее: JJ (x2) качество: NN (x2)

Качество данных

Каждый глянец первым отмечен с помощью Маркер Брилла. Затем блески анализируются с использованием обоих Чарняк синтаксический анализатор и собственный Коллинза парсер стилей. Затем каждому проанализированному блеску присваивается уровень качества:

  • Золото: те, которые были проверены вручную
  • Серебро: те, где оба парсера дали одинаковый результат.
  • Нормальный: те, в которых были созданы разные выходные данные - в этих ситуациях используется выход внутреннего парсера.

Рекомендации

внешняя ссылка

Страница в настоящее время недоступна