UBY - UBY - Wikipedia

UBY
Версия1.7
РамкиЯва
ТипМногоязычный лексико-семантический ресурс
ЛицензияБесплатные лицензии на программное обеспечение, сочетание лицензий на включенные ресурсы
Интернет сайтhttps://www.ukp.tu-darmstadt.de/data/lexical-resources/uby

UBY[1] это масштабный лексико-семантический ресурс для обработка естественного языка (НЛП), разработанная Лаборатория повсеместной обработки знаний (УКП) на кафедре компьютерных наук Technische Universität Darmstadt .UBY основан на Стандарт ISO Lexical Markup Framework (LMF) и объединяет информацию из нескольких созданных экспертами и совместно созданных ресурсов для английского и немецкого языков.

UBY применяет подход выравнивания смысла слов (подполе значение смысла слова ) для объединения информации об существительных и глаголах.[2]В настоящее время UBY содержит 12 интегрированных ресурсов на английском и немецком языках.

Включенные ресурсы

Формат

UBY-LMF[3][4] это формат для стандартизации лексических ресурсов для обработки естественного языка (NLP).[5] UBY-LMF соответствует стандарту ISO для лексиконов: LMF, разработанный в рамках ISO-TC37, и представляет собой так называемую сериализацию этого абстрактного стандарта.[6] В соответствии с LMF, все атрибуты и другие лингвистические термины, введенные в UBY-LMF, относятся к стандартным описаниям их значения в ISOCat.

Наличие и версии

UBY доступен как часть открытого репозитория ресурсов DKPro. DKPro UBY - это среда Java для создания и доступа к смысловым лексическим ресурсам в соответствии с UBY-LMF модель лексики. В то время как код UBY лицензируется под набором бесплатных лицензий, таких как GPL и CC by SA, некоторые из включенных ресурсов находятся под разными лицензиями, например только для академического использования.

Также есть Семантическая сеть версия UBY называется LemonUby.[7] лимонUby основан на модели лимона, предложенной в проекте Monnet. лимон - это модель для моделирования лексики и машиночитаемых словарей, связанная с семантической сетью и облаком связанных данных.

UBY против BabelNet

BabelNet это автоматически лексический семантический ресурс, который связывает Википедия к наиболее популярным вычислительным лексиконам, таким как WordNet. На первый взгляд, UBY и BabelNet кажутся идентичными и конкурентоспособными проектами; однако эти два ресурса следуют разным философиям. На раннем этапе BabelNet была основана в первую очередь на согласовании WordNet и Wikipedia, что по самой природе Википедии подразумевает сильный акцент на существительных и особенно именованных сущностях. Позже фокус BabelNet был смещен в сторону других частей речи. UBY, однако, с самого начала был сосредоточен на информации о глаголах, особенно на синтаксической информации, которая содержится в ресурсах, таких как VerbNet или же FrameNet. Еще одно важное отличие состоит в том, что UBY моделирует другие ресурсы полностью и независимо друг от друга, так что UBY можно использовать в качестве полной замены каждого из содержащихся ресурсов. Коллективный доступ к множеству ресурсов обеспечивается за счет выравнивания доступных ресурсов. Более того, модель LMF в UBY обеспечивает единый способ доступа как для всех, так и для отдельных ресурсов. Между тем, BabelNet следует подходу, аналогичному WordNet, и запекает выбранные типы информации в так называемые Babel Synsets. Это делает доступ и обработку знаний более удобными, однако стирает границы между связанными базами знаний. Кроме того, BabelNet обогащает исходные ресурсы, например, предоставляя автоматически созданные переводы для концепций, которые не лексикализованы на конкретном языке. Хотя это обеспечивает значительное расширение охвата многоязычных приложений, автоматический вывод информации всегда подвержен определенной степени ошибок.

Таким образом, из-за перечисленных различий между двумя ресурсами использование одного или другого может быть предпочтительным в зависимости от конкретного сценария приложения. Фактически, эти два ресурса можно использовать для предоставления обширных лексикографических знаний, особенно если они связаны друг с другом. Открытая и хорошо задокументированная структура этих двух ресурсов является важной вехой для достижения этой цели.

Приложения

UBY успешно использовался в различных задачах НЛП, таких как Устранение неоднозначности смысла слов,[8] Кластеризация смысла слов,[9] Обозначение смысла глагола [10] и Текстовая классификация.[11] UBY также вдохновил другие проекты по автоматическому построению лексико-семантических ресурсов.[12] Кроме того, LemonUby использовался для улучшения машинный перевод результаты, особенно поиск переводов неизвестных слов.[13]

Смотрите также

внешняя ссылка

Рекомендации

  1. ^ Ирина Гуревич; Джудит Экл-Колер; Сильвана Хартманн; Майкл Матущек; Кристиан М. Мейер; Кристиан Вирт (апрель 2012 г.), «UBY - крупномасштабный унифицированный лексико-семантический ресурс на основе LMF», Труды 13-й конференции Европейского отделения Ассоциации компьютерной лингвистики, Труды конференции Европейского отделения Ассоциации компьютерной лингвистики: 580–590, ISBN  978-1-937284-19-0, Викиданные  Q51752742
  2. ^ Матушек, Майкл: Словесное выравнивание лексических ресурсов. Technische Universität, Дармштадт [Диссертация], (2015)
  3. ^ Джудит Экл-Колер, Ирина Гуревич, Сильвана Хартманн, Майкл Матушек, Кристиан М. Мейер: UBY-LMF - исследуя границы не зависящих от языка моделей лексикона, в Gil Francopoulo, Структура лексической разметки LMF, ISTE / Wiley 2013 (ISBN  978-1-84821-430-9)
  4. ^ Джудит Экл-Колер, Ирина Гуревич, Сильвана Хартманн, Михаэль Матушек и Кристиан М. Мейер. UBY-LMF - Единая модель для стандартизации гетерогенных лексико-семантических ресурсов в ISO-LMF. В: Николетта Кальцолари и Халид Чукри, Тьерри Деклерк и Мехмет Угур Доган, Бенте Маегаард и Джозеф Мариани, Ян Одийк и Стелиос Пиперидис: Материалы 8-й Международной конференции по языковым ресурсам и оценке (LREC), стр. 275--282, май 2012 г.
  5. ^ Готфрид Херцог, Лоран Ромари, Андреас Витт: стандарты языковых ресурсов. Стендовая презентация на МЕТА-ФОРУМЕ 2013 - Выставка МЕТА, сентябрь 2013 г., Берлин, Германия.
  6. ^ Лоран Ромари: пешеходные переходы TEI и LMF. CoRR abs / 1301.2444 (2013)
  7. ^ Джудит Экл-Колер, Джон Филип МакКрэй и Кристиан Чиаркос: lemonUby - большой, взаимосвязанный, синтаксически богатый лексический ресурс для онтологий. В: Semantic Web Journal, vol. 6, вып. 4, стр. 371-378, 2015.
  8. ^ Кристиан М. Мейер и Ирина Гуревич: Выставлять - значит не бездельничать: многоязычный викисловарь с устранением смысловой неоднозначности для измерения сходства глаголов, в: Труды 24-й Международной конференции по компьютерной лингвистике (COLING), Vol. 4, стр. 1763–1780, декабрь 2012 г. Мумбаи, Индия.
  9. ^ Майкл Матушек, Тристан Миллер и Ирина Гуревич: Независимый от языка подход к смысловой кластеризации для усовершенствованного WSD. В: Йозеф Рупперт и Гертруда Фаас: Материалы 12-й конференции Konferenz zur Verarbeitung natürlicher Sprache (KONVENS 2014), стр. 11–21, Universitätsverlag Hildesheim, октябрь 2014 г.
  10. ^ Костадин Чолаков, Джудит Экл-Колер и Ирина Гуревич: Автоматическая маркировка смысла глаголов на основе связанных лексических ресурсов. В: Материалы 14-й конференции Европейского отделения Ассоциации компьютерной лингвистики (EACL 2014), стр. 68-77, Ассоциация компьютерной лингвистики
  11. ^ Люси Флёкова и Ирина Гуревич: Профилирование личности вымышленных персонажей с использованием смысловых связей между лексическими ресурсами, в: Материалы конференции 2015 года по эмпирическим методам обработки естественного языка (EMNLP), сентябрь 2015 г.
  12. ^ Хосе Хильдо де А. Джуниор, Ульрих Шиль и Леандро Бальби Мариньо. 2015. Подход к построению лексико-семантических ресурсов на основе разнородных источников информации. В материалах 30-го ежегодного симпозиума ACM по прикладным вычислениям (SAC '15). ACM, Нью-Йорк, США, 402-408. DOI = 10.1145 / 2695664.2695896 http://doi.acm.org/10.1145/2695664.2695896
  13. ^ J. P. McCrae, P. Cimiano: Mining переводов из Интернета открытых связанных данных, в: Proceedings of the Joint Workshop on NLP & LOD and SWAIE: Semantic Web, Linked Open Data and Information Extraction, pp 9-13 (2013).