Лексический выбор - Lexical choice

Лексический выбор это подзадача Генерация естественного языка это включает в себя выбор слов содержания (существительные, глаголы, прилагательные и наречия) в сгенерированном тексте. Функциональные слова (например, определители) обычно выбираются во время реализация.

Примеры

Самый простой тип лексического выбора включает отображение концепции предметной области (возможно, представленной в виде онтология ) к слову. Например, концепция Палец может быть сопоставлено со словом Палец.

Более сложная ситуация - когда понятие предметной области выражается разными словами в разных ситуациях. Например, концепция домена Изменение стоимости можно выразить разными способами

  • Температура поднялась: глагол Роза используется для Изменение стоимости по температуре, которая увеличивает значение
  • Температура упала: глагол упал используется для Изменение стоимости по температуре, которая уменьшает значение
  • Дождь усилился: фраза стал тяжелее используется для Изменение стоимости в количестве осадков, когда идет дождь.

Иногда слова могут передавать дополнительную контекстную информацию, например

  • Температура резко упала: глагол упал используется для Изменение стоимости в температуре, которая уменьшает значение, когда изменение быстрое и большое

Контекстная информация особенно важна для расплывчатых терминов, таких как высокий. Например, мужчина ростом 2 м высокий, но лошадь высотой 2 м маленький.

Лингвистическая перспектива

Модули лексического выбора должны основываться на лингвистическом знании того, как входные данные системы отображаются на слова. Это вопрос семантика, но на него также влияют синтаксический факторы (такие как словосочетание эффекты) и прагматичный факторы (например, контекст).

Следовательно, системам NLG необходимы лингвистические модели того, как значение отображается в словах в целевой области (жанр ) системы NLG. Жанр, как правило, очень важен; например глагол повернуть в прогнозах погоды имеет очень специфическое значение (направление ветра меняется по часовой стрелке), которого нет в обычном английском языке, и генератор прогнозов погоды должен знать об этом специфическом для жанра значении.

В некоторых случаях есть большие различия в том, как разные люди используют одно и то же слово;[1] например, некоторые люди используют к вечеру для обозначения 18:00, а другие используют его для обозначения полуночи. Психолингвисты показали, что, когда люди говорят друг с другом, они соглашаются на общую интерпретацию посредством лексического согласования;[2] это еще не то, что системы NLG могут делать.

В конечном счете, лексический выбор должен иметь дело с фундаментальным вопросом о том, как язык соотносится с неязыковым миром.[3] Например, система, которая выбрала цветовые термины, такие как красный для описания объектов в цифровом изображении необходимо знать, какие значения пикселей RGB обычно можно описать как красный; как на это повлиял визуальный (освещение, другие объекты сцены) и лингвистический (другие обсуждаемые объекты) контекст; какие прагматические коннотации были связаны с красный (например, когда яблоко называется красный, считается спелым, а также имеет красный цвет); и так далее.

Алгоритмы и модели

Ряд алгоритмов и моделей был разработан для лексического выбора в исследовательском сообществе,[4] например, Эдмондс разработал модель выбора между почти синонимами (словами со схожим основным значением, но с разными коннотациями).[5] Однако такие алгоритмы и модели не получили широкого распространения в прикладных системах NLG; такие системы вместо этого часто использовали довольно простые вычислительные модели и вкладывали усилия при разработке в лингвистический анализ вместо разработки алгоритмов.

Рекомендации

  1. ^ Э. Рейтер и С. Шрипада (2002). Человеческое разнообразие и лексический выбор. Компьютерная лингвистика 28:545-553. [1]
  2. ^ С. Бреннан и Х. Кларк (1996). Концептуальные пакты и лексический выбор в разговоре. Журнал экспериментальной психологии: обучение, память и познание 22:1482-1493
  3. ^ Д Рой и Э. Рейтер (2005). Связь языка с миром. Искусственный интеллект 167:1-12.
  4. ^ Перера Р. и Нанд П. 2015. Многостратегический подход к лексике связанных открытых данных.
  5. ^ П. Эдмондс и Дж. Херст (2002). Почти-синонимия и лексический выбор. Компьютерная лингвистика 28:105-144. [2]