Определение содержания - Content determination - Wikipedia

Определение содержания это подзадача генерация естественного языка (NLG), который включает принятие решения о том, какую информацию следует передавать в сгенерированном тексте. Это тесно связано с задачей структурирование документов.

Пример

Рассмотрим систему NLG, которая обобщает информацию о больных младенцах.^[1] Предположим, у этой системы есть четыре элемента информации, которые она может передавать.

Ребенку вводят морфин внутривенно.
Пульс ребенка показывает брадикардию (временные спады)
Температура у ребенка в норме
Ребенок плачет

Какие из этих битов информации следует включать в сгенерированные тексты?

вопросы

Есть три общие проблемы, которые почти всегда влияют на задачу определения контента, и их можно проиллюстрировать на приведенном выше примере.

Возможно, самая фундаментальная проблема - это коммуникативная цель текста, т.е. его цель и читатель. В приведенном выше примере, например, врач, который хочет принять решение о лечении, вероятно, будет больше всего заинтересован в брадикардии сердечного ритма, в то время как родитель, который хочет знать, как его ребенок, вероятно, будет больше заинтересован в этом факте. что ребенку давали морфин и он плакал.

Вторая проблема - это размер и уровень детализации сгенерированного текста. Например, краткое резюме, которое было отправлено врачу в виде текстового SMS-сообщения из 160 символов, может упоминать только брадикарии сердечного ритма, в то время как более длинное резюме, которое было распечатано в виде многостраничного документа, может также упомянуть тот факт, что ребенок находится на морфин IV.

Последний вопрос - как необычный и неожиданный информация есть. Например, ни врачи, ни родители не будут уделять первоочередное внимание тому, чтобы им сказали, что температура у ребенка нормальная, если они ожидали, что это так.

Тем не менее, определение контента очень важно для пользователей, ведь во многих случаях качество определения контента является наиболее важным фактором (с точки зрения пользователя) в определении общего качества сгенерированного текста.

Методы

Существует три основных подхода к структурированию документов: схемы (шаблоны контента), статистические подходы и явные аргументы.

Схемы ^[2] шаблоны, которые явно определяют содержание сгенерированного текста (а также структурирование документов Информация). Обычно они создаются путем ручного анализа корпус текстов, написанных людьми в целевом жанре, и извлечения шаблона содержания из этих текстов. Схемы хорошо работают на практике в областях, где контент несколько стандартизирован, но хуже работают в областях, где контент более подвижен (например, в медицинском примере выше).

Статистические методы использовать методы статистического анализа корпуса для автоматического определения содержания сгенерированных текстов. Такая работа находится в зачаточном состоянии и в основном применяется в контекстах, где коммуникативная цель, читатель, размер и уровень детализации фиксированы. Например, формирование сводок спортивных событий в ленте.^[3]^[4]

Явные рассуждения подходы, вероятно, привлекли наибольшее внимание исследователей. Основная идея - использовать методы логического мышления ИИ (например, правила, основанные на знаниях,^[1] планирование^[5] обнаружение паттернов,^[6] аргументация по делу,^[7] и т. д.), чтобы изучить информацию, доступную для передачи (в том числе, насколько она необычна / неожиданна), коммуникативную цель и читателя, а также характеристики сгенерированного текста (включая целевой размер) и принять решение об оптимальном содержании для сгенерированного текста. . Был исследован очень широкий спектр методов, но нет единого мнения относительно того, какой из них наиболее эффективен.

Рекомендации

^ ^а ^б Портет Ф., Райтер Э., Гатт А., Хантер Дж., Шрипада С., Фрир Й, Сайкс С. (2009). «Автоматическое создание текстовых резюме из данных неонатальной интенсивной терапии». Искусственный интеллект. 173 (7–8): 789–816. Дои:10.1016 / j.artint.2008.12.002.
^ К. Маккеун (1985). Генерация текста. Издательство Кембриджского университета
^ Р. Барзилай и М. Лапата (2005). Коллективный выбор контента для генерации концепции в текст. Материалы ЕМНЛП-2005. [1]
^ Р. Перера и П. Нанд (2014). Роль связанных данных в выборе контента. Материалы PRICAI-2014 [2]
^ Дж. Мур и К. Пэрис (1993). Планирование текста для рекомендательных диалогов: сбор преднамеренной и риторической информации. Компьютерная лингвистика 19: 651-694 [3] В архиве 2011-09-30 на Wayback Machine
^ Дж. Ю, Э. Рейтер, Дж. Хантер, К. Меллиш (2007). Выбор содержания текстовых обзоров больших наборов данных временных рядов. Инженерия естественного языка 13: 25-49
^ П. Гервас, Б. Диас-Агудо, Ф. Пейнадо, Р. Эрвас (2005) Создание сюжета сюжета на основе CBR. Системы, основанные на знаниях 18: 235-242

[portet-1] а ^б Портет Ф., Райтер Э., Гатт А., Хантер Дж., Шрипада С., Фрир Й, Сайкс С. (2009). «Автоматическое создание текстовых резюме из данных неонатальной интенсивной терапии». Искусственный интеллект. 173 (7–8): 789–816. Дои:10.1016 / j.artint.2008.12.002.

[2] К. Маккеун (1985). Генерация текста. Издательство Кембриджского университета

[3] Р. Барзилай и М. Лапата (2005). Коллективный выбор контента для генерации концепции в текст. Материалы ЕМНЛП-2005. [1]

[4] Р. Перера и П. Нанд (2014). Роль связанных данных в выборе контента. Материалы PRICAI-2014 [2]

[5] Дж. Мур и К. Пэрис (1993). Планирование текста для рекомендательных диалогов: сбор преднамеренной и риторической информации. Компьютерная лингвистика 19: 651-694 [3] В архиве 2011-09-30 на Wayback Machine

[6] Дж. Ю, Э. Рейтер, Дж. Хантер, К. Меллиш (2007). Выбор содержания текстовых обзоров больших наборов данных временных рядов. Инженерия естественного языка 13: 25-49

[7] П. Гервас, Б. Диас-Агудо, Ф. Пейнадо, Р. Эрвас (2005) Создание сюжета сюжета на основе CBR. Системы, основанные на знаниях 18: 235-242

[1]

[2]

[3]

[4]

[5]

[6]

[7]