Лексическая цепочка - Lexical chain

Последовательность между семантически связанными упорядоченными словами классифицируется как лексическая цепочка.[1] А лексическая цепочка представляет собой последовательность связанных слова в письмо, охватывающий короткие (соседние слова или фразы ) или большие расстояния (весь текст). Цепочка не зависит от грамматической структуры текста и, по сути, представляет собой список слов, охватывающий часть связной структуры текста. Лексическая цепочка может предоставить контекст для разрешение неоднозначного термина и позволяют идентифицировать концепция что срок представляет.

  • Рим → столица → город → житель
  • Википедия → ресурс → сеть

О

Моррис и Херст[1] ввести термин лексическая цепочка как расширение лексический сплоченность.[2] Текст, в котором многие предложения семантически связаны, часто обеспечивает определенную степень преемственности в своих идеях, обеспечивая хорошую связность между предложениями. Определение, используемое для лексической сплоченности, гласит, что согласованность это результат сплоченности, а не наоборот.[2][3] Сплоченность связана с набором слов, которые принадлежат друг другу из-за абстрактного или конкретного отношения. С другой стороны, согласованность касается фактического значения всего текста.[1]

Моррис и Херст[1] определить, что лексические цепочки используют семантический контекст для интерпретации слов, понятий и предложений. Напротив, лексическая сплоченность больше сосредоточена на отношениях пар слов. Лексические цепочки расширяют это понятие до порядкового номера соседних слов. Есть две основные причины, по которым лексические цепочки необходимы:[1]

  • Возможный контекст для помощи в неоднозначности и сужении проблем до определенного значения слова; и
  • Подсказки для определения связности и дискурса, таким образом, более глубокое семантико-структурное значение текста.

Метод, представленный Моррисом и Херстом[1] является первым, кто привнес в компьютерные системы концепцию лексической сплоченности через лексические цепочки. Используя свою интуицию, они идентифицируют лексические цепочки в текстовых документах и ​​строят их структуру с учетом Халлидея и Хасана.[2] наблюдения. Для этой задачи они рассмотрели пять текстовых документов, в общей сложности 183 предложения из разных и неконкретных источников. Повторяющиеся слова (например, часто встречающиеся слова, местоимения, предложения, вербальные вспомогательные слова) не рассматривались как предполагаемые элементы цепочки, поскольку они не придают большой семантической ценности самой структуре.

Лексические цепочки построены на основе ряда отношений между словами в текстовом документе. В основополагающей работе Морриса и Херста[1] они считают внешний тезаурус (Тезаурус Роже ) в качестве своей лексической базы данных для извлечения этих отношений. Лексическая цепочка образована последовательностью слов появляются в этом порядке, например, любые два последовательных слова представляют следующие свойства (т. е. такие атрибуты как категория, индексы, и указатели в лексической базе данных):[1][4]

  • два слова имеют одну общую категорию в своем индексе;
  • категория одного из этих слов указывает на другое слово;
  • одно из слов относится к статье или категории другого слова;
  • два слова связаны семантически; и
  • их категории соответствуют общей категории.

Подходы и методы

Использование лексических цепочек в обработка естественного языка задачи (например, сходство текста, значение смысла слова, кластеризация документов ) широко изучается в литературе. Барзилай и др. [5] использовать лексические цепочки для составления резюме из текстов. Они предлагают метод, основанный на четырех шагах: сегментация исходного текста, построение лексических цепочек, идентификация надежных цепочек и извлечение значимых предложений. Зильбер и Маккой[6] также исследует резюме текста, но их подход к построению лексических цепочек работает за линейное время.

Некоторые авторы используют WordNet[7][8] для улучшения поиска и оценки лексических цепочек. Буданицкий и Кирст[9][10] сравнить несколько измерений семантической дистанции и родства с использованием лексических цепочек в сочетании с WordNet. В их исследовании делается вывод, что мера сходства Цзян и Конрата[11] представляет лучший общий результат. Молдавский и Адриан[12] изучить использование лексических цепочек для поиска тематически связанных слов для ответ на вопрос системы. Это делается с учетом блеска для каждого синсет в WordNet. Согласно их выводам, тематические отношения через лексические цепочки улучшают производительность системы ответов на вопросы в сочетании с WordNet. Маккарти и др.[13] представить методологию категоризации и поиска наиболее преобладающих синсетов в немаркированных текстах с использованием WordNet. В отличие от традиционных подходов (например, ПОКЛОН ), они рассматривают отношения между терминами, не встречающиеся явно. Эрджан и Чичекли[14] изучить влияние лексических цепочек в задаче извлечения ключевых слов с помощью контролируемого машинного обучения. В Wei et al.[15] объединить лексические цепочки и WordNet извлекать набор семантически связанных слов из текстов и использовать их для кластеризации. Их подход использует онтологическую иерархическую структуру, чтобы обеспечить более точную оценку сходства между терминами во время значение смысла слова задача.

Лексическая цепочка и встраивание слов

Несмотря на то, что применимость лексических цепочек разнообразна, мало работы по их изучению с учетом последних достижений в НЛП, в частности с помощью вложения слов. В,[16] лексические цепочки построены с использованием определенных шаблонов, найденных WordNet[7] и используется для обучения вложения слов. Их результирующие векторы проверяются в задаче на подобие документа.. Gonzales et al. [17] Используйте смысловые вложения для создания лексических цепочек, которые интегрируются с моделью нейронного машинного перевода. Маскарелли[18] предлагает модель, которая использует лексические цепочки для статистического машинного перевода с помощью кодировщика документов. Вместо использования внешней лексической базы данных они используют вложения слов для обнаружения лексических цепочек в исходном тексте.

Ruas et al.[4] предложить две техники, сочетающие лексические базы данных, лексические цепочки и вложения слов, а именно Гибкая лексическая цепочка II (FLLC II) и Фиксированная лексическая цепочка II (FXLC II). Основная цель как FLLC II, так и FXLC II - более кратко представить набор слов по их семантическим значениям. В FLLC II лексические цепочки собираются динамически в соответствии с семантическим содержанием для каждого оцениваемого термина и отношениями с его соседними соседями. Пока существует семантическая связь, связывающая два или более слов, их следует объединить в уникальное понятие. Семантическая связь достигается через WordNet, который определяет основную истину, чтобы указать, какая лексическая структура соединяет два слова (например, гиперонимы, гипонимы, меронимы). Если появляется слово, не имеющее семантического сходства с текущей цепочкой, инициализируется новая лексическая цепочка. С другой стороны, FXLC II разбивает текстовые сегменты на заранее определенные фрагменты с определенным количеством слов в каждом. В отличие от FLLC II, метод FXLC II группирует определенное количество слов в одну структуру, независимо от семантического родства, выраженного в лексической базе данных. В обоих методах каждая сформированная цепочка представлена ​​словом, предварительно обученный вектор встраивания слов которого наиболее похож на средний вектор составляющих слов в той же цепочке.

Смотрите также

Рекомендации

  1. ^ а б c d е ж грамм час Моррис Джейн; HirstGraeme (1991-03-01). «Лексическая сплоченность, вычисляемая по ауральным отношениям как показатель структуры текста». Компьютерная лингвистика.
  2. ^ а б c Холлидей, Майкл Александр Кирквуд (1976). Сплоченность на английском языке. Хасан, Рукайя. Лондон: Лонгман. ISBN  0-582-55031-9. OCLC  2323723.
  3. ^ Каррелл, Патрисия Л. (1982). «Сплоченность - это не последовательность». TESOL Ежеквартально. 16 (4): 479–488. Дои:10.2307/3586466. ISSN  0039-8322. JSTOR  3586466.
  4. ^ а б Руас, Терри; Феррейра, Шарль Энрике Порту; Гроски, Уильям; де Франса, Фабрисио Оливетти; де Медейруш, Дебора Мария Росси (01.09.2020). «Улучшенное встраивание слов с использованием мульти-семантического представления через лексические цепочки». Информационные науки. 532: 16–32. Дои:10.1016 / j.ins.2020.04.048. ISSN  0020-0255.
  5. ^ Барзилай, Регина; McKeown, Kathleen R .; Эльхадад, Майкл (1999). «Объединение информации в контексте реферирования нескольких документов». Труды 37-го Ежегодного собрания Ассоциации компьютерной лингвистики по компьютерной лингвистике. Колледж-Парк, Мэриленд: Ассоциация компьютерной лингвистики: 550–557. Дои:10.3115/1034678.1034760. ISBN  1558606092.
  6. ^ Зильбер, Грегори; Маккой, Кэтлин (2001). «Эффективное реферирование текста с помощью лексических цепочек | Материалы 5-й международной конференции по интеллектуальным пользовательским интерфейсам»: 252–255. Дои:10.1145/325737.325861. S2CID  8403554. Цитировать журнал требует | журнал = (помощь)
  7. ^ а б "WordNet | Лексическая база данных для английского языка". wordnet.princeton.edu. Получено 2020-05-20.
  8. ^ WordNet: электронная лексическая база данных. Феллбаум, Кристиана. Кембридж, Массачусетс: MIT Press. 1998 г. ISBN  0-262-06197-X. OCLC  38104682.CS1 maint: другие (связь)
  9. ^ Буданицкий, Александр; Херст, Грэм (2001). «Семантическое расстояние в WordNet: экспериментальная, ориентированная на приложение оценка пяти показателей» (PDF). Материалы семинара по WordNet и другим лексическим ресурсам, Вторая встреча Североамериканского отделения Ассоциации компьютерной лингвистики (NAACL-2001). стр. 24–29. Получено 2020-05-20.CS1 maint: location (связь)
  10. ^ Буданицкий, Александр; Херст, Грэм (2006). «Оценка показателей лексико-семантического родства на основе WordNet». Компьютерная лингвистика. 32 (1): 13–47. Дои:10.1162 / coli.2006.32.1.13. ISSN  0891-2017. S2CID  838777.
  11. ^ Цзян, Джей Дж .; Конрат, Дэвид В. (1997-09-20). «Семантическое сходство на основе статистики корпуса и лексической таксономии». arXiv:cmp-lg / 9709008.
  12. ^ Молдавский, Дан; Новищи, Адриан (2002). «Лексические цепочки для ответа на вопрос». Материалы 19-й Международной конференции по компьютерной лингвистике. Тайбэй, Тайвань: Ассоциация компьютерной лингвистики. 1: 1–7. Дои:10.3115/1072228.1072395.
  13. ^ Маккарти, Диана; Koeling, Роб; Сорняки, Джули; Кэрролл, Джон (2004). «Обнаружение преобладающих значений слов в немаркированном тексте». Материалы 42-го ежегодного собрания Ассоциации компьютерной лингвистики - ACL '04. Барселона, Испания: Ассоциация компьютерной лингвистики: 279 – es. Дои:10.3115/1218955.1218991.
  14. ^ Эркан, Гоненц; Чичекли, Ильяс (2007). «Использование лексических цепочек для извлечения ключевых слов». Обработка информации и управление. 43 (6): 1705–1714. Дои:10.1016 / j.ipm.2007.01.015. HDL:11693/23343.
  15. ^ Вэй, Тингтин; Лу, Юнхэ; Чанг, Хуэйоу; Чжоу, Цян; Бао, Сяньюй (2015). «Семантический подход к кластеризации текста с использованием WordNet и лексических цепочек». Экспертные системы с приложениями. 42 (4): 2264–2275. Дои:10.1016 / j.eswa.2014.10.023.
  16. ^ Департамент лингвистического моделирования и обработки знаний Института информационных и коммуникационных технологий Болгарской академии наук; Симов, Кирилл; Бойчева, Светла; Осенова, Петя (10.11.2017). «На пути к лексическим цепочкам для встраивания слов на основе графов знаний» (PDF). RANLP 2017 - Последние достижения в обработке естественного языка соответствуют глубокому обучению. Инкома Лтд. Шумен, Болгария: 679–685. Дои:10.26615/978-954-452-049-6_087. ISBN  978-954-452-049-6. S2CID  41952796.CS1 maint: несколько имен: список авторов (связь)
  17. ^ Риос Гонсалес, Аннетт; Маскарелл, Лаура; Сеннрих, Рико (2017). «Улучшение устранения неоднозначности слов в нейронном машинном переводе с помощью смысловых вложений». Труды Второй конференции по машинному переводу. Копенгаген, Дания: Ассоциация компьютерной лингвистики: 11–19. Дои:10.18653 / v1 / W17-4702.
  18. ^ Маскарелл, Лаура (2017). «Лексические цепочки соответствуют вложениям слов в статистическом машинном переводе на уровне документа». Труды Третьего семинара по дискурсу в машинном переводе. Копенгаген, Дания: Ассоциация компьютерной лингвистики: 99–109. Дои:10.18653 / v1 / W17-4813.