Coreference - Coreference

В лингвистика, сопоставление, иногда написано совместная ссылка, возникает, когда два или более выражения в тексте относятся к одному и тому же человеку или предмету; у них то же самое референт, например Билл сказал, что придет; имя собственное Билл и местоимение он относятся к тому же человеку, а именно к Биллу.[1] Coreference - основная концепция, лежащая в основе привязка явления в области синтаксиса. Теория связывания исследует синтаксические отношения, существующие между коререферентными выражениями в предложениях и текстах. Когда два выражения являются кореференциальными, одно обычно представляет собой полную форму ( предшествующий ), а другой - сокращенная форма (a проформа или анафора). Лингвисты используют индексы, чтобы показать кореферентность, как в примере с индексом i. Билля сказал оня придет. Два выражения с одной и той же ссылкой: Coindexed, поэтому в этом примере Билл и он коиндексированы, что указывает на то, что их следует интерпретировать как коререференциальные.

Типы

При исследовании кореферентности можно сделать множество различий, например: анафора, катафора, разделение антецедентов, сопоставление существительных фраз и т. д.[2] При работе с проформы (местоимения, пословицы, про-прилагательные и т. д.) различают анафору и катафору. Когда проформа следует за выражением, к которому она относится, присутствует анафора (проформа - это анафора), а когда она предшествует выражению, к которому она относится, присутствует катафора (проформа - это катафора). Эти понятия иллюстрируются следующим образом:

Анафора
а. Музыкая было так громко, что Этоя нельзя было наслаждаться. –Анафора Это следует за выражением, к которому оно относится (его антецедентом).
б. Наши соседия не люблю музыку. Если Oния злиться, скоро появятся копы. - Анафора Oни следует за выражением, к которому оно относится (его антецедентом).
Катафора
а. Если Oния злятся на музыку, соседия вызову копов. - Катафора Oни предшествует выражению, к которому относится (его постцедент).
б. Несмотря на еея сложность Вильмая пришел, чтобы понять суть. - Катафора ее предшествует выражению, к которому относится (его постцедент)
Разделение антецедентов
а. Кэроля сказал Бобя присутствовать на вечеринке. Oния приехали вместе. - Анафора Oни имеет расщепленный антецедент, относящийся к обоим Кэрол и Боб.
б. Когда Кэроля помогает Бобя и Бобя помогает Кэроля, Oния справится с любой задачей. - Анафора Oни имеет расщепленный антецедент, относящийся к обоим Кэрол и Боб.
Coreferring существительных фраз
а. Руководитель проектая отказывается помочь. Рывокя думает только о себе. - Coreferring именных фраз, при этом вторая именная фраза является предикативной по отношению к первой.
б. Некоторые из наших коллег1 будут поддерживать. Такие люди1 заслужит нашу благодарность. - Coreferring именных фраз, при этом вторая именная фраза является предикативной по отношению к первой.

По сравнению со связанными переменными

Семантики и логики иногда проводят различие между кореферентностью и тем, что известно как связанная переменная.[3] Экземпляр связанной переменной может выглядеть как кореферент, но с технической точки зрения можно утверждать, что на самом деле это не так. Связанные переменные возникают, когда антецедентом проформы является неопределенное количественное выражение, например[4]

а. Каждый студентя получил егоя сорт. - Местоимение его это пример связанной переменной
б. Нет студентая был расстроен егоя сорт. - Местоимение его это пример связанной переменной

Количественные выражения такие как каждый студент и нет ученика с технической точки зрения не являются справочными. Предметы каждый студент и нет ученика грамматически единичны, но они не выделяют единичных референтов в мире дискурса. Таким образом, поскольку антецеденты притяжательного прилагательного его не референциально, нельзя также сказать, что его является ссылочным. Вместо этого говорят, что это переменная это связанный по его антецеденту. Его ссылка варьируется в зависимости от того, о каком из учеников в мире дискурса думают. Если Джек, Джон и Джерри - трое учеников в мире дискурса, то значение слова его варьируется в зависимости от того, находится ли в центре внимания Джек, Джон или Джерри. Существование связанных переменных, возможно, более очевидно на следующем примере:

c. Только Джекя нравится егоя сорт. - Местоимение его может быть связанной переменной.

Это предложение неоднозначно. Это может означать, что Джеку нравится его оценка, но всем остальным не нравится оценка Джека или, что более вероятно, это означает, что Джеку нравится его оценка, но Джону не нравится его (Джона) оценка, а Джерри не нравится его (Джерри) оценка. Второе, более естественное чтение - это чтение связанной переменной. Хотя различие между кореферентными и связанными переменными может быть реальным, коиндексация может быть истолкована как согласование обоих. То есть, когда два или более выражения коиндексированы, это указывает, что одно имеет дело с кореферентностью или связанной переменной.

Разрешение Coreference

В компьютерная лингвистика, разрешение кореферентности - хорошо изученная проблема в дискурс. Чтобы получить правильную интерпретацию текста или даже оценить относительную важность различных упомянутых предметов, местоимений и других ссылающиеся выражения должны быть связаны с нужными людьми. Алгоритмы, предназначенные для разрешения кореференций, обычно сначала ищут ближайшего предыдущего человека, совместимого с ссылающимся выражением. Например, она может присоединяться к предыдущему выражению, например женщина или Энн, но не Билл. Местоимения, такие как сам имеют гораздо более строгие ограничения. Как и во многих лингвистических задачах, существует компромисс между точность и отзыв, расчет которого может варьироваться, поскольку не существует единого алгоритма для измерения качества цепочек кореферентности. Кластер Метрики качества, обычно используемые для оценки алгоритмов разрешения кореферентности: Индекс Rand, скорректированный индекс Rand или разные взаимная информация -основанные методы.

Классической проблемой для разрешения кореферентности в английском языке является местоимение Это, который имеет множество применений. Это может относиться во многом как он и она, за исключением того, что это обычно относится к неодушевленным предметам (правила на самом деле более сложные: животные могут быть любыми из Это, он, или она; корабли традиционно она; ураганы обычно Это несмотря на гендерные имена). Это может также относиться к абстракциям, а не к сущностям, например Ему платили минимальную заработную плату, но, похоже, он не возражал. В заключение, Это также имеет плеонастический использует, которые не относятся ни к чему конкретному:

а. Это'с дождем.
б. Это'действительно позор.
c. Это Чтобы добиться успеха, нужно много работать.
d. Иногда Это's самые громкие, кто имеет наибольшее влияние.

Плеонастические употребления не считаются референтными и, следовательно, не являются частью кореферентности.[5]

Подходы к разрешению кореферентности можно в широком смысле разделить на алгоритмы пар упоминаний, ранжирования упоминаний или основанные на сущностях. Алгоритмы пар упоминаний включают двоичный решения, если пара из двух упомянутых упоминаний принадлежит одному и тому же объекту. Ограничения для всей сущности, такие как Пол не рассматриваются, что приводит к распространение ошибки. Например местоимения он или она оба могут иметь высокую вероятность кореференции с учитель, но не могут быть коррелирующими друг с другом. Алгоритмы ранжирования упоминаний расширяют эту идею, но вместо этого оговаривают, что одно упоминание может быть сопряжено только с одним (предыдущим) упоминанием. В результате каждому предыдущему упоминанию должна быть присвоена оценка, а упоминание с наивысшей оценкой (или отсутствие упоминания) должно быть связано. Наконец, в методах на основе сущностей упоминания связаны на основе информации всей цепочки кореференции, а не отдельных упоминаний. Представление цепочки переменной ширины более сложное и вычислительно дорогое, чем методы на основе упоминаний, что приводит к тому, что эти алгоритмы в основном основаны на нейронная сеть архитектуры.

Смотрите также

Заметки

  1. ^ Для определения кореферентности см., Например, Crystal (1997: 94) и Radford (2004: 332).
  2. ^ Эти различия (анафора, катафора, расщепленные антецеденты, соотнесение именных фраз и т. Д.) Обсуждаются у Джурафски и Мартина (2000: 669 и сл.).
  3. ^ Для обсуждения связанных переменных см., Например, Portner (2005: 102 и сл.).
  4. ^ См. Джурафски и Мартин (2000: 701), где приведен пример связанной переменной, подобной приведенной здесь.
  5. ^ Ли и др. (2009) продемонстрировали высокую точность выделения плеонастических Это, и этот успех обещает повысить точность разрешения кореферентности в целом.

использованная литература

  • Кристалл, Д. 1997. Словарь лингвистики и фонетики. 4-е издание. Кембридж, Массачусетс: издательство Blackwell Publishing.
  • Джурафски, Д. и Х. Мартин, 2000. Обработка речи и языка: Введение в обработку естественного языка, компьютерную лингвистику и распознавание речи. Нью-Дели, Индия: Pearson Education.
  • Портнер, П. 2005. Что такое семантика ?: Основы формальной семантики. Мальден, Массачусетс: Издательство Блэквелл.
  • Рэдфорд, А. 2004. Английский синтаксис: введение. Кембридж, Великобритания: Издательство Кембриджского университета.
  • Ифань, Л., П. Мусилек, М. Реформат, Л. Вярд-Скотт, 2009 г. Выявление плеонастических Это используя Интернет. Журнал исследований искусственного интеллекта 34, 339–389.