Семантическое сходство - Semantic similarity

Семантическое сходство - это показатель, определяемый для набора документов или терминов, где идея расстояния между элементами основана на сходстве их значения или семантического содержания, а не на лексикографическом сходстве. Это математические инструменты, используемые для оценки силы семантических отношений между единицами языка, понятиями или экземплярами посредством числового описания, полученного в соответствии со сравнением информации, подтверждающей их значение или описывающей их природу.[1][2] Термин «семантическое сходство» часто путают с семантическим родством. Семантическая родственность включает любое отношение между двумя терминами, в то время как семантическое сходство включает только отношения «есть».[3]Например, «автомобиль» похож на «автобус», но также имеет отношение к «дороге» и «вождению».

Вычислительно семантическое сходство можно оценить, определив топологический подобие, используя онтологии чтобы определить расстояние между терминами / понятиями. Например, наивная метрика для сравнения понятий, упорядоченных в частично заказанный набор и представлены в виде узлов ориентированный ациклический граф (например, таксономия ), будет кратчайшим путем, соединяющим два концептуальных узла. На основе анализа текста семантическая взаимосвязь между единицами языка (например, словами, предложениями) также может быть оценена с использованием статистических средств, таких как векторная космическая модель к соотносить слова и текстовые контексты из подходящего текстовый корпус. Оценка предложенных мер семантического сходства / родства осуществляется двумя основными способами. Первый основан на использовании наборов данных, разработанных экспертами и состоящих из пар слов с оценкой степени семантического сходства / родства. Второй способ основан на интеграции мер внутри конкретных приложений, таких как поиск информации, системы рекомендаций, обработка естественного языка и т. Д.

Терминология

Концепция чего-либо семантическое сходство более конкретен, чем семантическое родство, поскольку последний включает такие понятия, как антонимия и меронимия, а сходства нет.[4] Однако в большей части литературы эти термины используются как взаимозаменяемые, наряду с такими терминами, как семантическая дистанция. По сути, семантическое сходство, семантическая дистанция и семантическая взаимосвязь означают: «Какое отношение имеет термин A к термину B?» Ответом на этот вопрос обычно является число от -1 до 1 или от 0 до 1, где 1 означает чрезвычайно высокое сходство.

Визуализация

Интуитивно понятный способ визуализации семантического сходства терминов состоит в том, чтобы сгруппировать термины, которые тесно связаны, и расставить с большим интервалом между теми, которые связаны отдаленно. Это также часто встречается на практике для карты разума и концептуальные карты.

Более прямой способ визуализации семантического сходства двух языковых элементов можно увидеть с помощью Семантическое сворачивание подход. В этом подходе лингвистический элемент, такой как термин или текст, может быть представлен путем создания пиксель для каждой из его активных семантических функций, например, сетка 128 х 128. Это позволяет проводить прямое визуальное сравнение семантики двух элементов путем сравнения графических представлений их соответствующих наборов функций.

Приложения

В биомедицинской информатике

Меры семантического сходства применялись и развивались в биомедицинских онтологиях.[5][6]В основном они используются для сравнения гены и белки основанные на схожести их функций, а не на их сходство последовательностей, но они также распространяются на другие биологические объекты, такие как болезни.[7]

Эти сравнения можно сделать с помощью инструментов, свободно доступных в Интернете:

  • ProteInOn может использоваться для поиска взаимодействующих белков, поиска назначенных терминов GO и расчета функционального семантического сходства UniProt белков, а также для получения информативности и расчета функционального семантического подобия терминов GO.[8]
  • CMPSim обеспечивает меру функционального сходства между химическими соединениями и метаболическими путями, используя ЧЭБИ основанные на мерах семантического сходства.[9]
  • CESSM предоставляет инструмент для автоматической оценки мер семантического сходства на основе GO.[10]

В геоинформатике

Сходство также применяется в геоинформатика найти похожие географические особенности или типы функций:[11]

  • Сервер подобия SIM-DL[12] может использоваться для вычисления сходства между концепциями, хранящимися в онтологиях географических объектов.
  • Калькулятор подобия можно использовать для вычисления того, насколько хорошо связаны две географические концепции в онтологии Geo-Net-PT.[13][14]
  • В OSM семантическая сеть может использоваться для вычисления семантического сходства тегов в OpenStreetMap.[15]

В компьютерной лингвистике

Несколько показателей используют WordNet, созданная вручную лексическая база данных английских слов. Несмотря на преимущества человеческого надзора при построении базы данных, поскольку слова не изучаются автоматически, база данных не может измерить степень родства между многословными терминами, не увеличивающимися словарями.[4][16]

При обработке естественного языка

Обработка естественного языка (НЛП) это область информатики и лингвистики. Анализ тональности, понимание естественного языка и машинный перевод (автоматический перевод текста с одного человеческого языка на другой) - вот лишь некоторые из основных областей, в которых он используется. Например, зная один информационный ресурс в Интернете, часто бывает сразу интересно найти похожие ресурсы. В Семантическая сеть предоставляет семантические расширения для поиска похожих данных по содержанию, а не только по произвольным дескрипторам.[17][18][19][20][21][22][23][24][25] Глубокое обучение Методы стали точным способом измерения семантического сходства между двумя отрывками текста, в которых каждый отрывок сначала внедряется в непрерывное векторное представление.[26][27][28]

Меры

Топологическое подобие

По сути, есть два типа подходов, которые вычисляют топологическое сходство между онтологическими концепциями:

  • На основе кромок: которые используют кромки и их типы в качестве источника данных;
  • На основе узлов: в котором основными источниками данных являются узлы и их свойства.

Другие меры вычисляют сходство между онтологическими экземплярами:

  • Попарно: измерьте функциональное сходство между двумя экземплярами, комбинируя семантическое сходство концепций, которые они представляют.
  • По группам: вычисляйте сходство напрямую, не комбинируя семантическое сходство концепций, которые они представляют

Некоторые примеры:

Edge-based

  • Пекар и др.[29]
  • Ченг и Клайн[30]
  • Wu et al.[31]
  • Del Pozo et al.[32]
  • IntelliGO: Benabderrahmane et al.[6]

На основе узлов

  • Резник[33]
    • основанный на понятии информационное содержание. Информационное содержание концепта (термина или слова) - это логарифм вероятности нахождения концепта в данном корпусе.
    • учитывает только информационное содержание низший общий потребитель (lcs). Самый низкий общий субпотребитель - это понятие в лексической таксономии (например, WordNet), которое имеет наименьшее расстояние от двух сравниваемых понятий. Например, и животное, и млекопитающее относятся к категории кошек и собак, но млекопитающие для них являются более низкими субпотребителями, чем животные.
  • Линь[34]
    • на основании сходства Резника.
    • рассматривает информационное содержание самого низкого общего субпотребителя (lcs) и двух сравниваемых концепций.
  • Магуитман, Menczer, Ройнестад и Веспиньяни[35]
    • Обобщает сходство Линя с произвольными онтологиями (графами).
  • Цзян и Конрат[36]
    • на основании сходства Резника.
    • рассматривает информационное содержание самого низкого общего субпотребителя (lcs) и двух сравниваемых концепций для расчета расстояния между двумя концепциями. Расстояние позже используется при вычислении меры подобия.
  • Выровнять, устранить неоднозначность и пройти: Случайные блуждания по семантическим сетям[37]

На основе содержимого узла и отношения

  • применимо к онтологии
  • учитывать свойства (содержимое) узлов
  • рассматривать типы (содержание) отношений
  • на базе eTVSM[38]
  • на основании сходства Резника[39]

Попарно

  • максимум попарных сходств
  • составное среднее, в котором рассматриваются только наиболее подходящие пары (среднее наилучшее соответствие)

Групповой

Статистическое сходство

Статистическое подобие подходов может быть узнал из данных, или предопределенный.Изучение подобия часто может превзойти стандартные меры сходства. В широком смысле эти подходы создают статистическую модель документов и используют ее для оценки сходства.

  • LSA (Скрытый семантический анализ )[40][41](+) векторная, добавляет векторы для измерения многословных терминов; (-) без инкрементального словаря, длительное время предварительной обработки
  • PMI (Точечная взаимная информация ) (+) большой словарный запас, потому что он использует любую поисковую систему (например, Google); (-) не может измерить взаимосвязь между целыми предложениями или документами
  • SOC-PMI (Поточечная взаимная информация второго порядка совместной встречаемости ) (+) сортировать списки важных соседних слов из большого корпуса; (-) не может измерить взаимосвязь между целыми предложениями или документами
  • GLSA (Generalized Latent Semantic Analysis) (+) на основе векторов, добавляет векторы для измерения многословных терминов; (-) без инкрементального словаря, длительное время предварительной обработки
  • ICAN (инкрементное построение ассоциативной сети) (+) инкрементальная, основанная на сети мера, удобная для распространения активации, учитывает взаимосвязь второго порядка; (-) не может измерить взаимосвязь между многословными терминами, длительное время предварительной обработки
  • NGD (Нормализованное расстояние Google ) (+) большой словарный запас, потому что он использует любую поисковую систему (например, Google); (-) может измерить родство между целыми предложениями или документами, но чем крупнее предложение или документ, тем больше требуется изобретательности, Cilibrasi & Vitanyi (2007), ссылка ниже.[42]
  • TSS - Семантическое сходство Twitter -pdf большой словарный запас, потому что он использует онлайн-твиты из Twitter для вычисления сходства. Он имеет высокое временное разрешение, что позволяет фиксировать высокочастотные события. Открытый исходный код
  • НИЗ (Нормализованное расстояние сжатия )
  • ESA (явный семантический анализ) на основе Википедия и ODP
  • SSA (существенный семантический анализ) который индексирует термины, используя основные концепции, найденные в их непосредственном контексте.
  • номер Википедии (сейчас), вдохновленный игрой Шесть степеней Википедии, это показатель расстояния, основанный на иерархической структуре Википедии. Сначала строится ориентированный ациклический граф, а затем Алгоритм кратчайшего пути Дейкстры используется для определения нового значения между двумя терминами как геодезического расстояния между соответствующими темами (то есть узлами) в графе.
  • ВГЭМ (Векторное создание явно определенного многомерного семантического пространства) (+) добавочный словарь, можно сравнивать многословные термины (-) производительность зависит от выбора конкретных измерений
  • SimRank
  • НАСАРИ:[43] Разреженные векторные представления, построенные путем применения гипергеометрического распределения по корпусу Википедии в сочетании с BabelNet таксономия. Межъязыковое сходство в настоящее время также возможно благодаря многоязычному и унифицированному расширению.[44]

Сходство на основе семантики

  • Передача маркера: сочетание лексической декомпозиции для автоматического создания онтологий и передачи маркера Подход Fähndrich et al. вводит новый тип меры семантического сходства.[45] Здесь маркеры передаются от двух целевых концептов, несущих определенную активацию. Эта активация может увеличиваться или уменьшаться в зависимости от веса отношений, с которыми связаны концепции. Это объединяет подходы, основанные на краях и узлах, и включает рассуждения коннекционистов с символической информацией.
  • Хорошая мера семантического сходства на основе общего субпотребителя (GCS)[46]

Золотые стандарты

Исследователи собрали наборы данных с оценками сходства пар слов, которые используются для оценки когнитивной правдоподобности вычислительных показателей. Золотой стандарт до сих пор - это старый список из 65 слов, в котором люди оценивают сходство слов.[47] Для получения списка наборов данных и обзора современного состояния см. https://www.aclweb.org/.

Смотрите также

Рекомендации

  1. ^ Harispe S .; Ранвез С. Джанаки С .; Монтмэн Дж. (2015). «Семантическое сходство из анализа естественного языка и онтологии». Синтез лекций по технологиям человеческого языка. 8:1: 1–254. arXiv:1704.05295. Дои:10.2200 / S00639ED1V01Y201504HLT027. S2CID  17428739.
  2. ^ Feng Y .; Багери Э .; Ensan F .; Йованович Дж. (2017). «Современное состояние семантической взаимосвязи: рамки для сравнения». Обзор инженерии знаний. 32: 1–30. Дои:10.1017 / S0269888917000029.
  3. ^ А. Баллаторе; М. Бертолотто; Д.К. Уилсон (2014). «Оценочная база для геосемантического родства и сходства». ГеоИнформатика. 18:4 (4): 747–767. arXiv:1402.3371. Bibcode:2014arXiv1402.3371B. Дои:10.1007 / s10707-013-0197-8. S2CID  17474023.
  4. ^ а б Буданицкий, Александр; Херст, Грэм (2001). «Семантическое расстояние в WordNet: экспериментальная, ориентированная на приложение оценка пяти показателей» (PDF). Семинар по WordNet и другим лексическим ресурсам, второе заседание североамериканского отделения Ассоциации компьютерной лингвистики. Питтсбург.
  5. ^ Гуцци, Пьетро Хирам; Мина, Марко; Каннатаро, Марио; Герра, Кончеттина (2012). «Анализ семантического сходства белковых данных: оценка с биологическими особенностями и проблемами». Брифинги по биоинформатике. 13 (5): 569–585. Дои:10.1093 / bib / bbr066. PMID  22138322.
  6. ^ а б Бенабдеррахман, Сидахмед; Смаил Таббон, Малика; Поч, Оливье; Наполи, Амедео; Девинь, Мария-Домоник. (2010). «IntelliGO: новая векторная мера семантического сходства, включая происхождение аннотации». BMC Bioinformatics. 11: 588. Дои:10.1186/1471-2105-11-588. ЧВК  3098105. PMID  21122125.
  7. ^ Köhler, S; Schulz, MH; Krawitz, P; Бауэр, S; Долкен, S; Отт, CE; Мундлос, К; Рог, D; и другие. (2009). «Клиническая диагностика в генетике человека с поисками семантического сходства в онтологиях». Американский журнал генетики человека. 85 (4): 457–64. Дои:10.1016 / j.ajhg.2009.09.003. ЧВК  2756558. PMID  19800049.
  8. ^ «ПротеинОн».
  9. ^ «CMPSim».
  10. ^ "ЦЕССМ".
  11. ^ Янович К., Раубаль М. и Кун В. (2011). «Семантика подобия в поиске географической информации». Журнал пространственной информатики. 2 (2): 29–57. Дои:10.5311 / josis.2011.2.3.CS1 maint: несколько имен: список авторов (связь)
  12. ^ «Сервер подобия SIM-DL». 2007: 128–145. CiteSeerX  10.1.1.172.5544. Цитировать журнал требует | журнал = (помощь)
  13. ^ «Калькулятор подобия Geo-Net-PT».
  14. ^ «Гео-Нет-ПТ».
  15. ^ А. Баллаторе; Д.К. Уилсон; М. Бертолотто. «Извлечение географических знаний и семантическое сходство в OpenStreetMap» (PDF). Знания и информационные системы: 61–81.
  16. ^ Каур И. и Хорноф А.Дж. (2005). Сравнение LSA, WordNet и PMI для прогнозирования поведения пользователей при кликах. Труды конференции по человеческому фактору в вычислительной технике, CHI 2005. С. 51–60. Дои:10.1145/1054972.1054980. ISBN  978-1-58113-998-3. S2CID  14347026.
  17. ^ Методы обучения на основе подобия для семантической паутины (К. д'Амато, докторская диссертация)
  18. ^ Грация, Дж. И Мена, Э. (2008). «Веб-мера семантического родства» (PDF). Труды 9-й Международной конференции по веб-разработке информационных систем (WISE '08): 136–150.
  19. ^ Равендранатан, П. (2005). Определение наборов связанных слов из всемирной паутины. Диссертация на степень магистра наук, Университет Миннесоты, Дулут.
  20. ^ Вуббен, С. (2008). Использование свободной структуры ссылок для расчета семантической взаимосвязи. В серии технических отчетов ILK Research Group, № 08-01, 2008.
  21. ^ Джувина И., ван Остендорп Х., Карбор П. и Пау Б. (2005). К моделированию контекстной информации в веб-навигации. В Б. Г. Бара, Л. Барсалу и М. Буччарелли (ред.), 27-е ежегодное собрание Общества когнитивных наук, CogSci2005 (стр. 1078–1083). Остин, Техас: Общество когнитивных наук, Inc.
  22. ^ Навильи Р., Лапата М. (2007). Меры связности графов для устранения неоднозначности смысла слов без учителя, Proc. 20-й Международной совместной конференции по искусственному интеллекту (IJCAI 2007), Хайдарабад, Индия, 6–12 января 2007 г., стр. 1683–1688.
  23. ^ Пиролли, П. (2005). «Рациональный анализ поиска информации в сети». Наука о мышлении. 29 (3): 343–373. Дои:10.1207 / с15516709cog0000_20. PMID  21702778.
  24. ^ Пиролли П., Фу В.-Т. (2003). «SNIF-ACT: модель сбора информации во всемирной паутине». Конспект лекций по информатике. Конспект лекций по информатике. 2702. С. 45–54. CiteSeerX  10.1.1.6.1506. Дои:10.1007/3-540-44963-9_8. ISBN  978-3-540-40381-4.CS1 maint: несколько имен: список авторов (связь)
  25. ^ Терни, П. (2001). Поиск синонимов в Интернете: сравнение PMI и LSA на TOEFL. В Л. Де Рэдт и П. Флах (ред.), Труды Двенадцатой Европейской конференции по машинному обучению (ECML-2001) (стр. 491–502). Фрайбург, Германия.
  26. ^ Реймерс, Нильс; Гуревич, Ирина (ноябрь 2019). "Sentence-BERT: вложения предложений с использованием сиамских BERT-сетей". Материалы конференции 2019 года по эмпирическим методам обработки естественного языка и 9-й Международной совместной конференции по обработке естественного языка (EMNLP-IJCNLP). Гонконг, Китай: Ассоциация компьютерной лингвистики: 3982–3992. arXiv:1908.10084. Дои:10.18653 / v1 / D19-1410.
  27. ^ Мюллер, Йонас; Тьягараджан, Адитья (5 марта 2016 г.). «Сиамские повторяющиеся архитектуры для изучения схожести предложений». Тридцатая конференция AAAI по искусственному интеллекту.
  28. ^ Кирос, Райан; Чжу, Юкун; Салахутдинов, Русь Р; Земель, Ричард; Уртасун, Ракель; Торральба, Антонио; Фидлер, Саня (2015), Кортес, С .; Lawrence, N.D .; Ли, Д. Д .; Сугияма, М. (ред.), "Пропускные векторы" (PDF), Достижения в системах обработки нейронной информации 28, Curran Associates, Inc., стр. 3294–3302., получено 2020-03-13
  29. ^ Пекар Виктор; Стааб, Штеффен (2002). Обучение таксономии. Материалы 19-й международной конференции по компьютерной лингвистике -. 1. С. 1–7. Дои:10.3115/1072228.1072318.
  30. ^ Cheng, J; Клайн, М; Мартин, Дж; Финкельштейн, Д; Авад, Т; Кулп, Д; Сиани-Роуз, Массачусетс (2004). «Основанный на знаниях алгоритм кластеризации, управляемый Gene Ontology». Журнал биофармацевтической статистики. 14 (3): 687–700. Дои:10.1081 / BIP-200025659. PMID  15468759. S2CID  25224811.
  31. ^ Wu, H; Вс, З; Мао, Ф; Olman, V; Сюй, Y (2005). «Прогнозирование функциональных модулей на основе сравнительного анализа генома и приложения Gene Ontology». Исследования нуклеиновых кислот. 33 (9): 2822–37. Дои:10.1093 / нар / gki573. ЧВК  1130488. PMID  15901854.
  32. ^ Дель Посо, Анджела; Пазос, Флоренсио; Валенсия, Альфонсо (2008). «Определение функциональных расстояний по генной онтологии». BMC Bioinformatics. 9: 50. Дои:10.1186/1471-2105-9-50. ЧВК  2375122. PMID  18221506.
  33. ^ Филип Резник (1995). Крис С. Меллиш (ред.). «Использование информационного содержания для оценки семантического сходства в таксономии». Труды 14-й Международной совместной конференции по искусственному интеллекту (IJCAI'95). 1: 448–453. arXiv:cmp-lg / 9511007. Bibcode:1995cmp.lg ... 11007R. CiteSeerX  10.1.1.41.6956.
  34. ^ Деканг ​​Лин. 1998 г. Теоретико-информационное определение подобия. В материалах пятнадцатой международной конференции по машинному обучению (ICML '98), Джуд В. Шавлик (ред.). Morgan Kaufmann Publishers Inc., Сан-Франциско, Калифорния, США, 296-304
  35. ^ Ана Габриэла Магуитман, Филиппо Менцер, Хизер Ройнестад, Алессандро Веспиньяни: Алгоритмическое обнаружение семантического сходства. WWW 2005: 107-116
  36. ^ Дж. Дж. Цзян и Д. В. Конрат. Семантическое сходство на основе статистики корпуса и лексической таксономии. В Международной конференции по исследованиям в области компьютерной лингвистики (ROCLING X), страницы 9008+, сентябрь 1997 г.
  37. ^ М. Т. Пилехвар, Д. Юргенс и Р. Навильи. Выровнять, устранить неоднозначность и пройти: единый подход к измерению семантического сходства.. Proc. 51-го ежегодного собрания Ассоциации компьютерной лингвистики (ACL 2013), София, Болгария, 4–9 августа 2013 г., стр. 1341–1351.
  38. ^ Донг, Хай (2009). «Гибридная модель измерения сходства концепций для среды онтологии». На пути к полноценным интернет-системам: семинары по OTM 2009. Конспект лекций по информатике. 5872. С. 848–857. Bibcode:2009LNCS.5872..848D. Дои:10.1007/978-3-642-05290-3_103. ISBN  978-3-642-05289-7.
  39. ^ Донг, Хай (2011). «Контекстно-зависимая модель семантического сходства для онтологических сред». Параллелизм и вычисления: практика и опыт. 23 (2): 505–524. Дои:10.1002 / cpe.1652.
  40. ^ Ландауэр, Т. К .; Дюмэ, С. Т. (1997). «Решение проблемы Платона: теория скрытого семантического анализа приобретения, индукции и представления знаний» (PDF). Психологический обзор. 104 (2): 211–240. CiteSeerX  10.1.1.184.4759. Дои:10.1037 / 0033-295x.104.2.211.
  41. ^ Ландауэр Т. К., Фольц П. В. и Лахам Д. (1998). «Введение в скрытый семантический анализ» (PDF). Дискурсивные процессы. 25 (2–3): 259–284. CiteSeerX  10.1.1.125.109. Дои:10.1080/01638539809545028.CS1 maint: несколько имен: список авторов (связь)
  42. ^ "Расстояние сходства Google".
  43. ^ Дж. Камачо-Колладос, М. Т. Пилехвар и Р. Навильи. НАСАРИ: новый подход к семантическому представлению предметов. In Proceedings of the North American Chapter of the Association of Computational Linguistics (NAACL 2015), Денвер, США, стр. 567-577, 2015
  44. ^ Дж. Камачо-Колладос, М. Т. Пилехвар и Р. Навильи. Единое многоязычное семантическое представление понятий. В материалах 53-го ежегодного собрания Ассоциации компьютерной лингвистики (ACL 2015), Пекин, Китай, 27–29 июля, стр. 741-751, 2015 г.
  45. ^ Фендрих Дж., Вебер С., Арндт С. (2016) Разработка и использование меры семантического сходства для взаимодействия между агентами. В: Klusch M., Unland R., Shehory O., Pokahr A., ​​Ahrndt S. (eds) Multiagent System Technologies. MATES 2016. Lecture Notes in Computer Science, vol 9872. Springer, доступно по адресу авторская версия
  46. ^ К. д'Амато, С. Стааб и Н. Фаницци. О влиянии онтологий логики описания на концептуальное подобие. Инженерия знаний: практика и шаблоны, страницы 48-63, 2008 г. Дои:10.1007/978-3-540-87696-0_7
  47. ^ Рубинштейн, Герберт и Джон Б. Гуденаф. Контекстные корреляты синонимии. Сообщения ACM, 8 (10): 627–633, 1965.
  48. ^ Рубенштейн, Герберт; Гуденаф, Джон Б. (1965-10-01). «Контекстные корреляты синонимии». Коммуникации ACM. 8 (10): 627–633. Дои:10.1145/365628.365657. S2CID  18309234.
  49. ^ Миллер, Джордж А .; Чарльз, Уолтер Г. (1991-01-01). «Контекстные корреляты семантического сходства». Язык и когнитивные процессы. 6 (1): 1–28. Дои:10.1080/01690969108406936. ISSN  0169-0965.
  50. ^ «Размещение поиска в контексте». Транзакции ACM в информационных системах (TOIS). 20: 116–131. 2002-01-01. Дои:10.1145/503104.503110. S2CID  12956853.

Источники

внешняя ссылка

Обзорные статьи