Статистическая семантика - Statistical semantics

В лингвистика, статистическая семантика применяет методы статистика к проблеме определения значения слов или фраз, в идеале через обучение без учителя, со степенью точности, по крайней мере, достаточной для целей поиск информации.

История

Период, термин статистическая семантика впервые был использован Уоррен Уивер в его известной статье о машинный перевод.[1] Он утверждал, что значение смысла слова для машинного перевода должен быть основан на совпадение частота контекстных слов рядом с заданным целевым словом. Основополагающее предположение о том, что «слово характеризует компания, которую оно составляет», было поддержано Дж. Р. Ферт.[2] Это предположение известно в лингвистика как распределительная гипотеза.[3] Определение Эмиля Делавенэ статистическая семантика как «статистическое исследование значений слов, их частоты и порядка повторения».[4] "Фурнаш и другие. 1983 "часто упоминается как основополагающий вклад в статистическую семантику.[5] Ранний успех в этой области был латентно-семантический анализ.

Приложения

Исследования статистической семантики привели к появлению большого количества алгоритмов, которые используют гипотезу распределения для обнаружения многих аспектов семантика, применяя статистические методы к большие корпуса:

  • Измерение сходство значений слов[6][7][8][9]
  • Измерение сходства в словесных отношениях [10]
  • Моделирование обобщение на основе сходства[11]
  • Обнаружение слов с заданным отношением[12]
  • Классификация отношений между словами[13]
  • Извлечение ключевых слов из документов[14][15]
  • Измерение связности текста[16]
  • Откройте для себя разные значения слов[17]
  • Как различать разные значения слов[18]
  • Субкогнитивные аспекты слов[19]
  • Как отличить похвалу от критики[20]

Связанные поля

Статистическая семантика фокусируется на значениях общих слов и отношениях между общими словами, в отличие от интеллектуальный анализ текста, который, как правило, фокусируется на целых документах, коллекциях документов или именованных объектах (имена людей, места и организации). Статистическая семантика - это подполе вычислительная семантика, которое, в свою очередь, является подполем компьютерная лингвистика и обработка естественного языка.

Многие приложения статистической семантики (перечисленные выше) также могут быть рассмотрены лексикон алгоритмов, вместо корпус алгоритмы статистической семантики. Одним из преимуществ корпусных алгоритмов является то, что они обычно не так трудоемки, как алгоритмы, основанные на лексике. Еще одно преимущество состоит в том, что их обычно легче адаптировать к новым языкам, чем алгоритмы, основанные на лексике. Однако наилучшая производительность в приложении часто достигается за счет комбинирования двух подходов.[21]

Смотрите также

Рекомендации

Источники