Статистическая семантика - Statistical semantics

В лингвистика, статистическая семантика применяет методы статистика к проблеме определения значения слов или фраз, в идеале через обучение без учителя, со степенью точности, по крайней мере, достаточной для целей поиск информации.

История

Период, термин статистическая семантика впервые был использован Уоррен Уивер в его известной статье о машинный перевод.^[1] Он утверждал, что значение смысла слова для машинного перевода должен быть основан на совпадение частота контекстных слов рядом с заданным целевым словом. Основополагающее предположение о том, что «слово характеризует компания, которую оно составляет», было поддержано Дж. Р. Ферт.^[2] Это предположение известно в лингвистика как распределительная гипотеза.^[3] Определение Эмиля Делавенэ статистическая семантика как «статистическое исследование значений слов, их частоты и порядка повторения».^[4] "Фурнаш и другие. 1983 "часто упоминается как основополагающий вклад в статистическую семантику.^[5] Ранний успех в этой области был латентно-семантический анализ.

Приложения

Исследования статистической семантики привели к появлению большого количества алгоритмов, которые используют гипотезу распределения для обнаружения многих аспектов семантика, применяя статистические методы к большие корпуса:

Измерение сходство значений слов^[6]^[7]^[8]^[9]
Измерение сходства в словесных отношениях ^[10]
Моделирование обобщение на основе сходства^[11]
Обнаружение слов с заданным отношением^[12]
Классификация отношений между словами^[13]
Извлечение ключевых слов из документов^[14]^[15]
Измерение связности текста^[16]
Откройте для себя разные значения слов^[17]
Как различать разные значения слов^[18]
Субкогнитивные аспекты слов^[19]
Как отличить похвалу от критики^[20]

Связанные поля

Статистическая семантика фокусируется на значениях общих слов и отношениях между общими словами, в отличие от интеллектуальный анализ текста, который, как правило, фокусируется на целых документах, коллекциях документов или именованных объектах (имена людей, места и организации). Статистическая семантика - это подполе вычислительная семантика, которое, в свою очередь, является подполем компьютерная лингвистика и обработка естественного языка.

Многие приложения статистической семантики (перечисленные выше) также могут быть рассмотрены лексикон алгоритмов, вместо корпус алгоритмы статистической семантики. Одним из преимуществ корпусных алгоритмов является то, что они обычно не так трудоемки, как алгоритмы, основанные на лексике. Еще одно преимущество состоит в том, что их обычно легче адаптировать к новым языкам, чем алгоритмы, основанные на лексике. Однако наилучшая производительность в приложении часто достигается за счет комбинирования двух подходов.^[21]

Смотрите также

Рекомендации

Источники

Делавенэ, Эмиль (1960). Введение в машинный перевод. Нью-Йорк, штат Нью-Йорк: Темза и Гудзон. OCLC 1001646.
Ферт, Джон Р. (1957). «Краткий обзор лингвистической теории 1930-1955 годов». Исследования в области лингвистического анализа. Оксфорд: Филологическое общество: 1–32.
Перепечатано в Палмер, Ф.Р., изд. (1968). Избранные статьи Дж. Р. Ферта 1952–1959 гг.. Лондон: Лонгман. OCLC 123573912.
Франк, Эйбе; Пэйнтер, Гордон У .; Виттен, Ян Х .; Гутвин, Карл; Невилл-Мэннинг, Крейг Г. (1999). «Извлечение ключевой фразы, зависящей от домена». Материалы шестнадцатой международной совместной конференции по искусственному интеллекту. IJCAI-99. 2. Калифорния: Морган Кауфманн. С. 668–673. CiteSeerX 10.1.1.148.3598. ISBN 1-55860-613-0.
Фурнаш, Джордж У.; Ландауэр, Т. К .; Gomez, L.M .; Дюмэ, С. Т. (1983). «Статистическая семантика: анализ потенциальной эффективности информационных систем по ключевым словам» (PDF). Технический журнал Bell System. 62 (6): 1753–1806. Дои:10.1002 / j.1538-7305.1983.tb03513.x. S2CID 22483184. Архивировано из оригинал (PDF) на 2016-03-04. Получено 2012-07-12.
Херст, Марти А. (1992). «Автоматическое получение гипонимов из больших текстовых корпусов» (PDF). Труды четырнадцатой Международной конференции по компьютерной лингвистике. COLING '92. Нант, Франция. С. 539–545. CiteSeerX 10.1.1.36.701. Дои:10.3115/992133.992154. Архивировано из оригинал (PDF) на 2012-05-22. Получено 2012-07-12.
Ландауэр, Томас К .; Дюмэ, Сьюзен Т. (1997). «Решение проблемы Платона: теория скрытого семантического анализа приобретения, индукции и представления знаний». Психологический обзор. 104 (2): 211–240. CiteSeerX 10.1.1.184.4759. Дои:10.1037 / 0033-295x.104.2.211.
Лунд, Кевин; Берджесс, Курт; Эчли, Рут Энн (1995). «Семантическое и ассоциативное праймирование в многомерном семантическом пространстве» (PDF). Материалы 17-й ежегодной конференции Общества когнитивных наук. Общество когнитивных наук. С. 660–665.^{[постоянная мертвая ссылка ]}
Макдональд, Скотт; Рамскар, Майкл (2001). «Проверка гипотезы распределения: влияние контекста на суждения о семантическом сходстве» (PDF). Материалы 23-й ежегодной конференции Общества когнитивных наук. С. 611–616. CiteSeerX 10.1.1.104.7535.^{[постоянная мертвая ссылка ]}
Пантел, Патрик; Лин, Деканг (2002). «Обнаружение смысла слова из текста». Материалы конференции ACM SIGKDD по открытию знаний и интеллектуальному анализу данных. KDD '02. С. 613–619. CiteSeerX 10.1.1.12.6771. Дои:10.1145/775047.775138. ISBN 1-58113-567-X.
Сальгрен, Магнус (2008). "Гипотеза распределения" (PDF). Rivista di Linguistica. 20 (1): 33–53.
Terra, Egidio L .; Кларк, Чарльз Л. А. (2003). «Частотные оценки статистических показателей сходства слов» (PDF). Труды конференции по технологии человеческого языка и североамериканского отделения ассоциации компьютерной лингвистики, 2003 г.. HLT / NAACL 2003. С. 244–251. CiteSeerX 10.1.1.12.9041. Дои:10.3115/1073445.1073477. Архивировано из оригинал (PDF) на 2013-11-03. Получено 2012-07-12.
Терни, Питер Д. (май 2000 г.). «Алгоритмы обучения для извлечения ключевых фраз». Поиск информации. 2 (4): 303–336. arXiv:cs / 0212020. CiteSeerX 10.1.1.11.1829. Дои:10.1023 / А: 1009976227802. S2CID 7007323.
Терни, Питер Д. (2001). «Отвечая на вопросы субкогнитивного теста Тьюринга: ответ на французский язык». Журнал экспериментального и теоретического искусственного интеллекта. 13 (4): 409–419. arXiv:cs / 0212015. CiteSeerX 10.1.1.12.8734. Дои:10.1080/09528130110100270. S2CID 59099.
Терни, Питер Д. (2003). «Последовательное извлечение ключевых фраз с помощью веб-майнинга». Материалы восемнадцатой международной совместной конференции по искусственному интеллекту. IJCAI-03. Акапулько, Мексика. С. 434–439. arXiv:cs / 0308033. Bibcode:2003cs ........ 8033T. CiteSeerX 10.1.1.100.3751.
Терни, Питер Д. (2004). «Устранение неоднозначности слов с помощью веб-интеллектуального анализа вероятностей совпадения слов». Материалы Третьего международного семинара по оценке систем семантического анализа текста. СЕНСЕВАЛ-3. Барселона, Испания. С. 239–242. arXiv:cs / 0407065. Bibcode:2004cs ........ 7065T.
Терни, Питер Д. (2006). «Сходство смысловых отношений». Компьютерная лингвистика. 32 (3): 379–416. arXiv:cs / 0608100. Bibcode:2006cs ........ 8100T. CiteSeerX 10.1.1.75.8007. Дои:10.1162 / coli.2006.32.3.379. S2CID 2468783.
Терни, Питер Д .; Литтман, Майкл Л. (октябрь 2003 г.). «Измерение похвалы и критики: вывод семантической ориентации из ассоциации». ACM-транзакции в информационных системах. 21 (4): 315–346. arXiv:cs / 0309034. Bibcode:2003cs ........ 9034T. CiteSeerX 10.1.1.9.6425. Дои:10.1145/944012.944013. S2CID 2024.
Терни, Питер Д .; Литтман, Майкл Л. (2005). «Корпоративное изучение аналогий и семантических отношений». Машинное обучение. 60 (1–3): 251–278. arXiv:cs / 0508103. Bibcode:2005cs ........ 8103T. CiteSeerX 10.1.1.90.9819. Дои:10.1007 / s10994-005-0913-1. S2CID 9322367.
Терни, Питер Д .; Littman, Michael L .; Бигхэм, Джеффри; Шнайдер, Виктор (2003). «Объединение независимых модулей для решения проблем синонимов и аналогий с множественным выбором». Труды Международной конференции по последним достижениям в обработке естественного языка. РАНЛП-03. Боровец, Болгария. С. 482–489. arXiv:cs / 0309035. Bibcode:2003cs ........ 9035T. CiteSeerX 10.1.1.5.2939.
Уивер, Уоррен (1955). "Перевод" (PDF). В Локке, W.N .; Бут, Д.А. (ред.). Машинный перевод языков. Кембридж, Массачусетс: MIT Press. С. 15–23. ISBN 0-8371-8434-7.
Ярлетт, Дэниел Г. (2008). Изучение языка через обобщение на основе сходства (PDF) (Кандидатская диссертация). Стэндфордский Университет. Архивировано из оригинал (PDF) 2014-04-19.

[1] Ткач 1955

[2] Ферт 1957

[3] Сальгрен 2008

[4] Delavenay 1960

[5] Furnas et al. 1983 г.

[6] Лунд, Берджесс и Эчли, 1995 г.

[7] Ландауэр и Дюмэ, 1997 г.

[8] Макдональд и Рамскар 2001

[9] Терра и Кларк 2003

[10] Терни 2006

[11] Ярлетт 2008

[12] Херст 1992

[13] Терни и Литтман 2005

[14] Франк и др. 1999 г.

[15] Терни 2000

[16] Терни 2003

[17] Пантел и Лин 2002

[18] Терни 2004

[19] Терни 2001

[20] Терни и Литтман, 2003 г.

[21] Turney et al. 2003 г.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]