Встраивание слов - Word embedding

Встраивание слов любой из набора языковое моделирование и особенности обучения методы в обработка естественного языка (НЛП), где слова или фразы из словаря отображаются в векторов из действительные числа. Концептуально это включает математический встраивание от пробела с множеством измерений на слово до непрерывного векторное пространство с гораздо меньшим размером.

Методы создания этого сопоставления включают нейронные сети,[1] уменьшение размерности на слово матрица совместной встречаемости,[2][3][4] вероятностные модели,[5] объяснимый метод базы знаний,[6] и явное представление в терминах контекста, в котором появляются слова.[7]

Было показано, что встраивание слов и фраз при использовании в качестве базового входного представления повышает производительность в таких задачах НЛП, как синтаксический анализ[8] и анализ настроений.[9]

Развитие и история подхода

В лингвистика, вложения слов обсуждались в области исследований распределительная семантика. Он направлен на количественную оценку и категоризацию семантических сходств между лингвистическими элементами на основе их свойств распределения в больших выборках языковых данных. Основная идея о том, что «слово характеризует компания, которую оно составляет», была популяризирована Ферт.[10]

Понятие семантического пространства с лексическими элементами (словами или многословными терминами), представленными в виде векторов или вложений, основано на вычислительных задачах захвата характеристик распределения и их использования для практического применения для измерения сходства между словами, фразами или целыми документами. Первое поколение моделей семантического пространства - это векторная космическая модель для поиска информации.[11][12][13] Такие модели векторного пространства для слов и данных об их распределении, реализованные в их простейшей форме, приводят к очень разреженному векторному пространству высокой размерности (см. Проклятие размерности ). Уменьшение количества измерений с помощью методов линейной алгебры, таких как разложение по сингулярным числам затем привел к введению латентно-семантический анализ в конце 1980-х и Случайная индексация подход к сбору контекстов совпадения слов.[14][15][16][17][18] В 2000 г. Bengio и другие. представил в серии статей «Нейронные вероятностные языковые модели» для уменьшения высокой размерности представлений слов в контекстах путем «изучения распределенного представления слов».[19][20] Вложения слов бывают двух разных стилей: один, в котором слова выражаются как векторы совпадающих слов, и другой, в котором слова выражаются как векторы лингвистических контекстов, в которых эти слова встречаются; эти разные стили изучаются в (Lavelli et al., 2004).[21] Роуейс и Саул опубликованы в Наука как пользоваться "локально линейное вложение "(LLE) для обнаружения представлений многомерных структур данных.[22] Большинство новых методов встраивания слов, появившихся примерно после 2005 г., основаны на нейронная сеть архитектура вместо более вероятностных и алгебраических моделей, начиная с некоторых основополагающих работ Йошуа Бенжио и его коллег.[23][24]

Этот подход был принят многими исследовательскими группами после того, как примерно в 2010 году были достигнуты успехи в теоретической работе по качеству векторов и скорости обучения модели, а усовершенствования аппаратного обеспечения позволили с пользой изучить более широкое пространство параметров. В 2013 году команда на Google под руководством Томаша Миколова создали word2vec, набор инструментов для встраивания слов, который может обучать модели векторного пространства быстрее, чем предыдущие подходы. Подход word2vec широко использовался в экспериментах и ​​способствовал повышению интереса к встраиванию слов как технологии, перемещению исследовательского направления из специализированных исследований в более широкие эксперименты и, в конечном итоге, проложив путь для практического применения.[25]

Ограничения

Одно из основных ограничений встраивания слов (слово векторные космические модели в общем) состоит в том, что слова с несколькими значениями объединяются в одно представление (один вектор в семантическом пространстве). Другими словами, многозначность и омонимия не рассматриваются должным образом. Например, в предложении «Клуб, который я попробовал вчера, был отличным!», Неясно, используется ли термин клуб связано со смыслом слова Клубный сендвич, бейсбольный клуб, клуб, гольф Клуб, или любое другое чувство, что клуб должно быть. Необходимость приспосабливать несколько значений к слову в разных векторах (многосмысловые вложения) является мотивацией для нескольких вкладов в НЛП, чтобы разделить односмысловые вложения на многосмысленные.[26][27]

Большинство подходов, которые производят многозначные встраивания, можно разделить на две основные категории по их словесному представлению, то есть неконтролируемые и основанные на знаниях.[28] На основе word2vec скип-грамм, Multi-Sense Skip-Gram (MSSG)[29] выполняет различение смыслов слова и встраивание одновременно, сокращая время обучения, предполагая при этом определенное количество смыслов для каждого слова. В непараметрической мультисмысловой пропускной грамме (NP-MSSG) это число может варьироваться в зависимости от каждого слова. Комбинируя предварительные знания лексических баз данных (например, WordNet, ConceptNet, BabelNet ), вложения слов и устранение неоднозначности слов, наиболее подходящая смысловая аннотация (MSSA)[30] маркирует смыслы слова с помощью неконтролируемого подхода, основанного на знаниях, с учетом контекста слова в заранее определенном скользящем окне. Как только слова устранены, их можно использовать в стандартной технике встраивания слов, так что создаются многосмысленные вложения. Архитектура MSSA позволяет периодически выполнять процесс устранения неоднозначности и аннотации в самоулучшающейся манере.

Известно, что использование мультисмысловых вложений улучшает производительность в некоторых задачах НЛП, таких как теги части речи, идентификация семантических отношений и семантическое родство. Однако задачи, связанные с признание названного лица и анализ настроений, похоже, не выигрывает от множественного векторного представления.[31]

Для биологических последовательностей: BioVectors

Вложения слов для н-граммов в биологических последовательностях (например, ДНК, РНК и белки) для биоинформатика приложения были предложены Асгари и Мофрадом.[32] Названные био-векторы (BioVec) для обозначения биологических последовательностей в целом с белковыми векторами (ProtVec) для белков (аминокислотными последовательностями) и ген-векторами (GeneVec) для последовательностей генов, это представление может широко использоваться в приложениях глубокого анализа. обучение в протеомика и геномика. Результаты, представленные Асгари и Мофрадом[32] предполагают, что BioVectors могут характеризовать биологические последовательности с точки зрения биохимических и биофизических интерпретаций лежащих в основе паттернов.

Векторы мысли

Векторы мысли являются расширением встраивания слов для целых предложений или даже документов. Некоторые исследователи надеются, что это может улучшить качество машинный перевод.[33]

Программного обеспечения

Программное обеспечение для обучения и использования встраивания слов включает Tomas Mikolov's Word2vec, Стэнфордский университет Перчатка,[34] GN-GloVe,[35] AllenNLP's ELMo,[36] БЕРТ,[37] fastText, Gensim,[38] Индра[39] и Deeplearning4j. Анализ главных компонентов (PCA) и T-распределенное стохастическое соседнее вложение (t-SNE) используются для уменьшения размерности векторных пространств слов и визуализации вложений слов и кластеры.[40]

Примеры применения

Например, fastText также используется для вычисления вложений слов для текстовые корпуса в Sketch Engine которые доступны в Интернете.[41]

Смотрите также

Рекомендации

  1. ^ Миколов, Томас; Суцкевер, Илья; Чен, Кай; Коррадо, Грег; Дин, Джеффри (2013). «Распределенные представления слов и фраз и их композиционность». arXiv:1310.4546 [cs.CL ].
  2. ^ Лебре, Реми; Коллобер, Ронан (2013). "Word Emdeddings через Hellinger PCA". Конференция Европейского отделения Ассоциации компьютерной лингвистики (EACL). 2014. arXiv:1312.5542. Bibcode:2013arXiv1312.5542L.
  3. ^ Леви, Омер; Гольдберг, Йоав (2014). Вложение нейронных слов как неявная матричная факторизация (PDF). НИПС.
  4. ^ Ли, Йитань; Сюй, Линли (2015). Пересмотр встраивания слов: изучение нового представления и перспектива явной матричной факторизации (PDF). Int'l J. Conf. по искусственному интеллекту (IJCAI).
  5. ^ Глоберсон, Амир (2007). «Евклидово вложение данных совместной встречаемости» (PDF). Журнал исследований в области машинного обучения.
  6. ^ Куреши, М. Атиф; Грин, Дерек (2018-06-04). «EVE: объяснимая техника встраивания на основе векторов с использованием Википедии». Журнал интеллектуальных информационных систем. 53: 137–165. arXiv:1702.06891. Дои:10.1007 / s10844-018-0511-х. ISSN  0925-9902. S2CID  10656055.
  7. ^ Леви, Омер; Гольдберг, Йоав (2014). Лингвистические закономерности в разреженных и явных представлениях слов (PDF). CoNLL. С. 171–180.
  8. ^ Сохер, Ричард; Бауэр, Джон; Мэннинг, Кристофер; Нг, Эндрю (2013). Разбор с использованием композиционных векторных грамматик (PDF). Proc. ACL Conf.
  9. ^ Сохер, Ричард; Перелыгин Алексей; Ву, Жан; Чуанг, Джейсон; Мэннинг, Крис; Нг, Эндрю; Поттс, Крис (2013). Рекурсивные глубинные модели для семантической композиционности по банку дерева настроений (PDF). ЕМНЛП.
  10. ^ Ферт, Дж. Р. (1957). «Краткий обзор лингвистической теории 1930–1955 годов». Исследования в области лингвистического анализа: 1–32.CS1 maint: ref = harv (связь) Перепечатано в F.R. Палмер, изд. (1968). Избранные статьи Дж. Р. Ферта 1952–1959 гг.. Лондон: Лонгман.
  11. ^ Солтон, Джерард (1962). «Некоторые эксперименты по созданию словесных и документальных ассоциаций». Proceeding AFIPS '62 (осень) Материалы осенней совместной компьютерной конференции 4–6 декабря 1962 г.: 234–250. Получено 18 октября 2020.
  12. ^ Солтон, Джерард; Вонг, А; Ян, С. С. (1975). «Модель векторного пространства для автоматического индексирования». Сообщения Ассоциации вычислительной техники (CACM): 613–620.
  13. ^ Дубин, Дэвид (2004). «Самая влиятельная газета, которую никогда не писал Джерард Солтон». Получено 18 октября 2020.
  14. ^ Сальгрен, Магнус. «Краткая история встраивания слов».
  15. ^ Канерва, Пентти, Кристоферсон, Ян и Холст, Андерс (2000): Случайное индексирование текстовых выборок для скрытого семантического анализа, Труды 22-й ежегодной конференции Общества когнитивных наук, с. 1036. Махва, Нью-Джерси: Эрлбаум, 2000.
  16. ^ Карлгрен, Юсси; Сальгрен, Магнус (2001). Уэсака, Ёсинори; Канерва, Пентти; Асох, Хидеки (ред.). «От слов к пониманию». Основы реальной разведки. Публикации CSLI: 294–308.
  17. ^ Сальгрен, Магнус (2005) Введение в случайную индексацию, Труды семинара по методам и применению семантического индексирования на 7-й Международной конференции по терминологии и инженерии знаний, TKE 2005, 16 августа, Копенгаген, Дания
  18. ^ Сальгрен, Магнус, Холст, Андерс и Пентти Канерва (2008) Перестановки как средство кодирования порядка в пространстве слов, В материалах 30-й ежегодной конференции Общества когнитивных наук: 1300–1305.
  19. ^ Бенхио, Йошуа; Дюшарм, Реджан; Винсент, Паскаль; Жовен, Кристиан (2003). «Нейро-вероятностная языковая модель» (PDF). Журнал исследований в области машинного обучения. 3: 1137–1155.
  20. ^ Бенхио, Йошуа; Швенк, Хольгер; Сенекаль, Жан-Себастьян; Морен, Фредерик; Говен, Жан-Люк (2006). Нейронно-вероятностная языковая модель. Исследования нечеткости и мягких вычислений. 194. С. 137–186. Дои:10.1007/3-540-33486-6_6. ISBN  978-3-540-30609-2.
  21. ^ Лавелли, Альберто; Себастьяни, Фабрицио; Заноли, Роберто (2004). Представления терминов распределения: экспериментальное сравнение. 13-я Международная конференция ACM по управлению информацией и знаниями. С. 615–624. Дои:10.1145/1031171.1031284.
  22. ^ Roweis, Sam T .; Сол, Лоуренс К. (2000). «Снижение нелинейной размерности локально линейным вложением». Наука. 290 (5500): 2323–6. Bibcode:2000Sci ... 290.2323R. CiteSeerX  10.1.1.111.3313. Дои:10.1126 / science.290.5500.2323. PMID  11125150.
  23. ^ Морен, Фредрик; Бенхио, Йошуа (2005). «Иерархическая вероятностная языковая модель нейронной сети». AIstats. 5: 246–252.
  24. ^ Мних, Андрей; Хинтон, Джеффри (2009). «Масштабируемая иерархическая распределенная языковая модель». Достижения в системах обработки нейронной информации 21 (NIPS 2008). Curran Associates, Inc .: 1081–1088.
  25. ^ word2vec
  26. ^ Райзингер, Джозеф; Муни, Раймонд Дж. (2010). Мультипрототипные векторно-пространственные модели значения слова. Технологии человеческого языка: Ежегодная конференция Североамериканского отделения Ассоциации компьютерной лингвистики 2010 г. Лос-Анджелес, Калифорния: Ассоциация компьютерной лингвистики. С. 109–117. ISBN  978-1-932432-65-7. Получено 25 октября, 2019.
  27. ^ Хуанг, Эрик. (2012). Улучшение представления слов с помощью глобального контекста и множественных прототипов слов. OCLC  857900050.
  28. ^ Камачо-Колладос, Хосе; Пилехвар, Мохаммад Тахер (2018). От слов к смысловым вложениям: обзор векторных представлений значений. arXiv:1805.04032. Bibcode:2018arXiv180504032C.
  29. ^ Нилакантан, Арвинд; Шанкар, Дживан; Пассос, Александр; Маккаллум, Эндрю (2014). «Эффективное непараметрическое оценивание множественных вложений на слово в векторном пространстве». Материалы конференции 2014 г. по эмпирическим методам обработки естественного языка (EMNLP). Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики: 1059–1069. arXiv:1504.06654. Дои:10.3115 / v1 / d14-1113. S2CID  15251438.
  30. ^ Руас, Терри; Гроски, Уильям; Аидзава, Акико (01.12.2019). "Многосмысловые вложения посредством процесса устранения неоднозначности". Экспертные системы с приложениями. 136: 288–303. Дои:10.1016 / j.eswa.2019.06.026. HDL:2027.42/145475. ISSN  0957-4174.
  31. ^ Ли, Цзивэй; Джурафски, Дэн (2015). «Улучшают ли мультисмысловые вложения понимание естественного языка?». Материалы конференции 2015 года по эмпирическим методам обработки естественного языка. Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики: 1722–1732. arXiv:1506.01070. Дои:10.18653 / v1 / d15-1200. S2CID  6222768.
  32. ^ а б Асгари, Эхсанеддин; Мофрад, Мохаммад Р.К. (2015). «Непрерывное распределенное представление биологических последовательностей для глубокой протеомики и геномики». PLOS ONE. 10 (11): e0141287. arXiv:1503.05140. Bibcode:2015PLoSO..1041287A. Дои:10.1371 / journal.pone.0141287. ЧВК  4640716. PMID  26555596.
  33. ^ Кирос, Райан; Чжу, Юкун; Салахутдинов Руслан; Земель, Ричард С .; Торральба, Антонио; Уртасун, Ракель; Фидлер, Саня (2015). "векторы пропуска мысли". arXiv:1506.06726 [cs.CL ].
  34. ^ "Перчатка".
  35. ^ Чжао, Цзеюй; и другие. (2018). «Изучение гендерно-нейтральных встраиваний слов». arXiv:1809.01496 [cs.CL ].
  36. ^ "Элмо".
  37. ^ Пирес, Тельмо; Шлингер, Ева; Гаррет, Дэн (2019-06-04). «Насколько многоязычным является Multilingual BERT?». arXiv:1906.01502 [cs.CL ].
  38. ^ "Генсим".
  39. ^ "Индра". 2018-10-25.
  40. ^ Гассеми, Мохаммад; Марк, Роджер; Немати, Шамим (2015). «Визуализация развивающихся клинических настроений с использованием векторных представлений клинических заметок» (PDF). Компьютеры в кардиологии.
  41. ^ «Встроенный просмотрщик». Встраивание программы просмотра. Лексические вычисления. Получено 7 февраля 2018.