Извлечение ключевых слов - Keyword extraction - Wikipedia

Извлечение ключевых слов Задача - автоматическое определение терминов, которые лучше всего описывают предмет документа.[1] [2]

Ключевые слова, ключевые термины, ключевые сегменты или просто ключевые слова это терминология, которая используется для определения терминов, которые представляют наиболее важную информацию, содержащуюся в документе. Хотя терминология иная, функция остается той же: описание темы, обсуждаемой в документе. Задача извлечения ключевых слов - важная проблема в Текстовый анализ, Поиск информации и Обработка естественного языка.[3]

Назначение ключевых слов или извлечение

Методы присвоения ключевых слов можно условно разделить на:

  • присвоение ключевых слов (ключевые слова выбираются из контролируемого словаря или таксономии) и
  • извлечение ключевых слов (ключевые слова выбираются из слов, явно упомянутых в исходном тексте).

Методы автоматического извлечения ключевых слов могут быть контролируемыми, частично контролируемыми или неконтролируемыми.[4][5] Неконтролируемые методы могут быть далее разделены на простые статистические, лингвистические или основанные на графах, или методы ансамбля, которые объединяют некоторые или большинство из этих методов. [6]

Рекомендации

  1. ^ Белига, Слободан; Ана, Мештрович; Мартинчич-Ипшич, Санда. (2015). «Обзор методов и подходов к извлечению ключевых слов на основе графиков». Журнал информационных и организационных наук. 39 (1): 1–20.CS1 maint: использует параметр авторов (связь)
  2. ^ Рада Михалча и Пол Тарау (июль 2004 г.). TextRank: наведение порядка в текстах (PDF). Труды конференции по эмпирическим методам обработки естественного языка (EMNLP 2004). Барселона, Испания.CS1 maint: использует параметр авторов (связь)
  3. ^ Белига, Слободан; Мештрович, Ана; Мартинчич-Ипшич, Санда. (2014). На пути к извлечению ключевых слов на основе избирательности для хорватских новостей (PDF). Surfacing the Deep and the Social Web (SDSW 2014). 1310. Италия: CEUR Proc. С. 1–14.CS1 maint: использует параметр авторов (связь)
  4. ^ Alrehamy, H .; Уокер, К. (2017). SemCluster: неконтролируемое автоматическое извлечение ключевой фразы с использованием распространения сродства. 17-й британский семинар по вычислительному интеллекту.CS1 maint: использует параметр авторов (связь)
  5. ^ «Извлечение ключевых слов: из TF-IDF в BERT».
  6. ^ Тайфун Пей; Стивен Луччи (2017). Автоматическое извлечение ключевых слов: метод ансамбля. Международная конференция IEEE 2017 по большим данным (Big Data). Дои:10.1109 / BigData.2017.8258552.CS1 maint: использует параметр авторов (связь)


дальнейшее чтение

Статья в журнале: Н. Фирозех, А. Назаренко, Ф. Ализон, Б. Дайль. 2019. Извлечение ключевых слов: проблемы и методы. Инженерия естественного языка, 1-33, DOI: 10.1017 / S1351324919000457, Cambridge University Press