Векторная модель пространства - Vector space model

Векторная модель пространства или же термин векторная модель представляет собой алгебраическую модель для представления текстовых документов (и любых объектов в целом) в виде векторов идентификаторов (например, терминов индекса). Он используется в фильтрация информации, поиск информации, индексация и рейтинги релевантности. Его первое использование было в Система поиска информации SMART.

Определения

Документы и запросы представлены в виде векторов.

Каждый измерение соответствует отдельному термину. Если термин встречается в документе, его значение в векторе не равно нулю. Было разработано несколько различных способов вычисления этих значений, также известных как (термины) веса. Одна из самых известных схем - tf-idf взвешивание (см. пример ниже).

Определение срок зависит от приложения. Обычно термины - это отдельные слова, ключевые слова, или более длинные фразы. Если в качестве терминов выбраны слова, размерность вектора - это количество слов в словаре (количество различных слов, встречающихся в корпус ).

Векторные операции можно использовать для сравнения документов с запросами.

Приложения

Vector space model.jpg

Актуальность рейтинги документов при поиске по ключевым словам можно рассчитать, используя предположения документы сходства теория, сравнивая отклонение углов между каждым вектором документа и исходным вектором запроса, где запрос представлен как вектор с той же размерностью, что и векторы, представляющие другие документы.

На практике легче рассчитать косинус угла между векторами, а не самого угла:

Где это пересечение (т.е. скалярное произведение ) документа (d2 на рисунке справа) и вектора запроса (q на рисунке), - норма вектора d2, и - норма вектора q. В норма вектора вычисляется как таковой:

Используя косинус, сходство между документами dj и запрос q можно рассчитать как:

Поскольку все векторы, рассматриваемые в этой модели, являются неотрицательными по элементам, нулевое значение косинуса означает, что вектор запроса и документа ортогональный и не имеют совпадений (т. е. термин запроса не существует в рассматриваемом документе). Видеть косинусное подобие для дополнительной информации.

Термин частотно-инверсная частотность документа

В классической модели векторного пространства, предложенной Salton, Вонг и Ян [1] веса, специфичные для терминов, в векторах документов являются произведением локальных и глобальных параметров. Модель известна как частота термина - обратная частота документа модель. Вектор веса для документа d является , куда

и

  • это периодичность срока т в документе d (локальный параметр)
  • - обратная частота документа (глобальный параметр). - общее количество документов в наборе документов; количество документов, содержащих термин т.

Преимущества

Модель векторного пространства имеет следующие преимущества перед моделью Стандартная логическая модель:

  1. Простая модель на основе линейной алгебры
  2. Веса терминов не двоичные
  3. Позволяет вычислять постоянную степень сходства между запросами и документами
  4. Позволяет ранжировать документы по их возможной релевантности
  5. Допускает частичное соответствие

Большинство этих преимуществ является следствием разницы в плотности представления коллекции документов между логическим подходом и подходом, обратным частотности термина. При использовании логических весов любой документ лежит в вершине n-мерного гиперкуб. Следовательно, возможные представления документов: а максимальное евклидово расстояние между парами равно . По мере добавления документов в коллекцию документов область, определяемая вершинами гиперкуба, становится более населенной и, следовательно, более плотной. В отличие от логического значения, когда документ добавляется с использованием весов частот, обратных к частоте, обратные частоты терминов в новом документе уменьшаются, в то время как частота остальных терминов увеличивается. В среднем по мере добавления документов область расположения документов расширяется, регулируя плотность представления всей коллекции. Такое поведение моделирует исходную мотивацию Солтона и его коллег, согласно которой коллекция документов, представленная в области с низкой плотностью, может дать лучшие результаты поиска.

Ограничения

Модель векторного пространства имеет следующие ограничения:

  1. Длинные документы плохо представлены из-за плохого сходства (небольшой скалярное произведение и большая размерность )
  2. Ключевые слова для поиска должны точно соответствовать условиям документа; слово подстроки может привести к "ложный положительный результат матч"
  3. Семантическая чувствительность; документы с аналогичным контекстом, но с другим словарем терминов не будут связаны, что приведет к "ложноотрицательный матч".
  4. Порядок, в котором термины появляются в документе, теряется в представлении векторного пространства.
  5. Теоретически предполагает, что термины статистически независимы.
  6. Взвешивание интуитивно понятно, но не очень формально.

Однако многие из этих трудностей можно преодолеть путем интеграции различных инструментов, включая математические методы, такие как разложение по сингулярным числам и лексические базы данных Такие как WordNet.

Модели, основанные на модели векторного пространства и расширяющие его

Модели, основанные на модели векторного пространства и расширяющие ее, включают:

Программное обеспечение, реализующее модель векторного пространства

Следующие программные пакеты могут быть интересны тем, кто желает поэкспериментировать с векторными моделями и реализовать на их основе поисковые сервисы.

Бесплатное программное обеспечение с открытым исходным кодом

дальнейшее чтение

Смотрите также

Рекомендации