Векторная модель пространства - Vector space model
Векторная модель пространства или же термин векторная модель представляет собой алгебраическую модель для представления текстовых документов (и любых объектов в целом) в виде векторов идентификаторов (например, терминов индекса). Он используется в фильтрация информации, поиск информации, индексация и рейтинги релевантности. Его первое использование было в Система поиска информации SMART.
Определения
Документы и запросы представлены в виде векторов.
Каждый измерение соответствует отдельному термину. Если термин встречается в документе, его значение в векторе не равно нулю. Было разработано несколько различных способов вычисления этих значений, также известных как (термины) веса. Одна из самых известных схем - tf-idf взвешивание (см. пример ниже).
Определение срок зависит от приложения. Обычно термины - это отдельные слова, ключевые слова, или более длинные фразы. Если в качестве терминов выбраны слова, размерность вектора - это количество слов в словаре (количество различных слов, встречающихся в корпус ).
Векторные операции можно использовать для сравнения документов с запросами.
Приложения
Актуальность рейтинги документов при поиске по ключевым словам можно рассчитать, используя предположения документы сходства теория, сравнивая отклонение углов между каждым вектором документа и исходным вектором запроса, где запрос представлен как вектор с той же размерностью, что и векторы, представляющие другие документы.
На практике легче рассчитать косинус угла между векторами, а не самого угла:
Где это пересечение (т.е. скалярное произведение ) документа (d2 на рисунке справа) и вектора запроса (q на рисунке), - норма вектора d2, и - норма вектора q. В норма вектора вычисляется как таковой:
Используя косинус, сходство между документами dj и запрос q можно рассчитать как:
Поскольку все векторы, рассматриваемые в этой модели, являются неотрицательными по элементам, нулевое значение косинуса означает, что вектор запроса и документа ортогональный и не имеют совпадений (т. е. термин запроса не существует в рассматриваемом документе). Видеть косинусное подобие для дополнительной информации.
Термин частотно-инверсная частотность документа
В классической модели векторного пространства, предложенной Salton, Вонг и Ян [1] веса, специфичные для терминов, в векторах документов являются произведением локальных и глобальных параметров. Модель известна как частота термина - обратная частота документа модель. Вектор веса для документа d является , куда
и
- это периодичность срока т в документе d (локальный параметр)
- - обратная частота документа (глобальный параметр). - общее количество документов в наборе документов; количество документов, содержащих термин т.
Преимущества
Модель векторного пространства имеет следующие преимущества перед моделью Стандартная логическая модель:
- Простая модель на основе линейной алгебры
- Веса терминов не двоичные
- Позволяет вычислять постоянную степень сходства между запросами и документами
- Позволяет ранжировать документы по их возможной релевантности
- Допускает частичное соответствие
Большинство этих преимуществ является следствием разницы в плотности представления коллекции документов между логическим подходом и подходом, обратным частотности термина. При использовании логических весов любой документ лежит в вершине n-мерного гиперкуб. Следовательно, возможные представления документов: а максимальное евклидово расстояние между парами равно . По мере добавления документов в коллекцию документов область, определяемая вершинами гиперкуба, становится более населенной и, следовательно, более плотной. В отличие от логического значения, когда документ добавляется с использованием весов частот, обратных к частоте, обратные частоты терминов в новом документе уменьшаются, в то время как частота остальных терминов увеличивается. В среднем по мере добавления документов область расположения документов расширяется, регулируя плотность представления всей коллекции. Такое поведение моделирует исходную мотивацию Солтона и его коллег, согласно которой коллекция документов, представленная в области с низкой плотностью, может дать лучшие результаты поиска.
Ограничения
Модель векторного пространства имеет следующие ограничения:
- Длинные документы плохо представлены из-за плохого сходства (небольшой скалярное произведение и большая размерность )
- Ключевые слова для поиска должны точно соответствовать условиям документа; слово подстроки может привести к "ложный положительный результат матч"
- Семантическая чувствительность; документы с аналогичным контекстом, но с другим словарем терминов не будут связаны, что приведет к "ложноотрицательный матч".
- Порядок, в котором термины появляются в документе, теряется в представлении векторного пространства.
- Теоретически предполагает, что термины статистически независимы.
- Взвешивание интуитивно понятно, но не очень формально.
Однако многие из этих трудностей можно преодолеть путем интеграции различных инструментов, включая математические методы, такие как разложение по сингулярным числам и лексические базы данных Такие как WordNet.
Модели, основанные на модели векторного пространства и расширяющие его
Модели, основанные на модели векторного пространства и расширяющие ее, включают:
- Обобщенная модель векторного пространства
- Скрытый семантический анализ
- Срок
- Классификация Роккио
- Случайная индексация
Программное обеспечение, реализующее модель векторного пространства
Следующие программные пакеты могут быть интересны тем, кто желает поэкспериментировать с векторными моделями и реализовать на их основе поисковые сервисы.
Бесплатное программное обеспечение с открытым исходным кодом
- Apache Lucene. Apache Lucene - это высокопроизводительная полнофункциональная библиотека системы текстового поиска, полностью написанная на Java.
- Elasticsearch. Еще одна высокопроизводительная полнофункциональная поисковая система с использованием Lucene.
- Gensim это Python +NumPy фреймворк для моделирования векторного пространства. Он содержит инкрементальные (эффективные с точки зрения памяти) алгоритмы для частота термина - обратная частота документа, Скрытое семантическое индексирование, Случайные прогнозы и Скрытое размещение Дирихле.
- Weka. Weka - популярный пакет интеллектуального анализа данных для Java, включающий WordVectors и Модели Bag Of Words.
- Word2vec. Word2vec использует векторные пространства для встраивания слов.
дальнейшее чтение
- Дж. Солтон (1962), "Некоторые эксперименты по созданию словесных и документальных ассоциаций " Proceeding AFIPS '62 (осень) Материалы осенней совместной компьютерной конференции 4–6 декабря 1962 г., страницы 234–250. (Ранняя работа Солтона, использующая формализацию матрицы термина-документа)
- Дж. Солтон, А. Вонг и К. С. Янг (1975) "Модель векторного пространства для автоматического индексирования " Коммуникации ACM, т. 18, н. 11, страницы 613–620. (Статья, в которой была представлена модель векторного пространства)
- Дэвид Дубин (2004), Самая влиятельная газета, которую никогда не писал Джерард Салтон (Объясняет историю модели векторного пространства и отсутствие часто цитируемой публикации)
- Описание модели векторного пространства
- Описание классической модели векторного пространства доктором Э. Гарсиа
- Связь поиска в векторном пространстве с поиском "k-ближайшего соседа"
Смотрите также
- Модель мешка слов
- Обработка сложных терминов
- Концептуальное пространство
- Собственные значения и собственные векторы
- Инвертированный индекс
- Поиск ближайшего соседа
- Редкая распределенная память
- шинглинг
Рекомендации
- ^ Г. Солтон, А. Вонг, К. С. Ян, Модель векторного пространства для автоматического индексирования, Сообщения ACM, т.18, №11, стр.613–620, ноябрь 1975 г.