Поиск по близости (текст) - Proximity search (text)

В обработка текста, а поиск близости ищет документы, в которых два или более отдельных совпадения термина находятся в пределах указанного расстояние, где расстояние - это количество промежуточных слов или символов. В дополнение к близости некоторые реализации могут также накладывать ограничение на порядок слов, в котором порядок в искомом тексте должен быть идентичен порядку поискового запроса. Поиск по близости выходит за рамки простого сопоставления слов путем добавления ограничения близости и обычно рассматривается как форма расширенного поиска.

Например, при поиске можно найти «дом из красного кирпича» и сопоставить такие фразы, как «дом из красного кирпича» или «дом из красного кирпича». Ограничивая близость, эти фразы могут быть сопоставлены, избегая документов, в которых слова разбросаны или разбросаны по странице, или в несвязанных статьях в антологии.

Обоснование

Основное лингвистическое предположение поиска по близости состоит в том, что близость слов в документе подразумевает отношение между словами. Учитывая, что авторы документов пытаются сформулировать предложения, содержащие одну идею или группу связанных идей в пределах соседних предложений или организованных в абзацы, в структуре документа существует внутренняя, относительно высокая вероятность того, что слова, используемые вместе, связаны. С другой стороны, когда два слова находятся на противоположных концах книги, вероятность связи между словами относительно мала. За счет ограничения результатов поиска включением только совпадений, где слова находятся в пределах указанной максимальной близости или расстояния, предполагается, что результаты поиска имеют более высокую релевантность, чем совпадения, в которых слова разбросаны.

Коммерческие поисковые системы в Интернете, как правило, выдают слишком много совпадений (так называемых отзыва) для среднего поискового запроса. Поиск по близости - это один из методов уменьшения количества совпадений страниц и повышения релевантности найденных страниц за счет использования близости слов для помощи в ранжировании. В качестве дополнительного преимущества поиск с близкого расстояния помогает сражаться спамдексинг избегая веб-страниц, которые содержат списки словарей или списки из тысяч слов, которые в противном случае имели бы высокий рейтинг, если бы поисковая система была сильно смещена в частота слов.

Логический синтаксис и операторы

Обратите внимание, что поиск по близости может указывать на то, что только некоторые ключевые слова должны находиться в пределах указанного расстояния. Поиск по близости можно использовать с другим синтаксисом поиска и / или элементами управления, чтобы обеспечить более четкую формулировку поисковых запросов. Иногда операторы запроса, такие как NEAR, NOT NEAR, FOLLOWED BY, NOT FOLLOWED BY, SENTENCE или FAR, используются для обозначения предела поиска по близости между заданными ключевыми словами: например, «кирпич NEAR house».

Использование в коммерческих поисковых системах

Что касается неявного / автоматического поиска по сравнению с явным, по состоянию на ноябрь 2008 г., большинство пользователей Интернета поисковые системы реализовать только неявную функцию поиска близости. То есть они автоматически ранжируют те результаты поиска выше, если ключевые слова пользователя имеют хорошую «общую оценку близости» в таких результатах. Если в поисковом запросе есть только два ключевых слова, это не отличается от явного поиска по близости, который помещает оператор NEAR между двумя ключевыми словами. Однако, если присутствуют три или более трех ключевых слов, для пользователя часто важно указать, какие подмножества этих ключевых слов ожидают близости в результатах поиска. Это полезно, если пользователь хочет сделать предшествующий уровень техники поиск (например, поиск существующего подхода к выполнению конкретной задачи, поиск документа, раскрывающего систему, которая демонстрирует процедурное поведение, совместно выполняемое несколькими компонентами, и связи между этими компонентами).

Поисковые системы которые поддерживают поиск близости с помощью явного оператора близости на их языке запросов, включают Валхелло, Exalead, Яндекс, Yahoo!, Альтависта, и Bing:

  • При использовании Валхелло поисковой системе, близость можно определить по количеству символов между ключевыми словами.[1]
  • Поисковая система Exalead позволяет пользователю указать требуемую близость, как максимальное количество слов между ключевыми словами. Синтаксис: (keyword1 NEAR / n keyword2) где n - количество слов.[2]
  • Яндекс использует синтаксис keyword1 / n keyword2 для поиска двух ключевых слов, разделенных не более чем words и поддерживает несколько других вариантов этого синтаксиса.[3]
  • Yahoo! и Альтависта оба поддерживают недокументированный оператор NEAR.[4][5] Синтаксис: keyword1 NEAR keyword2.
  • Поиск Гугл поддерживает ВОКРУГ (#).[6][7]
  • Bing поддерживает NEAR.[8] Синтаксис: keyword1 рядом: n keyword2 где n = количество максимальных разделяющих слов.

Упорядоченный поиск внутри Google и Yahoo! поисковые системы можно использовать с полным словом звездочка (*) подстановочные знаки: в Google это соответствует одному или нескольким словам,[9] и в Yahoo! Искать это соответствует ровно одному слову.[10] (Это легко проверить, выполнив поиск по следующей фразе как в Google, так и в Yahoo !: "вызывает привыкание * библиоскопии".)

Эмулировать неупорядоченный поиск оператора NEAR можно с помощью комбинации упорядоченных поисков. Например, чтобы указать близкое совпадение слов «дом» и «собака», можно указать следующее поисковое выражение: «домашняя собака» ИЛИ «собачья будка» ИЛИ «дом * собака» ИЛИ «собака * дом» ИЛИ "дом * * собака" ИЛИ "собака * * дом".

Смотрите также

Примечания