Модель вероятности запроса - Query likelihood model

В модель вероятности запроса это языковая модель используется в поиск информации. Для каждого документа в коллекции создается языковая модель. Затем можно ранжировать каждый документ по вероятности того, что конкретный документ получил запрос. Это интерпретируется как вероятность документа, релевантного данному запросу.

Расчет вероятности

С помощью Правило Байеса, вероятность документа , учитывая запрос можно записать так:

Поскольку вероятность запроса P (q) одинакова для всех документов, это можно игнорировать. Кроме того, обычно предполагается, что вероятность документов одинакова. Таким образом, P (d) также игнорируется.

Затем документы ранжируются по вероятности того, что запрос рассматривается как случайная выборка из модели документа. Для этого обычно используется полиномиальная языковая модель униграммы. У нас есть:

, где полиномиальный коэффициент равен для запроса q,

и это длина запроса q учитывая термин частоты tf в словаре запросов N.

На практике полиномиальный коэффициент обычно исключается из расчета. Причина в том, что это постоянная величина для данного мешок слов (например, все слова из определенного документа ). Языковая модель должна быть истинной языковой моделью, рассчитанной на основе распределения слов, лежащих в основе каждого полученного документа. На практике эта языковая модель неизвестна, поэтому ее обычно аппроксимируют, рассматривая каждый термин (униграмму) из найденного документа вместе с вероятностью его появления. Так вероятность срока генерируется языковой моделью документа . Эта вероятность умножается для всех терминов из запроса. получить звание за документ в интервале . Расчет повторяется для всех документов, чтобы создать рейтинг всех документов в коллекции документов.

[1]

использованная литература

  1. ^ Кристофер Д. Мэннинг, Прабхакар Рагхаван, Хинрих Шютце: Введение в поиск информации, стр. 241. Cambridge University Press, 2009