Модель вероятности запроса - Query likelihood model

В модель вероятности запроса это языковая модель используется в поиск информации. Для каждого документа в коллекции создается языковая модель. Затем можно ранжировать каждый документ по вероятности того, что конкретный документ получил запрос. Это интерпретируется как вероятность документа, релевантного данному запросу.

Расчет вероятности

С помощью Правило Байеса, вероятность ${ displaystyle P}$ документа ${ displaystyle d}$ , учитывая запрос ${ displaystyle q}$ можно записать так:

{ Displaystyle P (d | q) = { гидроразрыва {P (q | d) P (d)} {P (q)}}}

Поскольку вероятность запроса P (q) одинакова для всех документов, это можно игнорировать. Кроме того, обычно предполагается, что вероятность документов одинакова. Таким образом, P (d) также игнорируется.

{ Displaystyle P (d | q) = P (q | d)}

Затем документы ранжируются по вероятности того, что запрос рассматривается как случайная выборка из модели документа. Для этого обычно используется полиномиальная языковая модель униграммы. У нас есть:

{ Displaystyle P (q | M_ {d}) = K_ {q} prod _ {t in V} P (t | M_ {d}) ^ {tf_ {t, q}}}

, где полиномиальный коэффициент равен

{ displaystyle K_ {q} = L_ {q}! / (tf_ {t1, q}! tf_ {t2, q}! ... tf_ {tN, q}!)}

для запроса

q

,

и ${ displaystyle L_ {q} = sum _ {1 leq i leq N} tf_ {t_ {i}, q}}$ это длина запроса $q$ учитывая термин частоты $tf$ в словаре запросов $N$ .

На практике полиномиальный коэффициент обычно исключается из расчета. Причина в том, что это постоянная величина для данного мешок слов (например, все слова из определенного документа ${ displaystyle d}$ ). Языковая модель ${ displaystyle M_ {d}}$ должна быть истинной языковой моделью, рассчитанной на основе распределения слов, лежащих в основе каждого полученного документа. На практике эта языковая модель неизвестна, поэтому ее обычно аппроксимируют, рассматривая каждый термин (униграмму) из найденного документа вместе с вероятностью его появления. Так ${ Displaystyle P (т | M_ {d})}$ вероятность срока ${ displaystyle t}$ генерируется языковой моделью ${ displaystyle M_ {d}}$ документа ${ displaystyle d}$ . Эта вероятность умножается для всех терминов из запроса. ${ displaystyle q}$ получить звание за документ ${ displaystyle d}$ в интервале ${ displaystyle [0,1]}$ . Расчет повторяется для всех документов, чтобы создать рейтинг всех документов в коллекции документов.

^[1]

использованная литература

^ Кристофер Д. Мэннинг, Прабхакар Рагхаван, Хинрих Шютце: Введение в поиск информации, стр. 241. Cambridge University Press, 2009

[1] Кристофер Д. Мэннинг, Прабхакар Рагхаван, Хинрих Шютце: Введение в поиск информации, стр. 241. Cambridge University Press, 2009

[1]