Дирихле-полиномиальное распределение - Dirichlet-multinomial distribution

Дирихле-полиномиальный
Параметры	количество испытаний (положительных целое число );
Поддерживать	;
PMF
Иметь в виду
Дисперсия	;
MGF	; с;
CF	; с;
PGF	; с;

В теория вероятности и статистика, то Дирихле-полиномиальное распределение семейство дискретных многомерных распределения вероятностей на конечном носителе неотрицательных целых чисел. Его еще называют Составное полиномиальное распределение Дирихле (DCM) или же многомерное распределение Полиа (после Георгий Полиа ). Это сложное распределение вероятностей, где вектор вероятности п взят из Распределение Дирихле с вектором параметров ${displaystyle {oldsymbol {alpha}}}$ , и наблюдение, извлеченное из полиномиальное распределение с вектором вероятности п и количество испытаний п. Вектор параметров Дирихле отражает предшествующее мнение о ситуации и может рассматриваться как псевдосчет: наблюдения за каждым результатом, которые происходят до сбора фактических данных. Компаундирование соответствует Схема урны Pólya. Часто встречается в Байесовская статистика, машинное обучение, эмпирические байесовские методы и классическая статистика как чрезмерно диспергированный полиномиальное распределение.

Это сводится к категориальное распределение как частный случай, когда п = 1. Он также приближает полиномиальное распределение произвольно хорошо для больших α. Полином Дирихле - это многомерное расширение бета-биномиальное распределение, поскольку полиномиальное распределение и распределение Дирихле являются многомерными версиями биномиальное распределение и бета-версии, соответственно.

Технические характеристики

Полиномиальное распределение Дирихле как составное распределение

Распределение Дирихле - это сопряженное распределение к полиномиальному распределению. Этот факт приводит к аналитически поддающейся обработке составное распределение.Для случайного вектора количества категорий ${displaystyle mathbf {x} = (x_ {1}, dots, x_ {K})}$ , распределенных согласно полиномиальное распределение, то предельное распределение получается интегрированием по распределению для п который можно рассматривать как случайный вектор следуя распределению Дирихле:

{displaystyle Pr (mathbf {x} mid {oldsymbol {alpha}}) = int _ {mathbf {p}} Pr (mathbf {x} mid mathbf {p}) Pr (mathbf {p} mid {oldsymbol {alpha}}) ) {extrm {d}} mathbf {p}}

что приводит к следующей явной формуле:

{displaystyle Pr (mathbf {x} mid {oldsymbol {alpha}}) = {frac {left (n! ight) Gamma left (alpha _ {0} ight)} {Gamma left (n + alpha _ {0} ight) }} prod _ {k = 1} ^ {K} {frac {Gamma (x_ {k} + alpha _ {k})} {left (x_ {k}! ight) Gamma (alpha _ {k})}} }

куда ${displaystyle alpha _ {0}}$ определяется как сумма ${displaystyle alpha _ {0} = sum alpha _ {k}}$ . Другая форма для того же составного распределения, более компактно записанная в терминах бета-функция, B, как следует:

${displaystyle Pr (mathbf {x} mid {oldsymbol {alpha}}) = {frac {nBleft (alpha _ {0}, night)} {prod _ {k: x_ {k}> 0} x_ {k} Bleft ( альфа _ {k}, x_ {k} ight)}}.}$

Последняя форма подчеркивает тот факт, что категории с нулевым счетом можно игнорировать при вычислении - полезный факт, когда количество категорий очень велико и редкий (например, количество слов в документах).

Обратите внимание, что pdf - это бета-биномиальное распределение, когда ${displaystyle K = 2}$ . Также можно показать, что оно приближается к полиномиальному распределению как ${displaystyle alpha _ {0}}$ приближается к бесконечности. Параметр ${displaystyle alpha _ {0}}$ регулирует степень сверхдисперсности или вспыльчивость относительно многочлена. Альтернативные варианты обозначения ${displaystyle alpha _ {0}}$ в литературе встречаются S и A.

Дирихле-полином как модель урны

Полиномиальное распределение Дирихле также может быть мотивировано через модель урны для положительного целое число значения вектора α, известные как Модель урны Поля. В частности, представьте урну, содержащую шары из K цветов с нумерацией ${displaystyle alpha _ {i}}$ для i-го цвета, где делаются случайные розыгрыши. Когда случайным образом вытягивается шар и наблюдается его, в урну возвращаются два шара одного цвета. Если это будет выполнено n раз, то вероятность наблюдения случайного вектора ${displaystyle x}$ количества цветов является многочленом Дирихле с параметрами n и α. Если случайные розыгрыши выполняются с простой заменой (в урну не добавляются шары, превышающие наблюдаемый шар), то распределение следует полиномиальному распределению и производятся без замены, распределение следует многомерное гипергеометрическое распределение.

Характеристики

Моменты

Еще раз позвольте ${displaystyle alpha _ {0} = sum alpha _ {k}}$ и разреши ${displaystyle p_ {i} = {frac {alpha _ {i}} {sum alpha _ {k}}} = {frac {alpha _ {i}} {alpha _ {0}}}}$ , то ожидал количество раз результат я наблюдалось за п испытания

{displaystyle operatorname {E} (X_ {i}) = np_ {i} = n {frac {alpha _ {i}} {alpha _ {0}}}.,}

В ковариационная матрица как следует. Каждая диагональная запись - это отклонение бета-биномиально распределенной случайной величины, и поэтому

{displaystyle operatorname {var} (X_ {i}) = np_ {i} (1-p_ {i}) left ({frac {n + sum alpha _ {k}} {1 + sum alpha _ {k}}}) ight) = n {frac {alpha _ {i}} {alpha _ {0}}} left (1- {frac {alpha _ {i}} {alpha _ {0}}} ight) left ({frac {n + alpha _ {0}} {1 + alpha _ {0}}} ight).,}

Недиагональные записи - это ковариации:

{displaystyle operatorname {cov} (X_ {i}, X_ {j}) = - np_ {i} p_ {j} left ({frac {n + sum alpha _ {k}} {1 + sum alpha _ {k}) }} ight) = - n {frac {alpha _ {i} alpha _ {j}} {alpha _ {0} ^ {2}}} left ({frac {n + alpha _ {0}} {1 + alpha _ {0}}} ight),}

за я, j отчетливый.

Все ковариации отрицательны, поскольку для фиксированного п, увеличение одной компоненты полиномиального вектора Дирихле требует уменьшения другой компоненты.

Это K × K положительно-полуопределенный матрица классифицировать K − 1.

Записи соответствующих корреляционная матрица находятся

{displaystyle ho (X_ {i}, X_ {i}) = 1.}

{displaystyle ho (X_ {i}, X_ {j}) = {frac {operatorname {cov} (X_ {i}, X_ {j})} {sqrt {operatorname {var} (X_ {i}) operatorname {var } (X_ {j})}}} = {frac {-p_ {i} p_ {j} ({frac {n + alpha _ {0}} {1 + alpha _ {0}}})} {sqrt { p_ {i} (1-p_ {i}) ({frac {n + alpha _ {0}} {1 + alpha _ {0}}}) p_ {j} (1-p_ {j}) ({frac {n + alpha _ {0}} {1 + alpha _ {0}}})}}} = - {sqrt {frac {alpha _ {i} alpha _ {j}} {(alpha _ {0} -alpha _ {i}) (alpha _ {0} -alpha _ {j})}}}.}

Размер выборки выпадает из этого выражения.

Каждый из k компоненты по отдельности имеет бета-биномиальное распределение.

В поддерживать полиномиального распределения Дирихле есть множество

{displaystyle {(n_ {1}, dots, n_ {k}) в mathbb {N} ^ {k} | n_ {1} + cdots + n_ {k} = n}.,}

Количество его элементов

{displaystyle {n + k-1 choose k-1}.}

Матричные обозначения

В матричных обозначениях

{displaystyle operatorname {E} (mathbf {X}) = nmathbf {p} ,,}

и

{displaystyle operatorname {var} (mathbf {X}) = nlbrace operatorname {diag} (mathbf {p}) -mathbf {p} mathbf {p} ^ {m {T}} фигурная скобка слева ({frac {n + alpha _ {0}} {1 + alpha _ {0}}} ight) ,,}

с $п Т$ = вектор-строка, транспонированная вектор-столбец $п$ . Сдача

{displaystyle alpha _ {0} = {frac {1-ho ^ {2}} {ho ^ {2}}},}

, мы можем написать альтернативно

{displaystyle operatorname {var} (mathbf {X}) = nlbrace operatorname {diag} (mathbf {p}) -mathbf {p} mathbf {p} ^ {m {T}} скобка (1 + ho ^ {2} ( п-1)) ,,}

Параметр ${displaystyle ho!}$ известна как «внутриклассовая» или «внутрикластерная» корреляция. Именно эта положительная корреляция приводит к избыточной дисперсии по сравнению с полиномиальным распределением.

Агрегация

Если

{displaystyle X = (X_ {1}, ldots, X_ {K}) sim operatorname {DM} (alpha _ {1}, cdots, alpha _ {K})}

то, если случайные величины с индексами я и j удаляются из вектора и заменяются их суммой,

{displaystyle X '= (X_ {1}, ldots, X_ {i} + X_ {j}, ldots, X_ {K}) sim operatorname {DM} left (alpha _ {1}, cdots, alpha _ {i}) + alpha _ {j}, cdots, alpha _ {K} ight).}

Это свойство агрегирования может использоваться для получения предельного распределения ${displaystyle X_ {i}}$ упомянутый выше.

Функция правдоподобия

Концептуально мы делаем N независимые выводы из категориального распределения с K категории. Представим независимые розыгрыши в виде случайных категориальных переменных. ${displaystyle z_ {n}}$ за ${displaystyle n = 1dots N}$ . Обозначим, сколько раз конкретная категория ${displaystyle k}$ был замечен (для ${displaystyle k = 1dots K}$ ) среди всех категориальных переменных как ${displaystyle n_ {k}}$ , и ${displaystyle sum _ {k} n_ {k} = N}$ . Тогда у нас есть два разных взгляда на эту проблему:

Набор ${displaystyle N}$ категориальные переменные ${displaystyle z_ {1}, точки, z_ {N}}$ .
Единая векторная переменная ${displaystyle mathbf {x} = (n_ {1}, dots, n_ {K})}$ , распределенных согласно полиномиальное распределение.

Первый случай - это набор случайных величин, определяющих каждую индивидуальный результат, а последний - переменная, определяющая номер результатов каждого из K категории. Это различие важно, так как два случая имеют соответственно разные распределения вероятностей.

Параметр категориального распределения: ${displaystyle mathbf {p} = (p_ {1}, p_ {2}, dots, p_ {K}),}$ куда ${displaystyle p_ {k}}$ вероятность получить ценность ${displaystyle k}$ ; ${displaystyle mathbf {p}}$ также является параметром полиномиального распределения ${displaystyle P (mathbf {x} | mathbf {p})}$ . Вместо того, чтобы указывать ${displaystyle mathbf {p}}$ напрямую, мы даем ему сопряженное предварительное распределение, и, следовательно, он взят из распределения Дирихле с вектором параметров ${displaystyle {oldsymbol {alpha}} = (alpha _ {1}, alpha _ {2}, ldots, alpha _ {K})}$ .

Интегрируя ${displaystyle mathbf {p}}$ , получаем составное распределение. Однако форма распределения различается в зависимости от того, какую точку зрения мы придерживаемся.

Для набора индивидуальных результатов

Совместное распространение

Для категориальных переменных ${displaystyle mathbb {Z} = z_ {1}, точки, z_ {N}}$ , то маргинальный совместное распределение получается интегрированием ${displaystyle mathbf {p}}$ :

{displaystyle Pr (mathbb {Z} mid {oldsymbol {alpha}}) = int _ {mathbf {p}} Pr (mathbb {Z} mid mathbf {p}) Pr (mathbf {p} mid {oldsymbol {alpha}}) ) {extrm {d}} mathbf {p}}

что приводит к следующей явной формуле:

{displaystyle Pr (mathbb {Z} mid {oldsymbol {alpha}}) = {frac {Gamma left (Aight)} {Gamma left (N + Aight)}} prod _ {k = 1} ^ {K} {frac { Гамма (n_ {k} + alpha _ {k})} {Gamma (alpha _ {k})}}}

куда ${displaystyle Gamma}$ это гамма-функция, с

{displaystyle A = sum _ {k} alpha _ {k} {ext {and}} N = sum _ {k} n_ {k} {ext {, and where}} n_ {k} = {ext {number of} } z_ {n} {ext {со значением}} k {ext {.}}}

Хотя переменные ${displaystyle z_ {1}, точки, z_ {N}}$ не появляются явно в приведенной выше формуле, они вводятся через ${displaystyle n_ {k}}$ значения.

Условное распространение

Еще одна полезная формула, особенно в контексте Выборка Гиббса, спрашивает, какова условная плотность данной переменной ${displaystyle z_ {n}}$ зависит от всех остальных переменных (которые мы обозначим ${displaystyle mathbb {Z} ^ {(- n)}}$ ). Оказывается, имеет очень простой вид:

{displaystyle Pr (z_ {n} = kmid mathbb {Z} ^ {(- n)}, {oldsymbol {alpha}}) propto n_ {k} ^ {(- n)} + alpha _ {k}}

куда ${displaystyle n_ {k} ^ {(- n)}}$ указывает количество отсчетов категории ${displaystyle k}$ видно во всех переменных, кроме ${displaystyle z_ {n}}$ .

Может быть полезно показать, как получить эту формулу. В целом, условные распределения пропорциональны соответствующему совместное распределение, поэтому мы просто начнем с приведенной выше формулы для совместного распределения всех ${displaystyle z_ {1}, точки, z_ {N}}$ значений, а затем исключить любые факторы, не зависящие от конкретного ${displaystyle z_ {n}}$ обсуждаемый. Для этого воспользуемся обозначениями ${displaystyle n_ {k} ^ {(- n)}}$ определено выше, и

{displaystyle n_ {j} = {egin {case} n_ {j} ^ {(- n)}, & {ext {if}} jot = k n_ {j} ^ {(- n)} + 1, & {ext {if}} j = kend {case}}}

Мы также используем тот факт, что

{displaystyle Gamma (n + 1) = nGamma (n)}

Потом:

{displaystyle {egin {align} & Pr (z_ {n} = kmid mathbb {Z} ^ {(- n)}, {oldsymbol {alpha}}) propto & Pr (z_ {n} = k, mathbb {Z} ^ {(-n)} mid {oldsymbol {alpha}}) = & {frac {Gamma left (Aight)} {Gamma left (N + Aight)}} prod _ {j = 1} ^ {K} {frac { Гамма (n_ {j} + alpha _ {j})} {Gamma (alpha _ {j})}} propto & prod _ {j = 1} ^ {K} Гамма (n_ {j} + alpha _ {j} ) = & Gamma (n_ {k} + alpha _ {k}) prod _ {jot = k} Gamma (n_ {j} + alpha _ {j}) = & Gamma (n_ {k} ^ {(- n) } + 1 + alpha _ {k}) prod _ {jot = k} Гамма (n_ {j} ^ {(- n)} + alpha _ {j}) = & (n_ {k} ^ {(- n )} + альфа _ {k}) Гамма (n_ {k} ^ {(- n)} + alpha _ {k}) prod _ {jot = k} Гамма (n_ {j} ^ {(- n)} + alpha _ {j}) = & (n_ {k} ^ {(- n)} + alpha _ {k}) prod _ {j} Гамма (n_ {j} ^ {(- n)} + alpha _ { j}) propto & n_ {k} ^ {(- n)} + alpha _ {k} end {выровнено}}}

В общем, не стоит беспокоиться о нормализующая константа во время вывода уравнений для условных распределений. Нормализующая константа будет определена как часть алгоритма выборки из распределения (см. Категориальное распределение # Выборка ). Однако, когда условное распределение записано в простой форме, приведенной выше, оказывается, что нормализующая константа принимает простую форму:

{displaystyle sum _ {k} left (n_ {k} ^ {(- n)} + alpha _ {k} ight) = A + sum _ {k} n_ {k} ^ {(- n)} = A + N-1}

Следовательно

{displaystyle Pr (z_ {n} = kmid mathbb {Z} ^ {(- n)}, {oldsymbol {alpha}}) = {frac {n_ {k} ^ {(- n)} + alpha _ {k} } {A + N-1}}}

Эта формула тесно связана с Китайский ресторанный процесс, который получается из предела как ${displaystyle K o infty}$ .

В байесовской сети

В более крупном Байесовская сеть в котором категориальные (или так называемые "полиномиальные") распределения встречаются с Распределение Дирихле приоры как часть более крупной сети, все приоры Дирихле могут быть свернуты при условии, что единственными узлами, зависящими от них, являются категориальные распределения. Свертывание происходит для каждого узла распределения Дирихле отдельно от других и происходит независимо от любых других узлов, которые могут зависеть от категориальных распределений. Это также происходит независимо от того, зависят ли категориальные распределения от узлов, дополнительных к априорным точкам Дирихле (хотя в таком случае эти другие узлы должны оставаться в качестве дополнительных факторов обусловливания). По сути, все категориальные распределения, зависящие от данного узла распределения Дирихле, становятся связанными в единое мультиномиальное совместное распределение Дирихле, определяемое приведенной выше формулой. Совместное распределение, как определено таким образом, будет зависеть от родителя (ей) интегрированных предшествующих узлов Дирихле, а также любого родителя (ов) категориальных узлов, кроме самих предшествующих узлов Дирихле.

В следующих разделах мы обсудим различные конфигурации, обычно встречающиеся в байесовских сетях. Повторяем плотность вероятности сверху и определяем ее с помощью символа ${displaystyle operatorname {DirMult} (mathbb {Z} mid {oldsymbol {alpha}})}$ :

{displaystyle Pr (mathbb {Z} mid {oldsymbol {alpha}}) = operatorname {DirMult} (mathbb {Z} mid {oldsymbol {alpha}}) = {frac {Гамма слева (сумма _ {k} alpha _ {k } ight)} {Гамма слева (сумма _ {k} n_ {k} + alpha _ {k} ight)}} prod _ {k = 1} ^ {K} {frac {Gamma (n_ {k} + alpha _ {k})} {Гамма (альфа _ {k})}}}

Несколько априоров Дирихле с одним и тем же гиперприором

Представьте, что у нас есть следующая иерархическая модель:

{displaystyle {egin {array} {lcl} {oldsymbol {alpha}} & sim & {ext {some distribution}} {oldsymbol {heta}} _ {d = 1dots M} & sim & operatorname {Dirichlet} _ {K} ({ oldsymbol {alpha}}) z_ {d = 1dots M, n = 1dots N_ {d}} & sim & operatorname {Категориальный} _ {K} ({oldsymbol {heta}} _ {d}) end {array}}}

В таких случаях у нас есть несколько априорных значений Дирише, каждый из которых генерирует некоторое количество категориальных наблюдений (возможно, разное количество для каждого априорного значения). Тот факт, что все они зависят от одного и того же гиперприора, даже если это случайная величина, как указано выше, не имеет значения. Эффект интегрирования априорного значения Дирихле связывает категориальные переменные, связанные с этим априорным значением, совместное распределение которого просто наследует любые обусловливающие факторы априорного значения Дирихле. Тот факт, что несколько приоритетов могут иметь один гиперприор, не имеет значения:

{displaystyle Pr (mathbb {Z} mid {oldsymbol {alpha}}) = prod _ {d} operatorname {DirMult} (mathbb {Z} _ {d} mid {oldsymbol {alpha}})}

куда ${displaystyle mathbb {Z} _ {d}}$ это просто набор категориальных переменных, зависящих от предшествующих d.

Соответственно, условное распределение вероятностей можно записать следующим образом:

{displaystyle Pr (z_ {dn} = kmid mathbb {Z} ^ {(- dn)}, {oldsymbol {alpha}}) propto n_ {k, d} ^ {(- n)} + alpha _ {k}}

куда ${displaystyle n_ {k, d} ^ {(- n)}}$ конкретно означает количество переменных среди множества ${displaystyle mathbb {Z} _ {d}}$ , без учета ${displaystyle z_ {dn}}$ само по себе, которые имеют ценность ${displaystyle k}$ .

Надо посчитать Только переменные, имеющие значение k которые связаны с рассматриваемой переменной за счет того же предшествующего значения. Мы делаем нет хотите подсчитать любые другие переменные, также имеющие значение k.

Множественные приоры Дирихле с одним и тем же гиперприором с зависимыми детьми

А теперь представьте себе несколько более сложную иерархическую модель:

{displaystyle {egin {array} {lcl} {oldsymbol {alpha}} & sim & {ext {some distribution}} {oldsymbol {heta}} _ {d = 1dots M} & sim & operatorname {Dirichlet} _ {K} ({ oldsymbol {alpha}}) z_ {d = 1dots M, n = 1dots N_ {d}} & sim & operatorname {Категориальный} _ {K} ({oldsymbol {heta}} _ {d}) {oldsymbol {phi}} & sim & {ext {какой-то другой дистрибутив}} w_ {d = 1dots M, n = 1dots N_ {d}} & sim & имя оператора {F} (w_ {dn} mid z_ {dn}, {oldsymbol {phi}}) конец {множество}}}

Эта модель такая же, как и выше, но, кроме того, каждая из категориальных переменных имеет зависимую дочернюю переменную. Это типично для модель смеси.

Опять же, в совместном распределении только категориальные переменные, зависящие от одного и того же априорного значения, связаны в один полином Дирихле:

{displaystyle Pr (mathbb {Z}, mathbb {W} mid {oldsymbol {alpha}}, {oldsymbol {phi}}) = prod _ {d} operatorname {DirMult} (mathbb {Z} _ {d} mid {oldsymbol {alpha}}) prod _ {d = 1} ^ {M} prod _ {n = 1} ^ {N_ {d}} имя оператора {F} (w_ {dn} mid z_ {dn}, {oldsymbol {phi} })}

Условное распределение категориальных переменных, зависящих только от их родителей и предков, будет иметь ту же форму, что и выше, в более простом случае. Однако при выборке Гиббса необходимо определить условное распределение данного узла ${displaystyle z_ {dn}}$ зависит не только от ${displaystyle mathbb {Z} ^ {(- dn)}}$ и предки, такие как ${displaystyle alpha}$ но на все другие параметры.

Упрощенное выражение для условного распределения получается выше, просто переписывая выражение для совместной вероятности и удаляя постоянные факторы. Следовательно, такое же упрощение применимо к большему выражению совместной вероятности, например, в этой модели, состоящему из полиномиальных плотностей Дирихле плюс коэффициенты для многих других случайных величин, зависящих от значений категориальных переменных.

Это дает следующее:

{displaystyle Pr (z_ {dn} = kmid mathbb {Z} ^ {(- dn)}, mathbb {W}, {oldsymbol {alpha}}, {oldsymbol {phi}}) propto (n_ {k, d} ^ {(-n)} + alpha _ {k}) имя оператора {F} (w_ {dn} mid z_ {dn}, {oldsymbol {phi}})}

Здесь плотность вероятности ${displaystyle operatorname {F}}$ появляется прямо. Сделать случайная выборка над ${displaystyle z_ {dn}}$ , мы бы вычислили ненормированные вероятности для всех K возможности для ${displaystyle z_ {dn}}$ используя приведенную выше формулу, затем нормализуйте их и действуйте как обычно, используя алгоритм, описанный в категориальное распределение статья.

Правильно говоря, дополнительный фактор, который появляется в условном распределении, выводится не из спецификации модели, а непосредственно из совместного распределения. Это различие важно при рассмотрении моделей, в которых данный узел с предшествующим родителем Дирихле имеет несколько зависимых дочерних элементов, особенно когда эти дочерние элементы зависят друг от друга (например, если у них общий родительский элемент, который свернут). Это обсуждается более подробно ниже.

Множественные приоры Дирихле со сменой предыдущего членства

Теперь представьте, что у нас есть следующая иерархическая модель:

{displaystyle {egin {array} {lcl} {oldsymbol {heta}} & sim & {ext {some distribution}} z_ {n = 1dots N} & sim & operatorname {Категориальный} _ {K} ({oldsymbol {heta}}) {oldsymbol {alpha}} & sim & {ext {некоторый дистрибутив}} {oldsymbol {phi}} _ {k = 1dots K} & sim & operatorname {Dirichlet} _ {V} ({oldsymbol {alpha}}) w_ { n = 1dots N} & sim & имя оператора {Категориальный} _ {V} ({oldsymbol {phi}} _ {z_ {n}}) end {array}}}

Здесь у нас есть сложная ситуация, когда у нас есть несколько априорных значений Дирихле, как и раньше, и набор зависимых категориальных переменных, но связь между априорными и зависимыми переменными не является фиксированной, в отличие от предыдущих. Вместо этого выбор того, какой из них перед использованием, зависит от другой случайной категориальной переменной. Это происходит, например, в тематических моделях, и действительно, имена переменных выше должны соответствовать тем, что в скрытое размещение Дирихле. В этом случае набор ${displaystyle mathbb {W}}$ это набор слов, каждое из которых взято из одного из ${displaystyle K}$ возможные темы, где каждая тема является предшествующей Дирихле над словарным запасом ${displaystyle V}$ возможные слова с указанием частоты встречаемости разных слов в теме. Однако тематическая принадлежность данного слова не фиксирована; скорее, это определяется из набора скрытые переменные ${displaystyle mathbb {Z}}$ . В каждом слове есть одна скрытая переменная, ${displaystyle K}$ -размерный категориальная переменная указав тему, к которой принадлежит слово.

В этом случае все переменные, зависящие от данного априорного значения, связаны вместе (т. Е. коррелированный ) в группе, как и раньше - в частности, все слова, относящиеся к данной теме, связаны. В этом случае, однако, членство в группе меняется, поскольку слова не привязаны к данной теме, но тема зависит от значения скрытой переменной, связанной со словом. Однако определение полиномиальной плотности Дирихле на самом деле не зависит от количества категориальных переменных в группе (т. Е. Количества слов в документе, созданных на основе данной темы), а только от подсчета количества переменных в группа имеет заданное значение (т. е. среди всех словосочетаний, сгенерированных из данной темы, сколько из них является данным словом). Следовательно, мы все еще можем написать явную формулу для совместного распределения:

{displaystyle Pr (mathbb {W} mid {oldsymbol {alpha}}, mathbb {Z}) = prod _ {k = 1} ^ {K} имя оператора {DirMult} (mathbb {W} _ {k} mid mathbb {Z }, {oldsymbol {alpha}}) = prod _ {k = 1} ^ {K} left [{frac {Gamma left (sum _ {v} alpha _ {v} ight)} {Gamma left (sum _ {v } n_ {v} ^ {k} + alpha _ {v} ight)}} prod _ {v = 1} ^ {V} {frac {Gamma (n_ {v} ^ {k} + alpha _ {v}) } {Гамма (альфа _ {v})}} ight]}

Здесь мы используем обозначения ${displaystyle n_ {v} ^ {k}}$ для обозначения количества токенов слов, значение которых является символом слова v и которые относятся к теме k.

Условное распределение по-прежнему имеет тот же вид:

{displaystyle Pr (w_ {n} = vmid mathbb {W} ^ {(- n)}, mathbb {Z}, {oldsymbol {alpha}}) propto n_ {v} ^ {k, (- n)} + альфа _ {v}}

Снова здесь, Только категориальные переменные для слов, принадлежащих данной теме, связаны (даже если эта связь будет зависеть от присвоений скрытых переменных), и, следовательно, количество слов должно быть больше Только слова, созданные по данной теме. Следовательно, символ ${displaystyle n_ {v} ^ {k, (- n)}}$ , который представляет собой количество токенов слов, имеющих символ слова v, но Только среди созданных по теме k, и исключая само слово, распространение которого описывается.

(Причина, по которой необходимо исключить само слово и почему оно вообще имеет смысл, заключается в том, что в Выборка Гиббса В контексте мы неоднократно передискретизируем значения каждой случайной переменной после прохождения и выборки всех предыдущих переменных. Следовательно, переменная уже будет иметь значение, и нам нужно исключить это существующее значение из различных подсчетов, которые мы используем.)

Комбинированный пример: тематические модели LDA

Теперь мы покажем, как объединить некоторые из приведенных выше сценариев, чтобы продемонстрировать, как Образец Гиббса реальная модель, в частности сглаженная скрытое размещение Дирихле (LDA) тематическая модель.

Модель выглядит следующим образом:

{displaystyle {egin {array} {lcl} {oldsymbol {alpha}} & sim & {ext {Гиперприор Дирихле, либо константа, либо случайная величина}} {oldsymbol {eta}} & sim & {ext {Гиперприор Дирихле, либо константа, либо случайная величина}} {oldsymbol {heta}} _ {d = 1dots M} & sim & operatorname {Dirichlet} _ {K} ({oldsymbol {alpha}}) {oldsymbol {phi}} _ {k = 1dots K} & sim & operatorname {Dirichlet} _ {V} ({oldsymbol {eta}}) z_ {d = 1dots M, n = 1dots N_ {d}} & sim & operatorname {Категориальный} _ {K} ({oldsymbol { heta}} _ {d}) w_ {d = 1dots M, n = 1dots N_ {d}} & sim & operatorname {Категориальный} _ {V} ({oldsymbol {phi}} _ {z_ {dn}}) end {множество}}}

По сути, мы объединяем предыдущие три сценария: у нас есть категориальные переменные, зависящие от нескольких априорных факторов, разделяющих гиперприор; у нас есть категориальные переменные с зависимыми детьми ( скрытая переменная темы идентичности); и у нас есть категориальные переменные со сдвигающейся принадлежностью к нескольким априорным, разделяющим гиперприор. В стандартной модели LDA слова полностью соблюдаются, и, следовательно, нам никогда не нужно их пересчитывать. (Однако выборка Гиббса была бы в равной степени возможна, если бы наблюдались только некоторые слова или ни одно из них. В таком случае мы хотели бы инициализировать распределение по словам каким-либо разумным образом - например, из выходных данных некоторого процесса, который генерирует предложения , например машинный перевод модель - чтобы в результате задний скрытые распределения переменных, чтобы иметь какой-либо смысл.)

Используя приведенные выше формулы, мы можем записать условные вероятности напрямую:

{displaystyle {egin {array} {lcl} Pr (w_ {dn} = vmid mathbb {W} ^ {(- dn)}, mathbb {Z}, {oldsymbol {eta}}) & propto & # mathbb {W} _ {v} ^ {k, (- dn)} + eta _ {v} Pr (z_ {dn} = kmid mathbb {Z} ^ {(- dn)}, w_ {dn} = v, mathbb {W} ^ {(- dn)}, {oldsymbol {alpha}}) & propto & (# mathbb {Z} _ {k} ^ {d, (- dn)} + alpha _ {k}) Pr (w_ {dn} = vmid mathbb {W} ^ {(- dn)}, mathbb {Z}, {oldsymbol {eta}}) end {array}}}

Здесь мы более четко определили количество слов, чтобы четко разделить количество слов и количество тем:

{displaystyle {egin {array} {lcl} #mathbb {W} _ {v} ^ {k, (- dn)} & = & {ext {количество слов, имеющих значение}} v {ext {среди тем}} k {ext {excluding}} w_ {dn} # mathbb {Z} _ {k} ^ {d, (- dn)} & = & {ext {количество тем, имеющих значение}} k {ext {среди документов}} d {ext {исключая}} z_ {dn} end {array}}}

Как и в приведенном выше сценарии с категориальными переменными с зависимыми дочерними элементами, условная вероятность этих зависимых детей появляется в определении условной вероятности родителя. В этом случае каждая скрытая переменная имеет только одно зависимое дочернее слово, поэтому появляется только один такой термин. (Если бы было несколько зависимых детей, все они должны были бы появиться в условной вероятности родителя, независимо от того, было ли перекрытие между разными родителями и одними и теми же детьми, т.е. независимо от того, есть ли у зависимых детей данного родителя и других родителей. случай, когда у ребенка несколько родителей, условная вероятность для этого ребенка появляется в определении условной вероятности каждого из его родителей.)

В приведенном выше определении указаны только ненормализованный условная вероятность слов, в то время как условная вероятность темы требует действительный (т.е. нормализованная) вероятность. Следовательно, мы должны нормализовать, суммируя все символы слов:

{displaystyle {egin {array} {rcl} Pr (z_ {dn} = kmid mathbb {Z} ^ {(- dn)}, w_ {dn} = v, mathbb {W} ^ {(- dn)}, { oldsymbol {alpha}}) & propto & {igl (} #mathbb {Z} _ {k} ^ {d, (- dn)} + alpha _ {k} {igr)} {dfrac {#mathbb {W} _ { v} ^ {k, (- dn)} + eta _ {v}} {sum _ {v '= 1} ^ {V} (# mathbb {W} _ {v'} ^ {k, (- dn) } + eta _ {v '})}} && & = & {igl (} #mathbb {Z} _ {k} ^ {d, (- dn)} + alpha _ {k} {игр)} { dfrac {#mathbb {W} _ {v} ^ {k, (- dn)} + eta _ {v}} {# mathbb {W} ^ {k} + B-1}} end {array}}}

куда

{displaystyle {egin {array} {lcl} #mathbb {W} ^ {k} & = & {ext {количество слов, сгенерированных темой}} k B & = & sum _ {v = 1} ^ {V} eta _ {v} end {array}}}

Также стоит остановиться еще на одном моменте, который касается второго фактора, указанного выше в условной вероятности. Помните, что условное распределение в целом является производным от совместного распределения и упрощается за счет удаления членов, не зависящих от области условного распределения (часть слева от вертикальной черты). Когда узел ${displaystyle z}$ есть дети-иждивенцы, будет один или несколько факторов ${displaystyle operatorname {F} (точки в середине z)}$ в совместном распределении, которые зависят от ${displaystyle z}$ . Обычно есть один фактор для каждого зависимого узла, и он имеет ту же функцию плотности, что и распределение, фигурирующее в математическом определении. Однако, если у зависимого узла есть еще один родительский узел (со-родитель), и этот со-родитель свернут, тогда узел станет зависимым от всех других узлов, разделяющих этого со-родителя, и вместо нескольких терминов для каждый такой узел совместного распределения будет иметь только один совместный член. У нас здесь именно такая ситуация. Хотя ${displaystyle z_ {dn}}$ есть только один ребенок ${displaystyle w_ {dn}}$ , у этого дочернего элемента есть свернутый родительский элемент Дирихле, который индуцирует многочлен Дирихле по всему набору узлов ${displaystyle mathbb {W} ^ {k}}$ .

Бывает, что в этом случае проблема не вызывает серьезных проблем именно из-за однозначной связи между ${displaystyle z_ {dn}}$ и ${displaystyle w_ {dn}}$ . Мы можем переписать совместное распределение следующим образом:

{displaystyle {egin {array} {lcl} p (mathbb {W} ^ {k} mid z_ {dn}) & = & p (w_ {dn} mid mathbb {W} ^ {k, (- dn)}, z_ {dn}), p (mathbb {W} ^ {k, (- dn)} mid z_ {dn}) & = & p (w_ {dn} mid mathbb {W} ^ {k, (- dn)}, z_ {dn}), p (mathbb {W} ^ {k, (- dn)}) & sim & p (w_ {dn} mid mathbb {W} ^ {k, (- dn)}, z_ {dn}) конец {массив}}}

где в наборе ${displaystyle mathbb {W} ^ {k, (- dn)}}$ (т.е. набор узлов ${displaystyle mathbb {W} ^ {k}}$ без учета ${displaystyle w_ {dn}}$ ) ни один из узлов не имеет ${displaystyle z_ {dn}}$ как родитель. Следовательно, он может быть исключен как обусловливающий фактор (строка 2), что означает, что весь фактор может быть исключен из условного распределения (строка 3).

Второй пример: наивная байесовская кластеризация документов

Вот еще одна модель, но с другим набором проблем. Это реализация неконтролируемого Наивный байесовский модель кластеризации документов. То есть мы хотели бы классифицировать документы на несколько категорий (например, "спам "или" не-спам ", или" статья в научном журнале "," газетная статья о финансах "," газетная статья о политике "," любовное письмо ") на основе текстового содержания. Однако мы еще не знаем правильную категорию любых документов; вместо этого мы хотим кластер они основаны на взаимном сходстве. (Например, набор научных статей будет иметь тенденцию быть похожими друг на друга в использовании слов, но сильно отличаться от набора любовных писем.) Это тип обучение без учителя. (Эту же технику можно использовать для выполнения полу-контролируемое обучение, т.е. когда мы знаем правильную категорию некоторой части документов и хотели бы использовать эти знания, чтобы помочь в кластеризации остальных документов.)

Модель выглядит следующим образом:

{displaystyle {egin {array} {lcl} {oldsymbol {alpha}} & sim & {ext {Гиперприор Дирихле, либо константа, либо случайная величина}} {oldsymbol {eta}} & sim & {ext {Гиперприор Дирихле, либо константа, либо случайная величина}} {oldsymbol {heta}} _ {d = 1dots M} & sim & operatorname {Dirichlet} _ {K} ({oldsymbol {alpha}}) {oldsymbol {phi}} _ {k = 1dots K} & sim & operatorname {Dirichlet} _ {V} ({oldsymbol {eta}}) z_ {d = 1dots M} & sim & operatorname {Category} _ {K} ({oldsymbol {heta}} _ {d}) w_ {d = 1dots M, n = 1dots N_ {d}} & sim & имя оператора {Категориальное} _ {V} ({oldsymbol {phi}} _ {z_ {d}}) end {array}}}

Во многом эта модель очень похожа на LDA тематическая модель описано выше, но предполагает наличие одной темы для каждого документа, а не одной темы для каждого слова, при этом документ состоит из нескольких тем. Это хорошо видно на приведенной выше модели, которая идентична модели LDA, за исключением того, что имеется только один скрытая переменная на документ вместо одного на слово. И снова мы предполагаем, что мы сворачиваем все априоры Дирихле.

Условная вероятность для данного слова почти идентична случаю LDA. Еще раз, все слова, порожденные одним и тем же апором Дирихле, взаимозависимы. В данном случае это означает, что слова всех документов имеют данную метку - опять же, это может варьироваться в зависимости от назначения меток, но все, что нас волнует, - это общее количество. Следовательно:

{displaystyle {egin {array} {lcl} Pr (w_ {dn} = vmid mathbb {W} ^ {(- dn)}, mathbb {Z}, {oldsymbol {eta}}) & propto & # mathbb {W} _ {v} ^ {k, (- dn)} + eta _ {v} end {array}}}

куда

{displaystyle {egin {array} {lcl} #mathbb {W} _ {v} ^ {k, (- dn)} & = & {ext {количество слов, имеющих значение}} v {ext {среди документов с меткой} } k {ext {исключая}} w_ {dn} end {array}}}

Однако существует критическое различие в условном распределении скрытых переменных для присвоений меток, которое заключается в том, что данная переменная метки имеет несколько дочерних узлов вместо одного - в частности, узлов для всех слов в документе метки. Это тесно связано с обсуждением фактора ${displaystyle operatorname {F} (точки в середине z_ {d})}$ это проистекает из совместного распределения. В этом случае необходимо совместное распределение по всем словам во всех документах, содержащих присвоение меток, равное значению ${displaystyle z_ {d}}$ , и имеет значение полиномиального распределения Дирихле. Более того, мы не можем свести это совместное распределение к условному распределению по одному слову. Скорее, мы можем уменьшить его только до меньшего совместного условного распределения по словам в документе для рассматриваемой метки, и, следовательно, мы не можем упростить его, используя описанный выше трюк, который дает простую сумму ожидаемого количества и предыдущего. Хотя на самом деле его можно переписать как произведение таких индивидуальных сумм, количество факторов очень велико и явно не более эффективно, чем прямое вычисление вероятности полиномиального распределения Дирихле.

Связанные дистрибутивы

Одномерная версия полиномиального распределения Дирихле известна как Бета-биномиальное распределение.

Полиномиальное распределение Дирихле может быть построено из независимых отрицательный бином случайных величин способом, аналогичным построению полиномиальное распределение из независимых Пуассон случайные переменные.^[2]

Использует

Полиномиальное распределение Дирихле используется в автоматизированных классификация документов и кластеризация, генетика, экономия, боевое моделирование и количественный маркетинг.

Распределения вероятностей (Список )
Дискретный одномерный с конечной опорой	Бенфорд Бернулли бета-бином биномиальный категоричный гипергеометрический Бином Пуассона Радемахер солитон дискретная униформа Zipf Ципф – Мандельброт
Дискретный одномерный с бесконечной поддержкой	бета-отрицательный бином Борель Конвей – Максвелл – Пуассон дискретная фаза Delaporte расширенный отрицательный бином Флори-Шульц Гаусс – Кузьмин геометрический логарифмический отрицательный бином параболический фрактал Пуассон Скеллам Юл – Саймон Зета
Непрерывный одномерный поддерживается на ограниченном интервале	арксинус АРГУС Лысый – Николс Бейтс бета бета прямоугольный непрерывный Бернулли Ирвин – Холл Кумарасвами логит-нормальный нецентральная бета приподнятый косинус взаимный треугольный U-квадратичный униформа Полукруг Вигнера
Непрерывный одномерный поддерживается на полубесконечном интервале	Бенини Benktander 1-го рода Benktander 2-го рода бета прайм Заусенец хи-квадрат чи Дагум Дэвис экспоненциально-логарифмический Erlang экспоненциальный F сложенный нормальный Фреше гамма гамма / Gompertz обобщенная гамма обобщенный обратный гауссовский Гомпертц наполовину логистический наполовину нормальный Хотеллинга Т-квадрат гипер-Эрланг гиперэкспоненциальный гипоэкспоненциальный обратный хи-квадрат масштабированный обратный хи-квадрат обратный гауссовский обратная гамма Колмогоров Леви журнал-Коши лог-Лаплас логистика лог-нормальный Lomax матрично-экспоненциальный Максвелл – Больцманн Максвелл – Юттнер Mittag-Leffler Накагами нецентральный хи-квадрат нецентральный F Парето фазовый поли-Вейбулл Рэлей релятивистский Брейт – Вигнер Рис сдвинутый Гомпертц усеченный нормальный Тип-2 Гамбель Weibull дискретный Weibull Лямбда Уилкса
Непрерывный одномерный поддерживается на всей реальной линии	Коши экспоненциальная степень Фишера z Гауссовский q обобщенный нормальный обобщенный гиперболический геометрическая конюшня Гамбель Holtsmark гиперболический секанс Джонсона S_U Ландо Лаплас асимметричный лаплас логистика нецентральный т нормальный (гауссовский) нормально-обратный гауссовский перекос нормально слэш стабильный Студенты т Гамбель типа 1 Трейси – Уидом дисперсия-гамма Voigt
Непрерывный одномерный с поддержкой, тип которой варьируется	обобщенный хи-квадрат обобщенное экстремальное значение обобщенный Парето Марченко – Пастур q-экспоненциальный q-Гауссовский q-Вейбулл смещенная логистика Лямбда Тьюки
Смешанная непрерывно-дискретная одномерная	выпрямленный гауссовский
Многовариантный (совместный)	Дискретный Ewens полиномиальный Дирихле-полиномиальный отрицательный полиномиальный Непрерывный Дирихле обобщенный Дирихле многомерный Лаплас многомерный нормальный многомерный стабильный многомерный т нормальная обратная гамма нормальная гамма Матричнозначный обратная матрица гамма обратный-Wishart матрица нормальная матрица т матрица гамма нормальный-обратный-Уишарт нормальный-Wishart Wishart
Направленный	Одномерный (круговой) направленный Круглая форма одномерный фон Мизеса завернутый нормально завернутый Коши завернутый экспоненциальный обернутый асимметричный лаплас завернутый Леви Двумерный (сферический) Кент Двумерный (тороидальный) двумерный фон Мизеса Многомерный фон Мизес-Фишер Bingham
Вырожденный и единственное число	Вырожденный Дельта-функция Дирака Единственное число Кантор
Семьи	Круговой соединение Пуассона эллиптический экспоненциальный естественная экспонента расположение – масштаб максимальная энтропия смесь Пирсон Твиди завернутый