Дирихле-полиномиальное распределение - Dirichlet-multinomial distribution

Дирихле-полиномиальный
Параметры количество испытаний (положительных целое число )
Поддерживать
PMF
Иметь в виду
Дисперсия
MGF
с
[1]
CF


с

[1]
PGF


с

[1]

В теория вероятности и статистика, то Дирихле-полиномиальное распределение семейство дискретных многомерных распределения вероятностей на конечном носителе неотрицательных целых чисел. Его еще называют Составное полиномиальное распределение Дирихле (DCM) или же многомерное распределение Полиа (после Георгий Полиа ). Это сложное распределение вероятностей, где вектор вероятности п взят из Распределение Дирихле с вектором параметров , и наблюдение, извлеченное из полиномиальное распределение с вектором вероятности п и количество испытаний п. Вектор параметров Дирихле отражает предшествующее мнение о ситуации и может рассматриваться как псевдосчет: наблюдения за каждым результатом, которые происходят до сбора фактических данных. Компаундирование соответствует Схема урны Pólya. Часто встречается в Байесовская статистика, машинное обучение, эмпирические байесовские методы и классическая статистика как чрезмерно диспергированный полиномиальное распределение.

Это сводится к категориальное распределение как частный случай, когда п = 1. Он также приближает полиномиальное распределение произвольно хорошо для больших α. Полином Дирихле - это многомерное расширение бета-биномиальное распределение, поскольку полиномиальное распределение и распределение Дирихле являются многомерными версиями биномиальное распределение и бета-версии, соответственно.

Технические характеристики

Полиномиальное распределение Дирихле как составное распределение

Распределение Дирихле - это сопряженное распределение к полиномиальному распределению. Этот факт приводит к аналитически поддающейся обработке составное распределение.Для случайного вектора количества категорий , распределенных согласно полиномиальное распределение, то предельное распределение получается интегрированием по распределению для п который можно рассматривать как случайный вектор следуя распределению Дирихле:

что приводит к следующей явной формуле:

куда определяется как сумма . Другая форма для того же составного распределения, более компактно записанная в терминах бета-функция, B, как следует:

Последняя форма подчеркивает тот факт, что категории с нулевым счетом можно игнорировать при вычислении - полезный факт, когда количество категорий очень велико и редкий (например, количество слов в документах).

Обратите внимание, что pdf - это бета-биномиальное распределение, когда . Также можно показать, что оно приближается к полиномиальному распределению как приближается к бесконечности. Параметр регулирует степень сверхдисперсности или вспыльчивость относительно многочлена. Альтернативные варианты обозначения в литературе встречаются S и A.

Дирихле-полином как модель урны

Полиномиальное распределение Дирихле также может быть мотивировано через модель урны для положительного целое число значения вектора α, известные как Модель урны Поля. В частности, представьте урну, содержащую шары из K цветов с нумерацией для i-го цвета, где делаются случайные розыгрыши. Когда случайным образом вытягивается шар и наблюдается его, в урну возвращаются два шара одного цвета. Если это будет выполнено n раз, то вероятность наблюдения случайного вектора количества цветов является многочленом Дирихле с параметрами n и α. Если случайные розыгрыши выполняются с простой заменой (в урну не добавляются шары, превышающие наблюдаемый шар), то распределение следует полиномиальному распределению и производятся без замены, распределение следует многомерное гипергеометрическое распределение.

Характеристики

Моменты

Еще раз позвольте и разреши , то ожидал количество раз результат я наблюдалось за п испытания

В ковариационная матрица как следует. Каждая диагональная запись - это отклонение бета-биномиально распределенной случайной величины, и поэтому

Недиагональные записи - это ковариации:

за я, j отчетливый.

Все ковариации отрицательны, поскольку для фиксированного п, увеличение одной компоненты полиномиального вектора Дирихле требует уменьшения другой компоненты.

Это K × K положительно-полуопределенный матрица классифицировать K − 1.

Записи соответствующих корреляционная матрица находятся

Размер выборки выпадает из этого выражения.

Каждый из k компоненты по отдельности имеет бета-биномиальное распределение.

В поддерживать полиномиального распределения Дирихле есть множество

Количество его элементов

Матричные обозначения

В матричных обозначениях

и

с пТ = вектор-строка, транспонированная вектор-столбец п. Сдача

, мы можем написать альтернативно

Параметр известна как «внутриклассовая» или «внутрикластерная» корреляция. Именно эта положительная корреляция приводит к избыточной дисперсии по сравнению с полиномиальным распределением.

Агрегация

Если

то, если случайные величины с индексами я и j удаляются из вектора и заменяются их суммой,

Это свойство агрегирования может использоваться для получения предельного распределения упомянутый выше.

Функция правдоподобия

Концептуально мы делаем N независимые выводы из категориального распределения с K категории. Представим независимые розыгрыши в виде случайных категориальных переменных. за . Обозначим, сколько раз конкретная категория был замечен (для ) среди всех категориальных переменных как , и . Тогда у нас есть два разных взгляда на эту проблему:

  1. Набор категориальные переменные .
  2. Единая векторная переменная , распределенных согласно полиномиальное распределение.

Первый случай - это набор случайных величин, определяющих каждую индивидуальный результат, а последний - переменная, определяющая номер результатов каждого из K категории. Это различие важно, так как два случая имеют соответственно разные распределения вероятностей.

Параметр категориального распределения: куда вероятность получить ценность ; также является параметром полиномиального распределения . Вместо того, чтобы указывать напрямую, мы даем ему сопряженное предварительное распределение, и, следовательно, он взят из распределения Дирихле с вектором параметров .

Интегрируя , получаем составное распределение. Однако форма распределения различается в зависимости от того, какую точку зрения мы придерживаемся.

Для набора индивидуальных результатов

Совместное распространение

Для категориальных переменных , то маргинальный совместное распределение получается интегрированием :

что приводит к следующей явной формуле:

куда это гамма-функция, с

Хотя переменные не появляются явно в приведенной выше формуле, они вводятся через значения.

Условное распространение

Еще одна полезная формула, особенно в контексте Выборка Гиббса, спрашивает, какова условная плотность данной переменной зависит от всех остальных переменных (которые мы обозначим ). Оказывается, имеет очень простой вид:

куда указывает количество отсчетов категории видно во всех переменных, кроме .

Может быть полезно показать, как получить эту формулу. В целом, условные распределения пропорциональны соответствующему совместное распределение, поэтому мы просто начнем с приведенной выше формулы для совместного распределения всех значений, а затем исключить любые факторы, не зависящие от конкретного обсуждаемый. Для этого воспользуемся обозначениями определено выше, и

Мы также используем тот факт, что

Потом:

В общем, не стоит беспокоиться о нормализующая константа во время вывода уравнений для условных распределений. Нормализующая константа будет определена как часть алгоритма выборки из распределения (см. Категориальное распределение # Выборка ). Однако, когда условное распределение записано в простой форме, приведенной выше, оказывается, что нормализующая константа принимает простую форму:

Следовательно

Эта формула тесно связана с Китайский ресторанный процесс, который получается из предела как .

В байесовской сети

В более крупном Байесовская сеть в котором категориальные (или так называемые "полиномиальные") распределения встречаются с Распределение Дирихле приоры как часть более крупной сети, все приоры Дирихле могут быть свернуты при условии, что единственными узлами, зависящими от них, являются категориальные распределения. Свертывание происходит для каждого узла распределения Дирихле отдельно от других и происходит независимо от любых других узлов, которые могут зависеть от категориальных распределений. Это также происходит независимо от того, зависят ли категориальные распределения от узлов, дополнительных к априорным точкам Дирихле (хотя в таком случае эти другие узлы должны оставаться в качестве дополнительных факторов обусловливания). По сути, все категориальные распределения, зависящие от данного узла распределения Дирихле, становятся связанными в единое мультиномиальное совместное распределение Дирихле, определяемое приведенной выше формулой. Совместное распределение, как определено таким образом, будет зависеть от родителя (ей) интегрированных предшествующих узлов Дирихле, а также любого родителя (ов) категориальных узлов, кроме самих предшествующих узлов Дирихле.

В следующих разделах мы обсудим различные конфигурации, обычно встречающиеся в байесовских сетях. Повторяем плотность вероятности сверху и определяем ее с помощью символа :

Несколько априоров Дирихле с одним и тем же гиперприором

Представьте, что у нас есть следующая иерархическая модель:

В таких случаях у нас есть несколько априорных значений Дирише, каждый из которых генерирует некоторое количество категориальных наблюдений (возможно, разное количество для каждого априорного значения). Тот факт, что все они зависят от одного и того же гиперприора, даже если это случайная величина, как указано выше, не имеет значения. Эффект интегрирования априорного значения Дирихле связывает категориальные переменные, связанные с этим априорным значением, совместное распределение которого просто наследует любые обусловливающие факторы априорного значения Дирихле. Тот факт, что несколько приоритетов могут иметь один гиперприор, не имеет значения:

куда это просто набор категориальных переменных, зависящих от предшествующих d.

Соответственно, условное распределение вероятностей можно записать следующим образом:

куда конкретно означает количество переменных среди множества , без учета само по себе, которые имеют ценность .

Надо посчитать Только переменные, имеющие значение k которые связаны с рассматриваемой переменной за счет того же предшествующего значения. Мы делаем нет хотите подсчитать любые другие переменные, также имеющие значение k.

Множественные приоры Дирихле с одним и тем же гиперприором с зависимыми детьми

А теперь представьте себе несколько более сложную иерархическую модель:

Эта модель такая же, как и выше, но, кроме того, каждая из категориальных переменных имеет зависимую дочернюю переменную. Это типично для модель смеси.

Опять же, в совместном распределении только категориальные переменные, зависящие от одного и того же априорного значения, связаны в один полином Дирихле:

Условное распределение категориальных переменных, зависящих только от их родителей и предков, будет иметь ту же форму, что и выше, в более простом случае. Однако при выборке Гиббса необходимо определить условное распределение данного узла зависит не только от и предки, такие как но на все другие параметры.

Упрощенное выражение для условного распределения получается выше, просто переписывая выражение для совместной вероятности и удаляя постоянные факторы. Следовательно, такое же упрощение применимо к большему выражению совместной вероятности, например, в этой модели, состоящему из полиномиальных плотностей Дирихле плюс коэффициенты для многих других случайных величин, зависящих от значений категориальных переменных.

Это дает следующее:

Здесь плотность вероятности появляется прямо. Сделать случайная выборка над , мы бы вычислили ненормированные вероятности для всех K возможности для используя приведенную выше формулу, затем нормализуйте их и действуйте как обычно, используя алгоритм, описанный в категориальное распределение статья.

Правильно говоря, дополнительный фактор, который появляется в условном распределении, выводится не из спецификации модели, а непосредственно из совместного распределения. Это различие важно при рассмотрении моделей, в которых данный узел с предшествующим родителем Дирихле имеет несколько зависимых дочерних элементов, особенно когда эти дочерние элементы зависят друг от друга (например, если у них общий родительский элемент, который свернут). Это обсуждается более подробно ниже.

Множественные приоры Дирихле со сменой предыдущего членства

Теперь представьте, что у нас есть следующая иерархическая модель:

Здесь у нас есть сложная ситуация, когда у нас есть несколько априорных значений Дирихле, как и раньше, и набор зависимых категориальных переменных, но связь между априорными и зависимыми переменными не является фиксированной, в отличие от предыдущих. Вместо этого выбор того, какой из них перед использованием, зависит от другой случайной категориальной переменной. Это происходит, например, в тематических моделях, и действительно, имена переменных выше должны соответствовать тем, что в скрытое размещение Дирихле. В этом случае набор это набор слов, каждое из которых взято из одного из возможные темы, где каждая тема является предшествующей Дирихле над словарным запасом возможные слова с указанием частоты встречаемости разных слов в теме. Однако тематическая принадлежность данного слова не фиксирована; скорее, это определяется из набора скрытые переменные . В каждом слове есть одна скрытая переменная, -размерный категориальная переменная указав тему, к которой принадлежит слово.

В этом случае все переменные, зависящие от данного априорного значения, связаны вместе (т. Е. коррелированный ) в группе, как и раньше - в частности, все слова, относящиеся к данной теме, связаны. В этом случае, однако, членство в группе меняется, поскольку слова не привязаны к данной теме, но тема зависит от значения скрытой переменной, связанной со словом. Однако определение полиномиальной плотности Дирихле на самом деле не зависит от количества категориальных переменных в группе (т. Е. Количества слов в документе, созданных на основе данной темы), а только от подсчета количества переменных в группа имеет заданное значение (т. е. среди всех словосочетаний, сгенерированных из данной темы, сколько из них является данным словом). Следовательно, мы все еще можем написать явную формулу для совместного распределения:

Здесь мы используем обозначения для обозначения количества токенов слов, значение которых является символом слова v и которые относятся к теме k.

Условное распределение по-прежнему имеет тот же вид:

Снова здесь, Только категориальные переменные для слов, принадлежащих данной теме, связаны (даже если эта связь будет зависеть от присвоений скрытых переменных), и, следовательно, количество слов должно быть больше Только слова, созданные по данной теме. Следовательно, символ , который представляет собой количество токенов слов, имеющих символ слова v, но Только среди созданных по теме k, и исключая само слово, распространение которого описывается.

(Причина, по которой необходимо исключить само слово и почему оно вообще имеет смысл, заключается в том, что в Выборка Гиббса В контексте мы неоднократно передискретизируем значения каждой случайной переменной после прохождения и выборки всех предыдущих переменных. Следовательно, переменная уже будет иметь значение, и нам нужно исключить это существующее значение из различных подсчетов, которые мы используем.)

Комбинированный пример: тематические модели LDA

Теперь мы покажем, как объединить некоторые из приведенных выше сценариев, чтобы продемонстрировать, как Образец Гиббса реальная модель, в частности сглаженная скрытое размещение Дирихле (LDA) тематическая модель.

Модель выглядит следующим образом:

По сути, мы объединяем предыдущие три сценария: у нас есть категориальные переменные, зависящие от нескольких априорных факторов, разделяющих гиперприор; у нас есть категориальные переменные с зависимыми детьми ( скрытая переменная темы идентичности); и у нас есть категориальные переменные со сдвигающейся принадлежностью к нескольким априорным, разделяющим гиперприор. В стандартной модели LDA слова полностью соблюдаются, и, следовательно, нам никогда не нужно их пересчитывать. (Однако выборка Гиббса была бы в равной степени возможна, если бы наблюдались только некоторые слова или ни одно из них. В таком случае мы хотели бы инициализировать распределение по словам каким-либо разумным образом - например, из выходных данных некоторого процесса, который генерирует предложения , например машинный перевод модель - чтобы в результате задний скрытые распределения переменных, чтобы иметь какой-либо смысл.)

Используя приведенные выше формулы, мы можем записать условные вероятности напрямую:

Здесь мы более четко определили количество слов, чтобы четко разделить количество слов и количество тем:

Как и в приведенном выше сценарии с категориальными переменными с зависимыми дочерними элементами, условная вероятность этих зависимых детей появляется в определении условной вероятности родителя. В этом случае каждая скрытая переменная имеет только одно зависимое дочернее слово, поэтому появляется только один такой термин. (Если бы было несколько зависимых детей, все они должны были бы появиться в условной вероятности родителя, независимо от того, было ли перекрытие между разными родителями и одними и теми же детьми, т.е. независимо от того, есть ли у зависимых детей данного родителя и других родителей. случай, когда у ребенка несколько родителей, условная вероятность для этого ребенка появляется в определении условной вероятности каждого из его родителей.)

В приведенном выше определении указаны только ненормализованный условная вероятность слов, в то время как условная вероятность темы требует действительный (т.е. нормализованная) вероятность. Следовательно, мы должны нормализовать, суммируя все символы слов:

куда

Также стоит остановиться еще на одном моменте, который касается второго фактора, указанного выше в условной вероятности. Помните, что условное распределение в целом является производным от совместного распределения и упрощается за счет удаления членов, не зависящих от области условного распределения (часть слева от вертикальной черты). Когда узел есть дети-иждивенцы, будет один или несколько факторов в совместном распределении, которые зависят от . Обычно есть один фактор для каждого зависимого узла, и он имеет ту же функцию плотности, что и распределение, фигурирующее в математическом определении. Однако, если у зависимого узла есть еще один родительский узел (со-родитель), и этот со-родитель свернут, тогда узел станет зависимым от всех других узлов, разделяющих этого со-родителя, и вместо нескольких терминов для каждый такой узел совместного распределения будет иметь только один совместный член. У нас здесь именно такая ситуация. Хотя есть только один ребенок , у этого дочернего элемента есть свернутый родительский элемент Дирихле, который индуцирует многочлен Дирихле по всему набору узлов .

Бывает, что в этом случае проблема не вызывает серьезных проблем именно из-за однозначной связи между и . Мы можем переписать совместное распределение следующим образом:

где в наборе (т.е. набор узлов без учета ) ни один из узлов не имеет как родитель. Следовательно, он может быть исключен как обусловливающий фактор (строка 2), что означает, что весь фактор может быть исключен из условного распределения (строка 3).

Второй пример: наивная байесовская кластеризация документов

Вот еще одна модель, но с другим набором проблем. Это реализация неконтролируемого Наивный байесовский модель кластеризации документов. То есть мы хотели бы классифицировать документы на несколько категорий (например, "спам "или" не-спам ", или" статья в научном журнале "," газетная статья о финансах "," газетная статья о политике "," любовное письмо ") на основе текстового содержания. Однако мы еще не знаем правильную категорию любых документов; вместо этого мы хотим кластер они основаны на взаимном сходстве. (Например, набор научных статей будет иметь тенденцию быть похожими друг на друга в использовании слов, но сильно отличаться от набора любовных писем.) Это тип обучение без учителя. (Эту же технику можно использовать для выполнения полу-контролируемое обучение, т.е. когда мы знаем правильную категорию некоторой части документов и хотели бы использовать эти знания, чтобы помочь в кластеризации остальных документов.)

Модель выглядит следующим образом:

Во многом эта модель очень похожа на LDA тематическая модель описано выше, но предполагает наличие одной темы для каждого документа, а не одной темы для каждого слова, при этом документ состоит из нескольких тем. Это хорошо видно на приведенной выше модели, которая идентична модели LDA, за исключением того, что имеется только один скрытая переменная на документ вместо одного на слово. И снова мы предполагаем, что мы сворачиваем все априоры Дирихле.

Условная вероятность для данного слова почти идентична случаю LDA. Еще раз, все слова, порожденные одним и тем же апором Дирихле, взаимозависимы. В данном случае это означает, что слова всех документов имеют данную метку - опять же, это может варьироваться в зависимости от назначения меток, но все, что нас волнует, - это общее количество. Следовательно:

куда

Однако существует критическое различие в условном распределении скрытых переменных для присвоений меток, которое заключается в том, что данная переменная метки имеет несколько дочерних узлов вместо одного - в частности, узлов для всех слов в документе метки. Это тесно связано с обсуждением фактора это проистекает из совместного распределения. В этом случае необходимо совместное распределение по всем словам во всех документах, содержащих присвоение меток, равное значению , и имеет значение полиномиального распределения Дирихле. Более того, мы не можем свести это совместное распределение к условному распределению по одному слову. Скорее, мы можем уменьшить его только до меньшего совместного условного распределения по словам в документе для рассматриваемой метки, и, следовательно, мы не можем упростить его, используя описанный выше трюк, который дает простую сумму ожидаемого количества и предыдущего. Хотя на самом деле его можно переписать как произведение таких индивидуальных сумм, количество факторов очень велико и явно не более эффективно, чем прямое вычисление вероятности полиномиального распределения Дирихле.

Связанные дистрибутивы

Одномерная версия полиномиального распределения Дирихле известна как Бета-биномиальное распределение.

Полиномиальное распределение Дирихле может быть построено из независимых отрицательный бином случайных величин способом, аналогичным построению полиномиальное распределение из независимых Пуассон случайные переменные.[2]

Использует

Полиномиальное распределение Дирихле используется в автоматизированных классификация документов и кластеризация, генетика, экономия, боевое моделирование и количественный маркетинг.

Смотрите также

Рекомендации

Цитаты

  1. ^ а б c Глюзенкамп, Т. (2018). «Вероятностная обработка неопределенности от конечного размера взвешенных данных Монте-Карло». EPJ Plus. 133 (6): 218. arXiv:1712.01293. Bibcode:2018EPJP..133..218G. Дои:10.1140 / epjp / i2018-12042-x. S2CID  125665629.
  2. ^ Чжоу, М. (2018). «Непараметрический байесовский отрицательный биномиальный факторный анализ». Байесовский анализ. 13 (4): 1065–1093. Дои:10.1214 / 17-BA1070.

Источники