Категориальное распределение - Categorical distribution

Категоричный
Параметры количество категорий (целое число )
вероятности событий
Поддерживать
PMF

(1)
(2)
(3)

куда это Кронштейн Айверсона
Режим

В теория вероятности и статистика, а категориальное распределение (также называемый обобщенное распределение Бернулли, многоуллионное распределение[1]) это дискретное распределение вероятностей который описывает возможные результаты случайной величины, которая может принимать одно из K возможные категории, с указанием вероятности каждой категории отдельно. В основе этих результатов нет внутреннего упорядочивания, но для удобства описания распределения часто добавляются числовые метки (например, от 1 до K). В K-мерное категориальное распределение - это наиболее общее распределение по K-входящее мероприятие; любое другое дискретное распределение по размеру -K пространство образца это особый случай. Параметры, определяющие вероятности каждого возможного исхода, ограничены только тем фактом, что каждый должен быть в диапазоне от 0 до 1, и все они должны быть в сумме равными 1.

Категориальное распределение - это обобщение из Распределение Бернулли для категоричный случайная величина, то есть для дискретной переменной с более чем двумя возможными исходами, такими как бросок умереть. С другой стороны, категориальное распределение - это особый случай из полиномиальное распределение, в том смысле, что он дает вероятности потенциальных результатов одного рисунка, а не нескольких рисунков.

Терминология

Иногда категориальное распределение называют «дискретным распределением». Однако это правильно относится не к одному конкретному семейству дистрибутивов, а к одному общий класс распределений.

В некоторых областях, например машинное обучение и обработка естественного языка категоричность и полиномиальные распределения смешаны, и обычно говорят о «полиномиальном распределении», когда «категориальное распределение» было бы более точным.[2] Такое неточное использование проистекает из того факта, что иногда удобно выразить результат категориального распределения как «1 изK"вектор (вектор, один элемент которого содержит 1, а все остальные элементы содержат 0), а не как целое число в диапазоне от 1 до K; в этой форме категориальное распределение эквивалентно полиномиальному распределению для одного наблюдения (см. ниже).

Однако объединение категориального и полиномиального распределений может привести к проблемам. Например, в Дирихле-полиномиальное распределение, который обычно возникает в моделях обработки естественного языка (хотя обычно не с этим именем) в результате свернутая выборка Гиббса куда Распределения Дирихле рухнули из иерархическая байесовская модель, очень важно отличать категориальное от полиномиального. В совместное распределение одних и тех же переменных с одним и тем же полиномиальным распределением Дирихле имеет две разные формы в зависимости от того, охарактеризовано ли оно как распределение, область действия которого охватывает отдельные категориальные узлы или подсчет узлов в полиномиальном стиле в каждой конкретной категории (аналогично различию между набор из Распределенный по Бернулли узлы и один биномиально распределенный узел). Обе формы выглядят очень похоже. вероятностные массовые функции (PMF), оба из которых ссылаются на подсчет узлов в категории в полиномиальном стиле. Однако у PMF в полиномиальном стиле есть дополнительный фактор: полиномиальный коэффициент, то есть константа, равная 1 в PMF категориального стиля. Их смешение может легко привести к неверным результатам в настройках, в которых этот дополнительный фактор не является постоянным по отношению к интересующим распределениям. Коэффициент часто постоянен в полных условных выражениях, используемых в выборке Гиббса, и в оптимальных распределениях в вариационные методы.

Формулирование распределений

Категориальное распределение - это дискретное распределение вероятностей, пространство образца это набор k индивидуально идентифицированные предметы. Это обобщение Распределение Бернулли для категоричный случайная переменная.

В одной формулировке распределения пространство образца рассматривается как конечная последовательность целых чисел. Точные целые числа, используемые в качестве меток, не важны; они могут быть {0, 1, ..., k - 1} или {1, 2, ..., k} или любой другой произвольный набор значений. В следующих описаниях мы используем {1, 2, ..., k} для удобства, хотя это не согласуется с соглашением для Распределение Бернулли, который использует {0, 1}. В этом случае функция массы вероятности ж является:

куда , представляет вероятность увидеть элемент я и .

Другая формулировка, которая кажется более сложной, но облегчает математические манипуляции, заключается в следующем: Кронштейн Айверсона:[3]

куда оценивается в 1, если , 0 в противном случае. У этой рецептуры есть различные преимущества, например:

Еще одна формулировка ясно показывает связь между категориальным и полиномиальные распределения рассматривая категориальное распределение как частный случай полиномиального распределения, в котором параметр п полиномиального распределения (количество элементов выборки) фиксировано на 1. В этой формулировке пространство выборки может рассматриваться как набор 1 изK закодированный[4] случайные векторы Икс измерения k имея свойство, что ровно один элемент имеет значение 1, а остальные имеют значение 0. Конкретный элемент, имеющий значение 1, указывает, какая категория была выбрана. В функция массы вероятности ж в этой формулировке это:

куда представляет вероятность увидеть элемент я и Это формулировка, принятая Епископ.[4][примечание 1]

Характеристики

Возможные вероятности категориального распределения с являются 2-симплексными , вложенный в 3-мерное пространство.
  • Распределение полностью определяется вероятностями, связанными с каждым числом я: , я = 1,...,k, куда . Возможные наборы вероятностей точно такие же, как в стандарт -мерный симплекс; за k = 2 это сводится к возможным вероятностям того, что распределение Бернулли является 1-симплексом,
  • Распределение является частным случаем «многомерного распределения Бернулли».[5] в котором ровно один из k 0-1 переменные принимают значение один.
  • Позволять быть реализацией из категориального распределения. Определите случайный вектор Y в составе элементов:
куда я это индикаторная функция. потом Y имеет распределение, которое является частным случаем полиномиального распределения с параметром . Сумма независимые и одинаково распределенные такие случайные величины Y построенный из категориального распределения с параметром является полиномиально распределенный с параметрами и

Байесовский вывод с использованием сопряженного априорного

В Байесовская статистика, то Распределение Дирихле это сопряженный предшествующий распределение категориального распределения (а также полиномиальное распределение ). Это означает, что в модели, состоящей из точки данных, имеющей категориальное распределение с неизвестным вектором параметров п, и (в стандартном байесовском стиле) мы решили рассматривать этот параметр как случайная переменная и дайте ему предварительное распространение определяется с использованием Распределение Дирихле, то апостериорное распределение параметра, после включения знаний, полученных из данных наблюдений, также является Дирихле. Интуитивно понятно, что в таком случае, исходя из того, что было известно о параметре до наблюдения точки данных, знания могут быть обновлены на основе точки данных, давая новое распределение той же формы, что и старое. Таким образом, сведения о параметре могут быть последовательно обновлены путем включения новых наблюдений по одному, без математических трудностей.

Формально это можно выразить следующим образом. Учитывая модель

то имеет место следующее:[2]

Это отношение используется в Байесовская статистика для оценки основного параметра п категориального распределения с учетом набора N образцы. Интуитивно мы можем просмотреть гиперприор вектор α в качестве псевдосчета, т.е. как количество наблюдений в каждой категории, которые мы уже видели. Затем мы просто добавляем счетчики для всех новых наблюдений (вектор c), чтобы получить апостериорное распределение.

Дальнейшая интуиция исходит из ожидаемое значение апостериорного распределения (см. статью о Распределение Дирихле ):

Это говорит о том, что ожидаемая вероятность увидеть категорию я среди различных дискретных распределений, сгенерированных апостериорным распределением, просто равна доле вхождений этой категории, фактически замеченных в данных, включая псевдосчетчики в предыдущем распределении. Это имеет большой интуитивный смысл: если, например, есть три возможные категории, и категория 1 наблюдается в наблюдаемых данных 40% времени, можно ожидать, что в среднем категория 1 будет встречаться в 40% случаев. также и апостериорное распределение.

(Эта интуиция игнорирует эффект априорного распределения. Более того, апостериорное распределение по раздачам. Апостериорное распределение в целом описывает рассматриваемый параметр, и в этом случае сам параметр представляет собой дискретное распределение вероятностей, то есть фактическое категориальное распределение, которое сгенерировало данные. Например, если в наблюдаемых данных присутствуют 3 категории в соотношении 40: 5: 55, то, игнорируя эффект предшествующего распределения, истинный параметр - то есть истинное, лежащее в основе распределение, которое сгенерировало наши наблюдаемые данные - будет иметь среднее значение (0,40,0,05,0,55), которое действительно показывает задняя часть. Однако на самом деле истинное распределение может быть (0,35,0,07,0,58) или (0,42,0,04,0,54) или другими близкими возможностями. Степень неопределенности здесь определяется отклонение апостериорной, которая контролируется общим количеством наблюдений - чем больше наблюдаемых данных, тем меньше неопределенность в отношении истинного параметра.)

(Технически предыдущий параметр на самом деле следует рассматривать как представление предыдущие наблюдения категории . Затем обновленный апостериорный параметр представляет апостериорные наблюдения. Это отражает тот факт, что распределение Дирихле с имеет совершенно плоскую форму - по сути, равномерное распределение над симплекс возможных значений п. По логике, плоское распределение такого рода представляет собой полное незнание, не соответствующее никаким наблюдениям. Однако математическое обновление апостериорной области работает нормально, если мы игнорируем срок и просто подумайте о α вектор как непосредственно представляющий набор псевдосчетов. Кроме того, это позволяет избежать проблемы интерпретации значения меньше 1.)

Оценка MAP

В максимальная апостериорная оценка параметра п в приведенной выше модели это просто мода апостериорного распределения Дирихле, т.е.[2]

Во многих практических приложениях единственный способ гарантировать условие, что должен установить для всех я.

Предельная вероятность

В приведенной выше модели предельная вероятность наблюдений (т.е. совместное распределение наблюдений, с априорным параметром маргинализованный ) это Дирихле-полиномиальное распределение:[2]

Это распределение играет важную роль в иерархические байесовские модели, потому что при выполнении вывод над такими моделями, используя такие методы, как Выборка Гиббса или же вариационный байесовский, Априорные распределения Дирихле часто не учитываются. Увидеть статья об этом раздаче Больше подробностей.

Заднее прогностическое распределение

В апостериорное прогнозирующее распределение нового наблюдения в вышеупомянутой модели - это распределение, которое новое наблюдение взял бы с учетом набора из N категоричные наблюдения. Как показано в Дирихле-полиномиальное распределение статья, она имеет очень простой вид:[2]

Между этой формулой и предыдущими существуют различные отношения:

  • Апостериорная прогностическая вероятность увидеть определенную категорию такая же, как относительная доля предыдущих наблюдений в этой категории (включая псевдо-наблюдения предшествующих). Это имеет логический смысл - интуитивно мы ожидаем увидеть определенную категорию в соответствии с уже наблюдаемой частотой этой категории.
  • Апостериорная прогностическая вероятность такая же, как ожидаемое значение апостериорного распределения. Это объясняется более подробно ниже.
  • В результате эту формулу можно выразить просто как «апостериорная прогностическая вероятность увидеть категорию пропорциональна общему наблюдаемому количеству этой категории» или как « ожидаемый счет категории - это то же самое, что и общее наблюдаемое количество в категории », где« наблюдаемое количество »берется для включения псевдонаблюдений предыдущего.

Причина эквивалентности апостериорной вероятности прогноза и ожидаемого значения апостериорного распределения п становится очевидным при повторном рассмотрении приведенной выше формулы. Как объяснено в апостериорное прогнозирующее распределение В статье формула апостериорной предсказательной вероятности имеет форму математического ожидания, взятого относительно апостериорного распределения:

Важнейшая строка выше - третья. Второе следует непосредственно из определения ожидаемой стоимости. Третья строка относится к категориальному распределению и следует из того факта, что именно в категориальном распределении ожидаемая ценность просмотра определенного значения я напрямую указывается связанным параметром пя. Четвертая строка - это просто переписывание третьей в другой записи с использованием более высокой записи для математического ожидания, принятого в отношении апостериорного распределения параметров.

Наблюдайте за точками данных одну за другой и каждый раз учитывайте их прогнозируемую вероятность, прежде чем наблюдать за точкой данных и обновлять апостериорную. Для любой данной точки данных вероятность того, что эта точка примет данную категорию, зависит от количества точек данных, уже находящихся в этой категории. В этом сценарии, если категория имеет высокую частоту появления, то новые точки данных с большей вероятностью присоединятся к этой категории, что еще больше обогатит ту же категорию. Этот тип сценария часто называют преференциальная привязанность (или «богатый становится богаче») модель. Это моделирует многие реальные процессы, и в таких случаях выбор, сделанный несколькими первыми точками данных, оказывает огромное влияние на остальные точки данных.

Заднее условное распределение

В Выборка Гиббса, обычно нужно брать из условные распределения в многомерном Байесовские сети где каждая переменная обусловлена ​​всеми остальными. В сетях, которые включают категориальные переменные с Дирихле приоры (например, модели смеси и модели, включающие компоненты смеси), распределения Дирихле часто "схлопываются" (маргинализованный ) сети, которая вводит зависимости между различными категориальными узлами, зависящими от заданного предшествующего (в частности, их совместное распределение это Дирихле-полиномиальное распределение ). Одна из причин для этого заключается в том, что в таком случае распределение одного категориального узла с учетом других точно соответствует апостериорное прогнозирующее распределение оставшихся узлов.

То есть для набора узлов , если рассматриваемый узел обозначен как а остальное как , тогда

куда количество узлов, имеющих категорию я среди узлов кроме узла п.

Отбор проб

Есть ряд методы, но наиболее распространенный способ выборки из категориального распределения использует тип выборка с обратным преобразованием:

Предположим, что распределение выражается как «пропорциональное» некоторому выражению с неизвестным нормализующая константа. Перед взятием каких-либо проб необходимо подготовить следующие значения:

  1. Вычислите ненормализованное значение распределения для каждой категории.
  2. Суммируйте их и разделите каждое значение на эту сумму, чтобы нормализовать их.
  3. Установите какой-то порядок в категориях (например, по индексу от 1 до k, куда k количество категорий).
  4. Преобразуйте значения в кумулятивная функция распределения (CDF) путем замены каждого значения суммой всех предыдущих значений. Это можно сделать вовремя Ok). Результирующее значение для первой категории будет 0.

Затем каждый раз необходимо выбрать значение:

  1. Выберите равномерно распределены число от 0 до 1.
  2. Найдите в CDF наибольшее число, значение которого меньше или равно только что выбранному числу. Это можно сделать вовремя O (журнал (k)), к бинарный поиск.
  3. Верните категорию, соответствующую этому значению CDF.

Если необходимо извлечь много значений из одного и того же категориального распределения, следующий подход более эффективен.Он рисует n выборок за время O (n) (при условии, что приближение O (1) используется для извлечения значений из биномиального распределения[6]).

function draw_categorical (n) // где n - количество выборок для извлечения из категориального распределения r = 1 s = 0 для i от 1 до k // где k - количество категорий v = извлечение из бинома (n, p [i] / r) distribution // где p [i] - вероятность категории i для j от 1 до vz [s ++] = i // где z - это массив, в котором хранятся результаты n = n - vr = r - p [i] перемешать (случайным образом изменить порядок) элементы в z вернуть z

Выборка через раздачу Gumbel

В машинное обучение категориальное распределение типично параметризовать, через неограниченное представление в , компоненты которого определяются по формуле:

куда - любая действительная константа. Учитывая это представление, можно восстановить с помощью функция softmax, который затем может быть отобран с использованием описанных выше методов. Однако существует более прямой метод отбора проб, использующий образцы из Гамбель раздача.[7] Позволять быть k независимые розыгрыши из стандартного распределения Гамбеля, затем

будет выборкой из желаемого категориального распределения. (Если образец из стандарта равномерное распределение, тогда - это образец стандартного распределения Гамбеля.)


Смотрите также

Связанные дистрибутивы

Примечания

  1. ^ Однако Бишоп явно не использует термин категориальное распределение.

Рекомендации

  1. ^ Мерфи, К. П. (2012). Машинное обучение: вероятностная перспектива, п. 35. MIT press. ISBN  0262018020.
  2. ^ а б c d е ж Минка, Т. (2003) Байесовский вывод, энтропия и полиномиальное распределение. Технический отчет Microsoft Research.
  3. ^ Минка Т. (2003), указ. соч. Минка использует Дельта Кронекера функция, аналогичная, но менее общая, чем функция Кронштейн Айверсона.
  4. ^ а б Бишоп, К. (2006) Распознавание образов и машинное обучение, Springer. ISBN  0-387-31073-8.
  5. ^ Джонсон, Н.Л., Коц, С., Балакришнан, Н. (1997) Дискретные многомерные распределения, Wiley. ISBN  0-471-12844-9 (стр.105)
  6. ^ Агрести, А., Введение в категориальный анализ данных, Wiley-Interscience, 2007, ISBN  978-0-471-22618-5, стр.25
  7. ^ Адамс, Райан. "Уловка Гамбеля – Макса для дискретных распределений".