Неточный процесс Дирихле - Imprecise Dirichlet process

В теории вероятностей и статистике Процесс Дирихле (DP) - одна из самых популярных байесовских непараметрических моделей. Его представил Томас Фергюсон.[1] в качестве априорного распределения вероятностей.

А Процесс Дирихле полностью определяется своими параметрами: базовое распределение или же базовая мера) - произвольное распределение и параметр концентрации ) - положительное действительное число (часто обозначается как Согласно байесовской парадигме, эти параметры следует выбирать на основе имеющейся априорной информации о предметной области.

Вопрос в том, как выбрать априорные параметры. ДП, в частности бесконечномерной , в случае отсутствия предварительной информации?

Чтобы решить эту проблему, единственное предварительное предложение, которое было предложено до сих пор, - это ограничение DP, полученное для , который был введен под названием Байесовский бутстрап Рубина;[2] фактически можно доказать, что байесовский бутстрап асимптотически эквивалентен частотному бутстрапу, введенному Брэдли Эфрон.[3]Предельный процесс Дирихле подвергался критике по разным причинам. С априорной точки зрения основная критика заключается в том, что принятие далека от того, чтобы привести к неинформативному приору.[4]Более того, апостериори он присваивает нулевую вероятность любому набору, который не включает наблюдения.[2]

Неточный Дирихле[5] был предложен процесс для преодоления этих проблем. Основная идея - исправить но не выбирайте точную базовую меру .

Точнее, неточный процесс Дирихле (IDP) определяется следующим образом:

куда - множество всех вероятностных мер. Другими словами, IDP - это совокупность всех процессов Дирихле (с фиксированной ), полученная с помощью базовой меры чтобы охватить множество всех вероятностных мер.

Выводы с использованием неточного процесса Дирихле

Позволять распределение вероятностей на (здесь это стандарт Борелевское пространство с Борелем -поле ) и предположим, что .Тогда рассмотрим действительную ограниченную функцию определено на . Как известно, ожидание относительно процесса Дирихле

Одно из самых замечательных свойств априорных значений DP состоит в том, что апостериорное распределение снова DP. быть независимой и одинаково распределенной выборкой из и , то апостериорное распределение учитывая наблюдения

куда является атомарной вероятностной мерой (дельта Дирака) с центром в . Отсюда следует, что Следовательно, для любого фиксированного , мы можем использовать предыдущие уравнения для получения априорных и апостериорных ожиданий.

в IDP может охватывать множество всех дистрибутивов . Это означает, что мы получим разные априорные и апостериорные ожидания на любой выбор . Способ охарактеризовать выводы для IDP вычисляется нижняя и верхняя границы математического ожидания w.r.t. Априори эти границы таковы:

нижняя (верхняя) граница получается вероятностной мерой, которая помещает всю массу в нижнюю грань (супремум) , т.е. с (или соответственно с ). Из приведенных выше выражений нижней и верхней границ видно, что диапазон под IDP такой же, как оригинал классифицировать из . Другими словами, указав IDP, мы не даем никакой предварительной информации о значении ожидания . Априори, IDP поэтому является моделью предварительного (почти) незнания .

Апостериори, IDP можно учиться на данных. Апостериорные нижняя и верхняя границы ожидания фактически даются:

Можно заметить, что апостериорные выводы не зависят от . Чтобы определить IDP, разработчику модели достаточно выбрать (параметр концентрации). Это объясняет значение прилагательного возле в предшествующем почти незнании, потому что IDP требует от моделиста выявления параметра. Однако это простая проблема выявления для непараметрического априорного значения, поскольку нам нужно только выбрать значение положительного скаляра (в модели IDP осталось не бесконечно много параметров).

Наконец, заметьте, что для , IDP удовлетворяет

куда . Другими словами, IDP последовательна.

Нижнее (красный) и верхнее (синий) кумулятивное распределение для наблюдений {−1.17, 0.44, 1.17, 3.28, 1.44, 1.98}

Выбор предшествующей крепости

IDP полностью указан , который является единственным параметром, оставшимся в предыдущей модели. определяет, насколько быстро сходятся нижние и верхние апостериорные ожидания при увеличении количества наблюдений, можно выбрать так, чтобы соответствовать определенной скорости сходимости.[5]Параметр также могут быть выбраны так, чтобы иметь некоторые желательные частотные свойства (например, достоверные интервалы для калибровки частотных интервалов, проверки гипотез, которые необходимо откалибровать для ошибки типа I, и т. д.), см. Пример: медианный тест

Пример: оценка кумулятивного распределения

Позволять быть i.i.d. реальные случайные величины с кумулятивная функция распределения .

С , куда это индикаторная функция, мы можем использовать IDP, чтобы делать выводы о Нижнее и верхнее заднее среднее значение находятся

куда это эмпирическая функция распределения. Здесь для получения меньшего мы использовали тот факт, что а для верха это .

Бета-распределения для нижней (красный) и верхней (синий) вероятностей, соответствующих наблюдениям {-1,17, 0,44, 1,17, 3,28, 1,44, 1,98}. Область в [0,0.5] дает нижнюю (0,891) и верхнюю (0,9375) вероятность гипотезы «медиана больше нуля».

Обратите внимание, что для любого точного выбора (например, нормальное распределение ) апостериорное ожидание будут включены между нижней и верхней границей.

Пример: медианный тест

IDP также можно использовать для проверки гипотез, например, для проверки гипотезы. , т. е. медиана больше нуля. с учетом разбиения и свойство процесса Дирихле, можно показать, что апостериорное распределение является

куда - количество наблюдений меньше нуля,

и

Используя это свойство, следует, что

куда это регуляризованная неполная бета-функция Таким образом, мы можем выполнить проверку гипотезы.

например), а затем

  1. если оба неравенства выполнены, мы можем заявить, что с вероятностью больше, чем ;
  2. если выполняется только одно из неравенств (которое обязательно должно быть неравенством для верхнего), мы находимся в неопределенной ситуации, т.е. мы не можем принять решение;
  3. если оба не удовлетворены, мы можем заявить, что вероятность того, что ниже желаемой вероятности .

IDP возвращает неопределенное решение, когда решение является априорным (то есть когда оно будет зависеть от выбора ).

Используя отношения между кумулятивная функция распределения из Бета-распределение, а кумулятивная функция распределения из случайная переменная Z из биномиальное распределение, где «вероятность успеха» равна п а размер выборки п:

мы можем показать, что средний тест, полученный с помощью th IDP, для любого выбора включает односторонний частотный тест в качестве теста на медианное значение. Фактически можно проверить, что для в -значение критерия знака равно . Таким образом, если затем -значение меньше чем и, следовательно, эти два теста имеют одинаковую мощность.

Применение неточного процесса Дирихле

Процессы Дирихле часто используются в байесовской непараметрической статистике. Неточный процесс Дирихле может использоваться вместо процессов Дирихле в любом приложении, в котором априорная информация отсутствует (поэтому важно смоделировать это состояние предшествующего незнания).

В этом отношении для непараметрической проверки гипотез использовался неточный процесс Дирихле, см. статистический пакет Imprecise Dirichlet Process На основе неточного процесса Дирихле были получены байесовские непараметрические почти незнания версии следующих классических непараметрических оценок: критерий суммы рангов Вилкоксона.[5] и знаковый ранговый тест Уилкоксона.[6]

Байесовская непараметрическая модель почти незнания имеет несколько преимуществ по сравнению с традиционным подходом к проверке гипотез.

  1. Байесовский подход позволяет сформулировать проверку гипотез как проблему решения. Это означает, что мы можем проверить доказательства в пользу нулевой гипотезы, а не только отвергнуть ее, и принять решения, которые минимизируют ожидаемые потери.
  2. Из-за непараметрического априорного незнания, тесты на основе IDP позволяют нам начать проверку гипотез с очень слабыми априорными предположениями, что позволяет данным говорить сами за себя.
  3. Хотя тест IDP имеет несколько общих черт со стандартным байесовским подходом, в то же время он воплощает в себе существенное изменение парадигмы, когда дело доходит до принятия решений. Фактически, тесты на основе IDP имеют то преимущество, что дают неопределенный результат, когда решение зависит от априора. Другими словами, тест IDP приостанавливает вынесение решения, когда параметр, который минимизирует ожидаемые убытки, изменяется в зависимости от базового показателя процесса Дирихле, на котором мы сосредоточены.
  4. Эмпирически подтверждено, что когда тест IDP не определен, частотные тесты фактически ведут себя как случайные догадки. Этот удивительный результат имеет практические последствия при проверке гипотез. Предположим, что мы пытаемся сравнить эффекты двух видов лечения (Y лучше, чем X) и что, учитывая доступные данные, тест IDP не определен. В такой ситуации частотный тест всегда выдает определенный ответ (например, я могу сказать, что Y лучше, чем X), но оказывается, что его ответ полностью случайен, как если бы мы подбрасывали монету. С другой стороны, тест IDP признает невозможность принятия решения в этих случаях. Таким образом, говоря «Я не знаю», тест IDP предоставляет аналитику более обширную информацию. Например, аналитик может использовать эту информацию для сбора дополнительных данных.

Категориальные переменные

За категориальные переменные, т.е. когда имеет конечное число элементов, известно, что процесс Дирихле сводится к Распределение Дирихле.В этом случае неточный процесс Дирихле сводится к Неточная модель Дирихле предложено Уолли[7] как образец предварительного (почти) незнания шансов.

Смотрите также

Неточная вероятность

Надежный байесовский анализ

Рекомендации

  1. ^ Фергюсон, Томас (1973). «Байесовский анализ некоторых непараметрических задач». Анналы статистики. 1 (2): 209–230. Дои:10.1214 / aos / 1176342360. МИСТЕР  0350949.
  2. ^ а б Рубин Д (1981). Байесовский бутстрап. Анна. Стат. 9 130–134
  3. ^ Эфрон Б (1979). Методы начальной загрузки: еще раз взглянем на складной нож. Анна. Стат. 7 1–26
  4. ^ Sethuraman, J .; Тивари, Р. К. (1981). «Сходимость мер Дирихле и интерпретация их параметра». Центр оборонной технической информации.
  5. ^ а б c Бенаволи, Алессио; Мангили, Франческа; Руджери, Фабрицио; Заффалон, Марко (2014). «Неточный процесс Дирихле с приложением к проверке гипотез о вероятности того, что X arXiv:1402.2755 [math.ST ].
  6. ^ Бенаволи, Алессио; Мангили, Франческа; Корани, Джорджио; Руджери, Фабрицио; Заффалон, Марко (2014). «Байесовский тест Вилкоксона со знаком рангов, основанный на процессе Дирихле». Материалы 30-й Международной конференции по машинному обучению (ICML 2014). Цитировать журнал требует | журнал = (помощь)
  7. ^ Уолли, Питер (1991). Статистические рассуждения с неточными вероятностями. Лондон: Чепмен и Холл. ISBN  0-412-28660-2.

внешняя ссылка