Обобщенная фильтрация - Generalized filtering

Обобщенная фильтрация это общий Байесовская фильтрация схема для нелинейных моделей в пространстве состояний.[1] Он основан на вариационный принцип наименьшего действия, сформулированные в обобщенных координатах.[2] Обратите внимание, что понятие «обобщенные координаты», используемое здесь, отличается от концепции обобщенные координаты движения, как используется в анализе (многотельных) динамических систем. Обобщенная фильтрация предоставляет апостериорные плотности по скрытым состояниям (и параметрам), генерируя наблюдаемые данные с использованием обобщенного градиентного спуска по вариационной свободной энергии под Допущение Лапласа. В отличие от классических (например, Кальман-Бьюси или же частица ) фильтрация, обобщенная фильтрация избегает марковских предположений о случайных флуктуациях. Кроме того, он работает в режиме онлайн, ассимилируя данные для аппроксимации апостериорной плотности по неизвестным величинам, без необходимости обратного прохода. Особые случаи включают вариационная фильтрация,[3] максимизация динамического ожидания[4] и обобщенное прогнозирующее кодирование.

Определение

Определение: Обобщенная фильтрация опирается на кортеж :

  • Образец пространства откуда случайные колебания нарисованы
  • Состояния управления - которые действуют как внешние причины, вводные или принудительные условия
  • Скрытые состояния - которые вызывают состояния датчика и зависят от состояний управления
  • Состояния датчика - вероятностное отображение скрытых и контрольных состояний
  • Генеративная плотность - над сенсорными, скрытыми и контролирующими состояниями в рамках генеративной модели
  • Вариационная плотность - по скрытым и контрольным состояниям со средним


Здесь ~ обозначает переменную в обобщенных координатах движения:

Обобщенная фильтрация

Цель состоит в том, чтобы аппроксимировать апостериорную плотность по скрытым и контрольным состояниям с учетом состояний датчиков и генеративной модели - и оценить (интеграл по путям) модельное свидетельство сравнивать разные модели. Обычно это связано с неразрешимой маргинализацией по сравнению со скрытыми состояниями, поэтому модельное свидетельство (или предельное правдоподобие) заменяется вариационным ограничением свободной энергии.[5] Учитывая следующие определения:

Обозначим Энтропия Шеннона плотности к . Тогда мы можем записать вариационную свободную энергию двумя способами:

Второе равенство показывает, что минимизация вариационной свободной энергии (i) минимизирует Расхождение Кульбака-Лейблера между вариационной и истинной апостериорной плотностью и (ii) делает вариационную свободную энергию (граничное приближение) отрицательным логарифмическим свидетельством (потому что расхождение никогда не может быть меньше нуля).[6] В предположении Лапласа вариационная плотность - гауссова, а точность, минимизирующая свободную энергию, - . Это означает, что свободную энергию можно выразить через среднее вариационное [7] (без констант):

Вариационные средства, которые минимизируют (интеграл по путям) свободной энергии, теперь могут быть восстановлены путем решения обобщенного фильтра:

куда - оператор производной блочной матрицы для матриц идентификации таких, что

Вариационная основа

Обобщенная фильтрация основана на следующей лемме: Самосогласованное решение удовлетворяет вариационному принцип стационарного действия, где действие - интеграл по путям вариационной свободной энергии

Доказательство: самосогласованность требует, чтобы движение среднего было средним значением движения и ( основная лемма вариационного исчисления )

Проще говоря, небольшие возмущения пути среднего не изменяют вариационную свободную энергию, и оно оказывает наименьшее влияние из всех возможных (локальных) путей.

Замечания: Эвристически обобщенная фильтрация выполняет градиентный спуск по вариационной свободной энергии в движущейся системе отсчета: , где сам каркас минимизирует вариационную свободную энергию. Связанный пример из статистической физики см. В Kerr and Graham. [8] которые используют динамику ансамбля в обобщенных координатах, чтобы предоставить обобщенную версию уравнения Ланжевена и связанных с ним уравнений Фоккера-Планка для фазового пространства.

На практике обобщенная фильтрация использует локальная линеаризация [9] через интервалы для восстановления дискретных обновлений

Это обновляет средние значения скрытых переменных на каждом интервале (обычно интервале между наблюдениями).

Генеративные (в пространстве состояний) модели в обобщенных координатах

Обычно генеративная плотность или модель задается в терминах нелинейной модели вход-состояние-выход с непрерывными нелинейными функциями:

Соответствующая обобщенная модель (в предположении локальной линейности) получает из цепного правила

Гауссовские предположения о случайных флуктуациях затем прописать вероятность и эмпирическую априорность движения скрытых состояний

Ковариации факторизовать в ковариацию между переменными и корреляциями среди обобщенных колебаний, который кодирует их автокорреляция:

Здесь, - вторая производная автокорреляционной функции, равная нулю. Это повсеместная мера грубости в теории случайные процессы.[10] Важно отметить, что точность (обратная дисперсия) производных высокого порядка довольно быстро падает до нуля, что означает, что необходимо моделировать только обобщенное движение относительно низкого порядка (обычно от двух до восьми) для любой заданной или параметризованной автокорреляционной функции.

Особые случаи

Фильтрация дискретных временных рядов

Когда временные ряды наблюдаются как дискретная последовательность наблюдения, неявная выборка рассматривается как часть процесса генерации, где (используя Теорема Тейлора )

В принципе, всю последовательность можно использовать для оценки скрытых переменных в каждый момент времени. Однако точность выборок в прошлом и будущем быстро падает, и ею можно пренебречь. Это позволяет схеме ассимилировать данные в режиме онлайн, используя локальные наблюдения в каждый момент времени (обычно от двух до восьми).

Обобщенная фильтрация и параметры модели

Для любых медленно меняющихся модельных параметров уравнений движения или точность обобщенная фильтрация принимает следующий вид (где соответствует среднему вариационному параметру)

Здесь решение минимизирует вариационную свободную энергию, когда движение среднего мало. В этом можно убедиться, отметив . Несложно показать, что это решение соответствует классическому Обновление Ньютона.[11]

Связь с байесовской фильтрацией и прогнозным кодированием

Обобщенная фильтрация и фильтрация Калмана

Классическая фильтрация при марковских или винеровских предположениях эквивалентна предположению, что точность движения случайных флуктуаций равна нулю. В этом предельном случае нужно рассматривать только состояния и их первую производную . Это означает, что обобщенная фильтрация принимает форму фильтра Калмана-Бьюси с условиями прогнозирования и коррекции:

Подстановка этой фильтрации первого порядка в схему дискретного обновления выше дает эквивалент (расширенной) фильтрации Калмана.[12]

Общая фильтрация и фильтрация частиц

Фильтрация твердых частиц представляет собой схему на основе выборки, которая ослабляет предположения о форме вариационной или приближенной апостериорной плотности. Соответствующая обобщенная схема фильтрации называется вариационная фильтрация.[3] При вариационной фильтрации ансамбль частиц рассеивается по ландшафту свободной энергии в системе отсчета, которая движется с ожидаемым (обобщенным) движением ансамбля. Это обеспечивает относительно простую схему, которая избегает гауссовских (унимодальных) предположений. В отличие от фильтрации частиц, он не требует плотности предложения - или удаления или создания частиц.

Обобщенная фильтрация и вариационный байесовский

Вариационный байесовский опирается на среднеполевое разбиение вариационной плотности:

Это разбиение вызывает вариационное обновление или шаг для каждой предельной плотности, что обычно решается аналитически с использованием сопряженных априорных значений. При обобщенной фильтрации это приводит к максимизация динамического ожидания.[4] который включает D-шаг, который оптимизирует достаточную статистику неизвестных состояний, E-шаг для параметров и M-шаг для точности.

Обобщенная фильтрация и прогнозное кодирование

Обобщенная фильтрация обычно используется для инвертирования иерархических моделей следующего вида

Последующий обобщенный градиентный спуск по свободной энергии может быть затем компактно выражен в терминах ошибок предсказания, где (без учета членов высокого порядка):

Здесь, - точность случайных флуктуаций на я-й уровень. Это известно как обобщенное предсказательное кодирование [11], с кодирование с линейным прогнозированием как частный случай.

Приложения

Обобщенная фильтрация в первую очередь применялась к биологическим временным рядам, в частности к функциональной магнитно-резонансной томографии и электрофизиологическим данным. Обычно это происходит в контексте динамическое причинно-следственное моделирование сделать выводы о базовой архитектуре (нейронных) систем, генерирующих данные.[13] Он также используется для имитации логического вывода в терминах обобщенного (иерархического) прогнозирующего кодирования в мозге.[14]

Смотрите также

Рекомендации

  1. ^ К. Фристон, К. Стефан, Б. Ли и Ж. Дунизо "Обобщенная фильтрация," Математические проблемы в инженерии, т. т., 2010, с. 621670, 2010 г.
  2. ^ Б. Баладжи и К. Фристон "Байесовская оценка состояния с использованием обобщенных координат, "Proc. SPIE, p. 80501Y, 2011
  3. ^ а б К. Дж. Фристон "Вариационная фильтрация, "Нейроимидж", т. 41, № 3, с. 747-66, 2008.
  4. ^ а б К. Дж. Фристон, Н. Трухильо-Баррето и Дж. Даунизо "DEM: вариационная трактовка динамических систем, "Нейроимидж", т. 41, № 3, с. 849-85, 2008 г.
  5. ^ Р. П. Фейнман, Статистическая механика. Чтение MA: Бенджамин, 1972
  6. ^ М. Дж. Бил "Вариационные алгоритмы приближенного байесовского вывода, "Докторская диссертация, Университетский колледж Лондона, 2003 г."
  7. ^ К. Фристон, Дж. Мэттаут, Н. Трухильо-Баррето, Дж. Эшбёрнер и В. Пенни "Вариационная свободная энергия и приближение Лапласа, "Нейроимидж", т. 34, № 1, с. 220-34, 2007 г.
  8. ^ В. К. Керр и А. Дж. Грэм "Обобщенная версия уравнений Ланжевена и связанных с ними уравнений Фоккера-Планка для фазового пространства, "Eur. Phys. J. B., том 15, стр. 305-11, 2000.
  9. ^ Т. Одзаки "Мост между нелинейными моделями временных рядов и нелинейными стохастическими динамическими системами: подход локальной линеаризации, "Statistica Sin., Т. 2, стр. 113-135, 1992.
  10. ^ Д. Р. Кокс, Г. Д. Миллер, Теория случайных процессов. Лондон: Метуэн, 1965.
  11. ^ К. Фристон, К. Стефан, Б. Ли и Дж. Даунизо, «Обобщенная фильтрация», «Математические проблемы инженерии», т. т., 2010, с. 621670, 2010 г.
  12. ^ К. Дж. Фристон, Н. Трухильо-Баррето и Дж. Даунизо, "ЦМР: вариационная обработка динамических систем", Neuroimage, vol. 41, нет. 3. С. 849-85, 2008.
  13. ^ Дж. Доунизо, о Давид, и К. Е. Стефан "Динамическое каузальное моделирование: критический обзор биофизических и статистических основ В архиве 2012-12-07 в Wayback Machine, «Нейроимидж», т. 58, № 2, стр. 312-22, 2011 г.
  14. ^ К. Фристон "Иерархические модели в мозгу, "PLoS Comput. Biol., Том 4, № 11, стр. E1000211, 2008.

внешняя ссылка

  • программного обеспечения демонстрации и приложения доступны как академическое бесплатное программное обеспечение (как код Matlab) в наборе инструментов DEM SPM
  • документы сборник технической и прикладной документации