Марковская модель переменного порядка - Variable-order Markov model

В математической теории случайные процессы, Марковские (ВОМ) модели переменного порядка являются важным классом моделей, расширяющих хорошо известные Цепь Маркова модели. В отличие от моделей цепей Маркова, где каждый случайная переменная в последовательности с Марковская собственность зависит от фиксированного количества случайных величин, в моделях VOM это количество обусловливающих случайных величин может варьироваться в зависимости от конкретной наблюдаемой реализации.

Эту последовательность реализации часто называют контекст; поэтому модели ВОМ также называют деревья контекста.^[1] Гибкость количества обусловливающих случайных величин оказывается реальным преимуществом для многих приложений, таких как статистический анализ, классификация и предсказание.^[2]^[3]^[4]

пример

Рассмотрим, например, последовательность случайные переменные, каждый из которых принимает значение из троичного алфавит {а, б, c}. В частности, рассмотрим строку aaabcaaabcaaabcaaabc ... aaabc построенный из бесконечных конкатенаций подстроки aaabc.

Модель VOM максимального порядка 2 может аппроксимировать указанную выше строку, используя только следующие пять условная возможность компоненты: {Pr (а | аа) = 0,5, Pr (б | аа) = 0,5, Pr (c | б) = 1.0, Pr (а | c) = 1.0, Pr (а | ок) = 1.0}.

В этом примере Pr (c|ab) = Pr (c|б) = 1,0; следовательно, более короткий контекст б достаточно для определения следующего символа. Точно так же модель VOM максимального порядка 3 может генерировать строку точно, используя только пять компонентов условной вероятности, которые все равны 1.0.

Чтобы построить Цепь Маркова порядка 1 для следующего символа в этой строке необходимо оценить следующие 9 компонентов условной вероятности: {Pr (а | а), Pr (а | б), Pr (а | c), Pr (б | а), Pr (б | б), Pr (б | c), Pr (c | а), Pr (c | б), Pr (c | c)}. Чтобы построить цепь Маркова порядка 2 для следующего символа, необходимо оценить 27 условных компонент вероятности: {Pr (а | аа), Pr (а | ab), ..., Pr (c | cc)}. А чтобы построить цепь Маркова третьего порядка для следующего символа, необходимо оценить 81 компонент условной вероятности: {Pr (а | ааа), Pr (а | ааб), ..., Pr (c | ccc)}.

На практике редко бывает достаточно данных для точной оценки экспоненциально возрастающий количество компонент условной вероятности по мере увеличения порядка цепи Маркова.

Марковская модель переменного порядка предполагает, что в реальных условиях существуют определенные реализации состояний (представленные контекстами), в которых некоторые прошлые состояния независимы от будущих состояний; соответственно, «можно добиться значительного сокращения количества параметров модели».^[1]

Определение

Позволять $А$ быть пространством состояний (конечным алфавит ) размера ${displaystyle | A |}$ .

Рассмотрим последовательность с Марковская собственность ${displaystyle x_ {1} ^ {n} = x_ {1} x_ {2} точки x_ {n}}$ из $п$ реализации случайные переменные, где ${displaystyle x_ {i} в A}$ состояние (символ) в позиции $я$ ${displaystyle scriptstyle (1leq ileq n)}$ , и конкатенация состояний ${displaystyle x_ {i}}$ и ${displaystyle x_ {i + 1}}$ обозначается ${displaystyle x_ {i} x_ {i + 1}}$ .

Учитывая обучающий набор наблюдаемых состояний, ${displaystyle x_ {1} ^ {n}}$ , алгоритм построения моделей ВОМ^[2]^[3]^[4] изучает модель $п$ что обеспечивает вероятность назначение для каждого состояния в последовательности с учетом его прошлого (ранее наблюдаемые символы) или будущего состояния.

В частности, ученик генерирует условное распределение вероятностей ${displaystyle P (x_ {i} mid s)}$ для символа ${displaystyle x_ {i} в A}$ учитывая контекст ${displaystyle sin A ^ {*}}$ , где знак * представляет собой последовательность состояний любой длины, включая пустой контекст.

Модели VOM пытаются оценить условные распределения формы ${displaystyle P (x_ {i} mid s)}$ где длина контекста ${displaystyle | s | leq D}$ варьируется в зависимости от доступной статистики. В отличие от обычных Марковские модели попытаться оценить эти условные распределения предполагая фиксированную длину контекстов ${displaystyle | s | = D}$ и, следовательно, могут рассматриваться как частные случаи моделей ВОМ.

Фактически, для данной обучающей последовательности было обнаружено, что модели VOM получают лучшую параметризацию модели, чем модели фиксированного порядка. Марковские модели что ведет к лучшему отклонение -объективный компромисс изученных моделей.^[2]^[3]^[4]

Области применения

Были разработаны различные эффективные алгоритмы для оценки параметров модели VOM.^[3]

Модели VOM успешно применяются в таких областях, как машинное обучение, теория информации и биоинформатика, включая определенные приложения, такие как кодирование и Сжатие данных,^[1] сжатие документов,^[3] классификация и идентификация ДНК и белковые последовательности,^[5] [1]^[2] Статистическое управление процессами,^[4] фильтрация спама,^[6] гаплотипирование^[7] и другие.

Смотрите также

использованная литература

^ ^а ^б ^c Риссанен, Дж. (Сентябрь 1983 г.). «Универсальная система сжатия данных». IEEE Transactions по теории информации. 29 (5): 656–664. Дои:10.1109 / TIT.1983.1056741.
^ ^а ^б ^c ^d Шмилович, А .; Бен-Гал, И. (2007). «Использование модели VOM для реконструкции потенциальных областей кодирования в последовательностях EST». Вычислительная статистика. 22 (1): 49–69. Дои:10.1007 / s00180-007-0021-8.
^ ^а ^б ^c ^d ^е Беглейтер, Р .; Эль-Янив, Р .; Йона, Г. (2004). «О прогнозировании с использованием марковских моделей переменного порядка» (PDF). Журнал исследований искусственного интеллекта. 22: 385–421. Дои:10.1613 / jair.1491. Архивировано из оригинал (PDF) на 2007-09-28. Получено 2007-04-22.
^ ^а ^б ^c ^d Ben-Gal, I .; Morag, G .; Шмилович, А. (2003). «CSPC: процедура мониторинга процессов, зависящих от состояния» (PDF). Технометрика. 45 (4): 293–311. Дои:10.1198/004017003000000122.
^ Grau J .; Бен-Гал I .; Posch S .; Гросс И. (2006). "VOMBAT: Прогнозирование сайтов связывания транскрипционных факторов с использованием байесовских деревьев переменного порядка" (PDF). Nucleic Acids Research, vol. 34, выпуск W529 – W533. Цитировать журнал требует | журнал = (Помогите)
^ Братко, А .; Cormack, G.V .; Filipic, B .; Линам, Т .; Зупан, Б. (2006). «Фильтрация спама с использованием моделей сжатия статистических данных» (PDF). Журнал исследований в области машинного обучения. 7: 2673–2698.
^ Браунинг, Шэрон Р. «Мультилокусное сопоставление ассоциаций с использованием цепей Маркова переменной длины». Американский журнал генетики человека 78.6 (2006): 903–913.

^[1]

^ Smith, A.R .; Denenberg, J. N .; Slack, T. B .; Tan, C.C .; Wohlford, R.E (август 1985 г.). «Применение системы последовательного обучения по шаблонам для распознавания подключенной речи» (PDF). Труды Международной конференции IEEE 1985 по акустике, речи и обработке сигналов: 1201–1204.

[Rissanen-1] а ^б ^c Риссанен, Дж. (Сентябрь 1983 г.). «Универсальная система сжатия данных». IEEE Transactions по теории информации. 29 (5): 656–664. Дои:10.1109 / TIT.1983.1056741.

[Shmilovici-2] а ^б ^c ^d Шмилович, А .; Бен-Гал, И. (2007). «Использование модели VOM для реконструкции потенциальных областей кодирования в последовательностях EST». Вычислительная статистика. 22 (1): 49–69. Дои:10.1007 / s00180-007-0021-8.

[Begleiter-3] а ^б ^c ^d ^е Беглейтер, Р .; Эль-Янив, Р .; Йона, Г. (2004). «О прогнозировании с использованием марковских моделей переменного порядка» (PDF). Журнал исследований искусственного интеллекта. 22: 385–421. Дои:10.1613 / jair.1491. Архивировано из оригинал (PDF) на 2007-09-28. Получено 2007-04-22.

[Ben-Gal-4] а ^б ^c ^d Ben-Gal, I .; Morag, G .; Шмилович, А. (2003). «CSPC: процедура мониторинга процессов, зависящих от состояния» (PDF). Технометрика. 45 (4): 293–311. Дои:10.1198/004017003000000122.

[5] Grau J .; Бен-Гал I .; Posch S .; Гросс И. (2006). "VOMBAT: Прогнозирование сайтов связывания транскрипционных факторов с использованием байесовских деревьев переменного порядка" (PDF). Nucleic Acids Research, vol. 34, выпуск W529 – W533. Цитировать журнал требует | журнал = (Помогите)

[Bratko-6] Братко, А .; Cormack, G.V .; Filipic, B .; Линам, Т .; Зупан, Б. (2006). «Фильтрация спама с использованием моделей сжатия статистических данных» (PDF). Журнал исследований в области машинного обучения. 7: 2673–2698.

[7] Браунинг, Шэрон Р. «Мультилокусное сопоставление ассоциаций с использованием цепей Маркова переменной длины». Американский журнал генетики человека 78.6 (2006): 903–913.

[8] Smith, A.R .; Denenberg, J. N .; Slack, T. B .; Tan, C.C .; Wohlford, R.E (август 1985 г.). «Применение системы последовательного обучения по шаблонам для распознавания подключенной речи» (PDF). Труды Международной конференции IEEE 1985 по акустике, речи и обработке сигналов: 1201–1204.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[1]