Внутренний – внешний алгоритм - Inside–outside algorithm

В Информатика, то внутренний – внешний алгоритм это способ переоценки вероятности добычи в вероятностная контекстно-свободная грамматика. Он был представлен Джеймс К. Бейкер в 1979 г. как обобщение вперед-назад алгоритм для оценки параметров на скрытые марковские модели к стохастические контекстно-свободные грамматики. Он используется для вычисления ожиданий, например, как часть алгоритм ожидания – максимизации (алгоритм обучения без учителя).

Внутренние и внешние вероятности

Внутренняя вероятность ${displaystyle eta _ {j} (p, q)}$ это полная вероятность образования слов ${displaystyle w_ {p} cdots w_ {q}}$ , учитывая корневой нетерминальный ${displaystyle N ^ {j}}$ и грамматика ${displaystyle G}$ :^[1]

{displaystyle eta _ {j} (p, q) = P (w_ {pq} | N_ {pq} ^ {j}, G)}

Внешняя вероятность ${displaystyle alpha _ {j} (p, q)}$ это полная вероятность начать с начального символа ${displaystyle N ^ {1}}$ и генерируя нетерминальный ${displaystyle N_ {pq} ^ {j}}$ и все слова снаружи ${displaystyle w_ {p} cdots w_ {q}}$ , учитывая грамматику ${displaystyle G}$ :^[1]

{displaystyle alpha _ {j} (p, q) = P (w_ {1 (p-1)}, N_ {pq} ^ {j}, w _ {(q + 1) m} | G)}

Вычисление внутренних вероятностей

Базовый вариант:

${displaystyle eta _ {j} (p, p) = P (w_ {p} | N ^ {j}, G)}$

Общий случай:

Предположим, есть правило ${displaystyle N_ {j} ightarrow N_ {r} N_ {s}}$ в грамматике, то вероятность порождения ${displaystyle w_ {p} cdots w_ {q}}$ начиная с поддерева с корнем ${displaystyle N_ {j}}$ является:

${displaystyle sum _ {k = p} ^ {k = q-1} P (N_ {j} ightarrow N_ {r} N_ {s}) eta _ {r} (p, k) eta _ {s} (k + 1, q)}$

Внутренняя вероятность ${displaystyle eta _ {j} (p, q)}$ это просто сумма всех возможных правил:

${displaystyle eta _ {j} (p, q) = sum _ {N_ {r}, N_ {s}} sum _ {k = p} ^ {k = q-1} P (N_ {j} ightarrow N_ { r} N_ {s}) eta _ {r} (p, k) eta _ {s} (k + 1, q)}$

Вычисление внешних вероятностей

Базовый вариант:

${displaystyle alpha _ {j} (1, n) = {egin {case} 1 & {mbox {if}} j = 1 0 & {mbox {else}} end {cases}}}$

Здесь начальный символ ${displaystyle N_ {1}}$ .

Общий случай:

Предположим, есть правило ${displaystyle N_ {r} ightarrow N_ {j} N_ {s}}$ в грамматике, которая порождает ${displaystyle N_ {j}}$ . Тогда осталось вклад этого правила во внешнюю вероятность ${displaystyle alpha _ {j} (p, q)}$ является:

${displaystyle sum _ {k = q + 1} ^ {k = n} P (N_ {r} ightarrow N_ {j} N_ {s}) alpha _ {r} (p, k) eta _ {s} (q + 1, k)}$

Теперь предположим, что есть правило ${displaystyle N_ {r} ightarrow N_ {s} N_ {j}}$ в грамматике. Тогда правильновклад этого правила во внешнюю вероятность ${displaystyle alpha _ {j} (p, q)}$ является:

${displaystyle sum _ {k = 1} ^ {k = p-1} P (N_ {r} ightarrow N_ {s} N_ {j}) alpha _ {r} (k, q) eta _ {s} (k , п-1)}$

Внешняя вероятность ${displaystyle alpha _ {j} (p, q)}$ представляет собой сумму левого и правого вкладов по всем таким правилам:

${displaystyle alpha _ {j} (p, q) = sum _ {N_ {r}, N_ {s}} sum _ {k = q + 1} ^ {k = n} P (N_ {r} ightarrow N_ { j} N_ {s}) alpha _ {r} (p, k) eta _ {s} (q + 1, k) + sum _ {N_ {r}, N_ {s}} sum _ {k = 1} ^ {k = p-1} P (N_ {r} ightarrow N_ {s} N_ {j}) alpha _ {r} (k, q) eta _ {s} (k, p-1)}$

использованная литература

^ ^а ^б Мэннинг, Кристофер Д.; Хинрих Шютце (1999). Основы статистической обработки естественного языка. Кембридж, Массачусетс, США: MIT Press. стр.388 –402. ISBN 0-262-13360-1.

Дж. Бейкер (1979): Обучаемые грамматики для распознавания речи. В Дж. Дж. Вольф и Д. Х. Клатт, редакторы, Документы по речевой коммуникации, представленные на 97-м собрании Акустического общества Америки, страницы 547–550, Кембридж, Массачусетс, июнь 1979 г. MIT.
Карим Лари, Стив Дж. Янг (1990): Оценка стохастических контекстно-свободных грамматик с использованием алгоритма внутри – снаружи. Компьютерная речь и язык, 4:35–56.
Карим Лари, Стив Дж. Янг (1991): Применение стохастических контекстно-свободных грамматик с использованием алгоритма Inside – Outside. Компьютерная речь и язык, 5:237–257.
Фернандо Перейра, Ив Шабес (1992): Внутренняя и внешняя переоценка частично заключенных в скобки корпусов. Материалы 30-го ежегодного собрания Ассоциации компьютерной лингвистики, Ассоциации компьютерной лингвистики, 128–135.

внешняя ссылка

[manning-schuetze1999-1] а ^б Мэннинг, Кристофер Д.; Хинрих Шютце (1999). Основы статистической обработки естественного языка. Кембридж, Массачусетс, США: MIT Press. стр.388 –402. ISBN 0-262-13360-1.

[1]