Модели выравнивания IBM - IBM alignment models - Wikipedia
Модели выравнивания IBM представляют собой последовательность все более сложных моделей, используемых в статистический машинный перевод обучить модель перевода и модель согласования, начиная с лексических вероятностей перевода и заканчивая переупорядочиванием и дублированием слов.[1] Они лежали в основе большинства систем статистического машинного перевода в течение почти двадцати лет, начиная с начала 1990-х годов, до нейронный машинный перевод начал доминировать. Эти модели предлагают принципиальную вероятностную формулировку и (в большинстве случаев) послушный вывод.[2]
Оригинальная работа по статистическому машинному переводу в IBM было предложено пять моделей, а позже была предложена модель 6. Последовательность шести моделей можно резюмировать следующим образом:
- Модель 1: лексический перевод
- Модель 2: дополнительная модель абсолютного выравнивания
- Модель 3: модель дополнительной фертильности
- Модель 4: добавлена модель относительного выравнивания
- Модель 5: проблема исправленного дефицита.
- Модель 6: Модель 4 в сочетании с ХМ модель выравнивания логарифмически линейным способом
Модель 1
IBM Model 1 слаба с точки зрения проведения переупорядочивания или добавления и удаления слов. В большинстве случаев слова, следующие друг за другом на одном языке, будут иметь другой порядок после перевода, но IBM Model 1 рассматривает все виды переупорядочения как равноправные.
Другая проблема при выравнивании - это плодородие (представление о том, что входные слова будут давать определенное количество выходных слов после перевода). В большинстве случаев одно входное слово будет переведено в одно слово, но некоторые слова образуют несколько слов или даже отбрасываются (не производят слов вообще). Плодородие словесных моделей обращается к этому аспекту перевода. Хотя добавление дополнительных компонентов увеличивает сложность моделей, основные принципы IBM Model 1 неизменны.[3]
Модель 2
В IBM Model 2 есть дополнительная модель для выравнивания, которой нет в Model 1. Например, при использовании только IBM Model 1 вероятности перевода для этих переводов будут такими же:
В IBM Model 2 эта проблема решена путем моделирования перевода входящего иностранного слова в позиции к слову на родном языке в позиции с использованием распределения вероятности совмещения, определяемого как:
В приведенном выше уравнении длина входного предложения f обозначается как lж, а длина переведенного предложения e как lе. Перевод, выполняемый IBM Model 2, можно представить как процесс, разделенный на два этапа (лексический перевод и согласование).
Предполагая вероятность перевода и - вероятность совмещения, IBM Model 2 можно определить как:
В этом уравнении функция выравнивания отображает каждое выходное слово на чужую позицию ввода .[4]
Модель 3
Проблема рождаемости рассматривается в IBM Model 3. Рождаемость моделируется с использованием распределения вероятностей, определяемого как:
За каждое иностранное слово , такое распределение указывает, сколько выходных слов это обычно переводит. Эта модель касается отбрасывания входных слов, поскольку позволяет . Но при добавлении слов все еще есть проблема. Например, английское слово делать часто вставляется при отрицании. Эта проблема вызывает особую НОЛЬ токен, фертильность которого также может быть смоделирована с использованием условного распределения, определенного как:
Количество вставленных слов зависит от длины предложения. Вот почему вставка токена NULL моделируется как дополнительный шаг: шаг фертильности. Это увеличивает процесс перевода IBM Model 3 до четырех этапов:
Последний шаг называется искажением, а не выравниванием, потому что один и тот же перевод с одинаковым выравниванием можно производить разными способами.[5]
IBM Model 3 математически можно выразить как:
куда представляет собой плодородие , каждое исходное слово назначается распределение рождаемости , и и относятся к абсолютной длине целевого и исходного предложений соответственно.[6]
Модель 4
В IBM Model 4 каждое слово зависит от ранее выровненного слова и от классов слов окружающих слов. Некоторые слова обычно меняют порядок во время перевода, чем другие (например, инверсия прилагательного и существительного при переводе с польского на английский). Прилагательные часто ставятся перед существительным, которое им предшествует. Классы слов, представленные в Модели 4, решают эту проблему, обусловливая распределения вероятностей этих классов. Результатом такого распределения является лексикализованная модель. Такое распределение можно определить следующим образом:
Для начального слова в цепочке:
Для дополнительных слов:
куда и функции отображают слова в их классы слов, и и - распределения вероятности искажения слов. Цепт формируется путем выравнивания каждого входного слова хотя бы к одному выходному слову.[7]
И Модель 3, и Модель 4 игнорируют, была ли выбрана входная позиция и была ли зарезервирована масса вероятности для входных позиций вне границ предложения. Это причина того, что вероятности всех правильных совмещений не суммируются в единицу в этих двух моделях (несовершенных моделях).[7]
Модель 5
IBM Model 5 переформулирует IBM Model 4, улучшив модель согласования с большим количеством обучающих параметров, чтобы преодолеть недостаток модели.[8] Во время перевода в Model 3 и Model 4 нет эвристики, запрещающей размещение выходного слова в уже занятой позиции. В Модели 5 важно размещать слова только на свободных позициях. Это делается путем отслеживания количества свободных позиций и разрешения размещения только на таких позициях. Модель искажения аналогична IBM Model 4, но основана на свободных позициях. Если обозначает количество свободных позиций на выходе, вероятности искажения IBM Model 5 будут определены как:[9]
Для начального слова в цепочке:
Для дополнительных слов:
Модели выравнивания, использующие зависимости первого порядка, такие как HMM или IBM Models 4 и 5, дают лучшие результаты, чем другие методы выравнивания. Основная идея HMM - предсказать расстояние между последующими позициями исходного языка. С другой стороны, IBM Model 4 пытается предсказать расстояние между последующими позициями целевого языка. Поскольку ожидалось лучшее качество выравнивания при использовании обоих типов таких зависимостей, HMM и Модель 4 были объединены лог-линейным способом в Модели 6 следующим образом:[10]
где параметр интерполяции используется для подсчета веса модели 4 относительно скрытая марковская модель. Лог-линейная комбинация нескольких моделей может быть определена как с в качестве:
Логлинейная комбинация используется вместо линейной комбинации, потому что значения обычно различаются по порядку величины для HMM и IBM Model 4.[11]
Рекомендации
- ^ "Модели IBM". Wiki исследования SMT Research Survey. 11 сентября 2015 г.. Получено 26 октября 2015.
- ^ Ярин Галь, Фил Блансом (12 июня 2013 г.). «Систематический байесовский подход к моделям выравнивания IBM» (PDF). Кембриджский университет. Получено 26 октября 2015.CS1 maint: использует параметр авторов (связь)
- ^ Wołk, K .; Марасек, К. (07.04.2014). «Статистический перевод речи в реальном времени». Достижения в интеллектуальных системах и вычислениях. Springer. 275: 107–114. arXiv:1509.09090. Дои:10.1007/978-3-319-05951-8_11. ISBN 978-3-319-05950-1. ISSN 2194-5357.
- ^ Ох, Франц Йозеф; Ней, Герман (2003). «Систематическое сравнение различных статистических моделей сопоставления». Компьютерная лингвистика. 29 (29): 19–51. Дои:10.1162/089120103321337421.
- ^ Волк К., Марасек К. (2014). Статистические системы машинного перевода речи на польско-английский язык для IWSLT 2014. Материалы 11-го международного семинара по устному переводу, озеро Тахо, США.
- ^ ФЕРНАНДЕС, Пабло Малвар. Улучшение согласования слов с помощью морфологической информации. 2008. Кандидатская диссертация. Государственный университет Сан-Диего.
- ^ а б Шенеманн, Томас (2010). Вычисление оптимальных согласований для модели перевода IBM-3. Труды четырнадцатой конференции по компьютерному изучению естественного языка. Ассоциация компьютерной лингвистики. С. 98–106.
- ^ РЫЦАРЬ, Кевин. Учебное пособие по статистическому машинному обучению. Рукопись подготовлена для Летнего семинара JHU 1999, 1999.
- ^ Браун, Питер Ф. (1993). «Математика статистического машинного перевода: оценка параметров». Компьютерная лингвистика (19): 263–311.
- ^ Вулич И. (2010). «Согласование сроков. Обзор современного состояния» (PDF). Katholieke Universiteit Leuven. Получено 26 октября 2015.[постоянная мертвая ссылка ]
- ^ Волк, К. (2015). "Шумно-параллельная и сопоставимая методология фильтрации корпусов для извлечения двуязычных эквивалентных данных на уровне предложения". Информатика. 16 (2): 169–184. arXiv:1510.04500. Bibcode:2015arXiv151004500W. Дои:10.7494 / csci.2015.16.2.169.