Интерактивный машинный перевод - Interactive machine translation

Интерактивный машинный перевод (IMT), является конкретным подполем компьютерный перевод. Под этим перевод парадигма компьютерное программное обеспечение это помогает переводчику-человеку предсказать текст, который пользователь собирается ввести, принимая во внимание всю доступную информацию. Если такой прогноз неверен и пользователь предоставляет Обратная связь системе выполняется новое прогнозирование с учетом новой доступной информации. Такой процесс повторяется до тех пор, пока предоставленный перевод не будет соответствовать ожиданиям пользователя.

Интерактивный машинный перевод особенно интересен, когда Идет перевод тексты в доменах, где недопустимо выводить перевод, содержащий ошибки, поэтому пользователю-человеку требуется внести поправки в переводы, предоставленные системой. Доказано, что в таких случаях интерактивный машинный перевод приносит пользу потенциальным пользователям.[1][2]Тем не менее, есть несколько коммерческое программное обеспечение который реализует интерактивный машинный перевод, и работа, выполняемая в полевых условиях, в основном ограничивается академическое исследование.

История

Исторически интерактивный машинный перевод родился как эволюция компьютерный перевод парадигма, в которой переводчик-человек и система машинного перевода должны были работать как тандем.[3]Эта первая работа была расширена в рамках исследовательского проекта TransType, финансируемого канадским правительством. В этом проекте человеческое взаимодействие был направлен на создание целевого текста впервые путем встраивания управляемой данными машинный перевод методы в среде интерактивного перевода с целью достижения лучших из обоих участников: эффективности автоматической системы и надежности переводчиков-людей.

Позже более масштабный исследовательский проект TransType2,[1][2] финансируется Европейская комиссия расширил такую ​​работу, проанализировав включение полного система машинного перевода в процесс с целью выработки полной гипотезы перевода, которую пользователь-человек может изменить или принять. Если пользователь решает исправить гипотезу, система затем пытается наилучшим образом использовать такие Обратная связь чтобы создать новую гипотезу перевода, которая учитывает изменения, внесенные пользователем.

Совсем недавно CASMACAT,[4] также финансируется Европейская комиссия, направленная на разработку новых типов помощи переводчикам-людям и интегрирование их в новую рабочую среду, состоящую из редактора, сервера, а также инструментов анализа и визуализации. Верстак был разработан по модульному принципу и может быть объединен с существующими средствами компьютерного перевода. Кроме того, инструментальные средства CASMACAT могут учиться во время взаимодействия с переводчиком-человеком, мгновенно обновляя и адаптируя свои модели в зависимости от выбора перевода пользователем.[5][6]

Недавняя работа по привлечению обширной оценки с участием пользователей-людей[7] выявили тот факт, что интерактивный машинный перевод может использоваться даже пользователями, не говорящими на исходном языке, для достижения почти профессионального качества перевода. Более того, он также прояснил тот факт, что интерактивный сценарий более выгоден, чем классический сценарий пост-издания.

Описанные ранее подходы основаны на тесно связанной основной системе машинного перевода на основе корпуса (обычно Статистический машинный перевод система), который используется как стеклянная коробка, поэтому наследуя недостатки систем перевода и ограничение использования интерактивного машинного перевода для некоторых сценариев. По этой причине подход, который использует любые двуязычные ресурсы (не ограничиваясь машинным переводом) в качестве черный ящик для обеспечения интерактивного машинного перевода.[8] Этот подход не может извлечь столько информации из используемых двуязычных ресурсов из-за природы взаимодействия «черный ящик», но может использовать любой ресурс, доступный пользователю. Forecat - это интерактивная реализация машинного перевода в виде черного ящика, доступная как в виде веб-приложения (которое включает в себя веб-страницу и интерфейс веб-служб), так и в качестве плагина для ОмегаТ (Forecat-OmegaT).

Процесс

Процесс интерактивного машинного перевода начинается с того, что система предлагает пользователю гипотезу перевода. Затем пользователь может принять полное предложение как правильное или может изменить его, если посчитает, что есть какая-то ошибка. Как правило, при изменении данного слова предполагается, что префикс до этого слова является правильным, что приводит к написанию слева направо. схема взаимодействия. После того как пользователь изменил слово, которое считается неправильным, система предлагает новый суффикс, то есть оставшуюся часть предложения. Такой процесс продолжается до тех пор, пока предоставленный перевод не удовлетворит пользователя.

Хотя это объясняется на уровне слов, предыдущий процесс также может быть реализован на уровне символов, и, следовательно, система предоставляет суффикс всякий раз, когда переводчик-человек вводит один символ. Кроме того, предпринимаются постоянные усилия по изменению типичной схемы взаимодействия слева направо, чтобы человеко-машинное взаимодействие Полегче.[9][10]

Аналогичный подход используется в Caitra инструмент перевода.

Оценка

Оценка - сложная проблема в интерактивном машинном переводе. В идеале оценка должна производиться в экспериментах с участием людей-пользователей. Однако, учитывая высокие денежные затраты, которые это повлечет за собой, это случается редко. Более того, даже если рассматривать переводчиков-людей для проведения истинной оценки методов интерактивного машинного перевода, неясно, что следует измерять в таких экспериментах, поскольку существуют много различных переменных, которые следует учитывать и которые нельзя контролировать, например, время, необходимое пользователю для привыкания к процессу. В проекте CASMACAT были проведены полевые испытания для изучения некоторых из этих переменных.[11][12][13]

Для быстрой оценки в лабораторных условиях интерактивный машинный перевод измеряется с помощью коэффициент хода клавиш или коэффициент хода слова. Такие критерии пытаются измерить, сколько нажатий клавиш или слов нужно было ввести пользователю перед созданием окончательного переведенного документа.[2]

Отличия от классического компьютерного перевода

Хотя интерактивный машинный перевод входит в компьютерный перевод, главная привлекательность первых по сравнению со вторыми - интерактивность. В классическом автоматизированном переводе система перевода может предложить одну гипотезу перевода в лучшем случае, и тогда от пользователя требуется постредактировать такая гипотеза. Напротив, в интерактивном машинном переводе система выдает новую гипотезу перевода каждый раз, когда пользователь взаимодействует с системой, то есть после того, как было введено каждое слово (или буква).

Смотрите также

Рекомендации

  1. ^ а б Казакуберта, Франциско; Чивера, Хорхе; Кубель, Эльза; Lagarda, Antonio L .; Лапальм, Гай; Маклович, Эллиотт; Видаль, Энрике (2009). «Взаимодействие человека для качественного машинного перевода» (PDF). Коммуникации ACM. 52 (10): 135–138. Дои:10.1145/1562764.1562798. Архивировано из оригинал (PDF) на 2011-07-06.
  2. ^ а б c Баррачина, Серджио; Бендер, Оливер; Казакуберта, Франциско; Чивера, Хорхе; Кубель, Эльза; Хадиви, Шахрам; Lagarda, Antonio L .; Ней, Германн; Томас, Хесус; Видаль, Энрике (2009). «Статистические подходы к автоматизированному переводу» (PDF). Компьютерная лингвистика. 25 (1): 3–28. Дои:10.1162 / coli.2008.07-055-r2-06-29.
  3. ^ Фостер, Джордж; Изабель, Пьер; Пламондон, Пьер (1997). «Интерактивный машинный перевод с опосредованным целевым текстом». Машинный перевод. 12 (1): 175–194. Дои:10.1023 / а: 1007999327580.
  4. ^ Алабау, Висент; Бак, Кристиан; Карл, Майкл; Казакуберта, Франциско; Гарсия-Мартинес, «Мерседес»; Германн, Ульрих; Гонсалес-Рубио, Хесус; Хилл, Робин; Коэн, Филипп; Лейва, Луис; Меса-Лао, Барто; Ортис, Даниэль; Сен-Аманд, Эрве; Санчис, немец; Цукала, Чара (апрель 2014 г.). "CASMACAT: автоматизированная система перевода" (PDF). Материалы 14-й конференции Европейского отделения Ассоциации компьютерной лингвистики. Лос-Анджелес, Калифорния: Ассоциация компьютерной лингвистики. С. 25–28.
  5. ^ Ортис-Мартинес, Даниэль; Гарсиа-Вареа, Исмаил; Казакуберта, Франциско (июнь 2010 г.). «Онлайн-обучение для интерактивного статистического машинного перевода» (PDF). Технологии естественного языка: Ежегодная конференция Североамериканского отделения ACL 2010 г.. Ассоциация компьютерной лингвистики. С. 546–554.
  6. ^ Мартинес-Гомес, Паскуаль; Санчис-Триллес, немецкий; Казакуберта, Франциско (сентябрь 2012 г.). «Стратегии онлайн-адаптации для статистического машинного перевода в сценариях постредактирования». Распознавание образов. Эльзевир. 45 (9): 3193–3203. Дои:10.1016 / j.patcog.2012.01.011. HDL:10251/37324.
  7. ^ Коэн, Филипп (июнь 2010 г.). «Включение одноязычных переводчиков: постредактирование и варианты» (PDF). Технологии естественного языка: Ежегодная конференция североамериканского отделения Ассоциации компьютерной лингвистики (HLT / NAACL) 2010 г.. Лос-Анджелес, Калифорния: Ассоциация компьютерной лингвистики. С. 537–545.
  8. ^ Хуан Антонио, Перес-Ортис; Торрегроса, Даниэль; Форкада, Микель (2014). «Интеграция разнородных двуязычных ресурсов методом черного ящика в интерактивную систему перевода». Материалы семинара EACL 2014 по человеческому и компьютерному переводу. Лос-Анджелес, Калифорния: Ассоциация компьютерной лингвистики. С. 57–65.
  9. ^ Санчис-Трилес, Херман; Ортис-Мартинес, Даниэль; Чивера, Хорхе; Казакуберта, Франциско; Видаль, Энрике; Хоанг, Хиеу (октябрь 2008 г.). «Улучшение интерактивного машинного перевода с помощью действий мыши» (PDF). Труды конференции 2008 г. по эмпирическим методам обработки естественного языка (EMNLP). Гонолулу, Гавайи: Ассоциация компьютерной лингвистики. С. 485–494.
  10. ^ Гонсалес-Рубио, Хесус; Ортис-Мартинес, Даниэль; Казакуберта, Франциско (июль 2010 г.). «Уравновешивание усилий пользователей и ошибок перевода в интерактивном машинном переводе с помощью мер доверия» (PDF). Материалы кратких статей конференции ACL 2010 (ACL). Упсала, Швеция: Ассоциация компьютерной лингвистики. С. 173–177.
  11. ^ Андервуд, Нэнси; Меса-Лао, Бартоломе; Гарсиа-Мартинес, «Мерседес»; Карл, Майкл; Алабау, Висент; Гонсалес-Рубио, Хесус; Лейва, Луис; Санчис-Трилес, Херман; Ортис-Мартинес, Даниэль; Казакуберта, Франциско (май 2014 г.). «Оценка эффектов интерактивности в среде постредактирования» (PDF). Материалы 29-й конференции по языковым ресурсам и оценке (LREC). Рейкьявик, Исландия. С. 553–559.
  12. ^ Ортис-Мартинес, Даниэль; Гонсалес-Рубио, Хесус; Алабау, Висент; Санчис-Трилес, Херман; Казакуберта, Франциско (август 2015 г.). «Интеграция онлайн-обучения и активного обучения в системе автоматизированного перевода». Новые направления в эмпирических исследованиях процесса перевода: изучение CRITT TPR-DB. Springer. С. 54–73.
  13. ^ Алабау, Висент; Карл, Майкл; Казакуберта, Франциско; Гарсиа-Мартинес, «Мерседес»; Меса-Лао, Бартоломе; Ортис-Мартинес, Даниэль; Гонсалес-Рубио, Хесус; Санчис-Трилес, Херман; Шеффер, Мориц (август 2015 г.). «Изучение продвинутого постредактирования». Новые направления в эмпирических исследованиях процесса перевода: изучение CRITT TPR-DB. Springer. С. 95–111.

внешняя ссылка