MateCat - MateCat

Страница редактирования MateCat Tool

MateCat - это веб-инструмент для автоматизированного перевода (CAT), которого на рынке существует несколько. MateCat выпускается как программное обеспечение с открытым исходным кодом под Стандартной общественной лицензией ограниченного применения (LGPL) от Free Software Foundation.

Проэкт

MateCat, аббревиатура от Machine Translation Enhanced Computer Assisted Translation, представляет собой трехлетний исследовательский проект (11 / 2011-10 / 2014), финансируемый Седьмой рамочной программой Европейского Союза по исследованиям, технологическим разработкам и демонстрациям в соответствии с соглашением о гранте № 287688.[1] Он уже получил более 2 500 000 евро из европейских фондов.[2]

Консорциум проекта возглавляет ФБК (Fondazione Bruno Kessler), международный исследовательский центр, расположенный в Тренто, Италия.

CAT-инструменты

Задача MateCat - создать инструмент для редактирования результатов машинного перевода и управления рабочим процессом локализации. Система способна учиться на ошибках, автоматически улучшаться с течением времени и специализироваться на языке конкретной области (например, юридической терминологии), чтобы предоставить пользователю наиболее точные предложения по переводу полностью автоматическим и прозрачным образом.[3]

Инструменты CAT обеспечивают доступ к памяти переводов (TM), базам данных терминологии, инструментам согласования и, в последнее время, к машинам машинного перевода (MT). TM - это, по сути, репозиторий переведенных сегментов. Во время перевода CAT-инструмент запрашивает TM для поиска точных или нечетких совпадений текущего исходного сегмента. Эти совпадения предлагаются пользователю как варианты перевода. После перевода сегмента его исходный и целевой тексты добавляются в TM для будущих запросов. Интеграция предложений от движка машинного перевода в дополнение к совпадениям ТМ мотивирована недавними исследованиями,[4][5][6] которые показали, что предложения машинного перевода после редактирования существенно повышают уровень точности переводов.

Технологии

Статистическая MT

Инструмент MateCat работает как веб-сервер, доступный через Chrome. Веб-сервер CAT соединяется с другими сервисами через открытые API: сервер TM MyMemory,[7] коммерческий сервер Google Translate (GT) MT и список Моисея [8]серверы, указанные в конфигурационном файле. Хотя серверы MyMemory и GT всегда работают и доступны, необходимо сначала установить и настроить индивидуальные серверы Moses. Связь с серверами Moses расширяет API GT, чтобы поддерживать самонастраивающиеся, адаптируемые к пользователю и информативные функции MT. XLIFF [9] формат файла, изначально поддерживаемый версией инструмента MateCat с открытым исходным кодом; однако конвертеры внешних файлов могут быть добавлены в файл конфигурации MateCat. Инструмент поддерживает кодировку Unicode (UTF-8), включая нелатинские алфавиты и языки с письмом справа налево, а также обрабатывает текст, встраивающий теги разметки.

MateCat использует растущий интерес и ожидания к статистическому машинному обучению, продвигая передовые достижения в трех направлениях: самонастраивающийся МП, адаптивный МП, информационный МП.

Исследования в этих трех направлениях привели к созданию программного обеспечения CAT нового поколения, которое представляет собой одновременно инструментальные средства перевода на уровне предприятия, а также передовую исследовательскую платформу для интеграции новых функций машинного перевода, проведения экспериментов после редактирования и измерения производительности пользователей. К ним относятся: i) расширенный API для Moses Toolkit, настраиваемый для языков и доменов, ii) простота использования благодаря чистому и интуитивно понятному веб-интерфейсу, который обеспечивает совместную работу нескольких пользователей над одним проектом, iii) согласования, терминологические базы данных и поддержка настраиваемых компонентов оценки качества и iv) расширенные функции ведения журнала.

Поддержка MT

Инструмент поддерживает серверы на базе Moses, способные обеспечить улучшенную связь CAT-MT. В частности, GT API дополняется информацией обратной связи, предоставляемой механизму машинного перевода каждый раз, когда сегмент подвергается пост-редактированию, а также расширенным выводом MT, включая оценки достоверности, словарные решетки и т. Д. Разработанный сервер MT поддерживает многопоточность для обслуживания несколько переводчиков, обрабатывает текстовые сегменты, включая теги, и адаптируется к постредактированию, выполненному каждым пользователем [10]

Контекстно-зависимый перевод

MateCat также предоставляет предложения от MT, которые согласуются не только с уже отредактированными сегментами, но и, теоретически, со всем документом. Эта контекстная информация будет встроена в статистические модели и должна обеспечивать лучшее устранение неоднозначности, например, между лексическими альтернативами. Контекстно-ориентированные модели будут объединять информацию о повторяющихся терминах и выражениях, извлеченных во время анализа документа, с соответствующими выбранными и подтвержденными переводами, как только они станут доступны. В частности, ограничения на перевод, связанные с анафорическими выражениями между предложениями и внутри предложений, синтаксическими согласованиями и лексической связностью, будут приниматься во внимание с помощью конкретных статистических моделей.

Обработка в реальном времени

Основные компоненты традиционных систем машинного перевода, то есть модели перевода и языка, обычно статичны: они никогда не изменяются после начальной фазы обучения. Это означает, что они не подходят для динамической среды, подобной той, которую MateCat разрабатывает для переводчиков. Чтобы смоделировать динамические изменения, описанные в двух предыдущих задачах, MateCat разработал инновационные структуры данных, которые можно быстро и эффективно обновлять, как только пользователь предоставит новый перевод, а также инновационные эффективные алгоритмы для выполнения этой адаптации в таких условиях. способ, которым весь процесс происходит в режиме реального времени и прозрачен для переводчика. Более того, эффективность будет повышена за счет использования преимуществ многопоточности с одним ЦП, а также средств распределенных вычислений, работающих на частных кластерах или компьютерных облаках.

Редактировать журнал

Рисунок 1 - Страница редактирования журнала MateCat Tool.

Во время постредактирования инструмент собирает информацию о времени для каждого сегмента, которая обновляется каждый раз, когда сегмент открывается и закрывается. Более того, для каждого сегмента собирается информация о сгенерированных предложениях и о том, который был фактически отредактирован. Эта информация доступна в любое время по ссылке на странице редактирования под названием «Журнал редактирования». Страница журнала редактирования (рис. 1) показывает сводку общего редактирования, выполненного на данный момент в проекте, например, среднюю скорость перевода и усилия после редактирования, а также процент лучших предложений, поступающих от MT или TM. Более того, для каждого сегмента, отсортированного от самого медленного к самому быстрому с точки зрения скорости перевода, сообщается подробная статистика о выполненных операциях редактирования. Эту информацию, с даже более подробной информацией, также можно загрузить в виде файла CSV для выполнения более подробного анализа после редактирования. Хотя информация, отображаемая на странице редактирования журнала, очень полезна для отслеживания хода выполнения проекта перевода в реальном времени, файл CSV является основным источником информации для подробного анализа производительности после завершения проекта.

Приложения

MateCat использовался в проекте MateCat для исследования новых функций MT[11] и оценить их в реальной профессиональной среде, в которой переводчики имеют в своем распоряжении все источники информации, с которыми они привыкли работать. Более того, благодаря своей гибкости и простоте использования этот инструмент недавно использовался для сбора данных и в образовательных целях (курс по CAT-технологии для студентов, изучающих перевод). Первоначальная версия инструмента также использовалась в проекте CasmaCat. [12] создать верстак,[13] особенно подходит для исследования расширенных способов взаимодействия, таких как интерактивный МП, отслеживание взгляда и рукописный ввод. В настоящее время этот инструмент используется бюро переводов Translated.net для своих внутренних переводческих проектов и тестируется несколькими международными компаниями, как поставщиками языковых услуг, так и ИТ-компаниями. Это позволило собирать непрерывную обратную связь от сотен переводчиков, что, помимо помощи нам в повышении надежности инструмента, также влияет на способ интеграции новых функций машинного перевода для оказания наилучшей помощи конечному пользователю.

Рекомендации

  1. ^ Хосе, М., и Мачадо, Б. (2014). Бесплатное программное обеспечение с открытым исходным кодом - хороший друг переводчика, 3. Получено с http://ec.europa.eu/translation/portugintage/magazine
  2. ^ ЕВРОПЕЙСКАЯ КОМИССИЯ. (2017). РАБОЧИЙ ДОКУМЕНТ СОТРУДНИКА ЕВРОПЕЙСКОЙ КОМИССИИ ПРОМЕЖУТОЧНАЯ ОЦЕНКА HORIZON 2020 ПРИЛОЖЕНИЕ 2. Брюссель. Извлекаются из http://ec.europa.eu/transparency/regdoc/rep/10102/2017/EN/SWD-2017-221-F1-EN-MAIN-PART-12.PDF
  3. ^ https://www.fbk.eu/en/result/matecat/
  4. ^ Марчелло Федерико; Алессандро Каттелан; Марко Тромбетти (2012). "Измерение производительности труда пользователей машинного перевода улучшило автоматизированный перевод. В Материалы десятой конференции Американской ассоциации машинного перевода (AMTA)" (PDF). Amta2012.amtaweb.org. Архивировано из оригинал (PDF) 30 октября 2014 г.. Получено 30 октября 2014.
  5. ^ Спенс Грин; Джеффри Хир; Кристофер Д. Мэннинг (2013). "Эффективность постредактирования человеком для языкового перевода. В Материалы конференции SIGCHI по человеческому фактору в вычислительных системах". Dl.acm.org. стр. 439–448. Получено 30 октября 2014.
  6. ^ Самуэль Ляубли; Марк Фишел; Гэри Мэсси; Морин Эренсбергер-Доу; Мартин Волк (2013). «Оценка эффективности постредактирования в реалистичной среде перевода. В Мишеле Симарде, Шэрон О'Брайен и Люсии Специа (ред.), Редакторы, Материалы семинара MT Summit XIV по технологии и практике постредактирования" (PDF). Ницца, Франция: Mt-archive.info. стр. 83–91. Получено 30 октября 2014.
  7. ^ «MyMemory - это крупнейшая в мире память переводов (TM), созданная совместно с помощью машинного перевода и человеческих ресурсов». Mymemory.translated.net. Получено 30 октября 2014.
  8. ^ «Moses - самый популярный набор статистических инструментов для машинного перевода с открытым исходным кодом». Statmt.org. Получено 30 октября 2014.
  9. ^ "Docs.oasis-open.org". Docs.oasis-open.org. Получено 30 октября 2014.
  10. ^ Никола Бертольди, Мауро Четтоло и Марчелло Федерико. 2013. Онлайн-адаптация на основе кэша для машинного перевода. Расширенный компьютерный перевод. В Материалы XIV саммита MT, страницы 35–42, Ницца, Франция, сентябрь.
  11. ^ Бертольди и др., 2013; Cettolo et al., 2013; Turchi et al., 2013; Turchi et al., 2014
  12. ^ "Casmacat.eu". Casmacat.eu. Получено 30 октября 2014.
  13. ^ Висент Алабау, Рагнар Бонк, Кристиан Бак, Майкл Карл, Франсиско Казакуберта, Мерседес Гарка-Мартинес, Хесус Гонсалес, Филипп Коэн, Луис Лейва, Бартоломе Меса-Лао, Даниэль Орис, Эрве Сен-Аманд, Герман Санчис и Чара Цюкала. 2013. Усовершенствованный компьютерный перевод с помощью веб-инструментария. В Материалы семинара по технологии и практике постредактирования, страницы 55–62.

внешняя ссылка