Моисей для простых смертных - Moses for Mere Mortals
Моисей для простых смертных (М-м-м)[1] это бесплатное программное обеспечение с открытым исходным кодом, состоящее из набора скрипты предназначен для автоматизации процессов установки и эксплуатации Система перевода с открытым исходным кодом Moses, а статистический машинный перевод система.
MMM создает прототип цепочки переводов с помощью Moses + IRSTLM + RandLM + MGIZA.[2][3]
Первая версия Moses for Mere Mortals была опубликована в ноябре 2009 года и была обновлена и протестирована в дистрибутивах Linux - Ubuntu. MMM доступен в Хостинг проектов GitHub интернет сайт.[1]
Обзор
Его основные цели:
- помочь построить прототип цепочки переводов для реального мира;
- направлять первые шаги пользователей, которые только начинают использовать Moses;
- позволить простую и быструю оценку Моисея;
- дать возможность пользователю делать свои собственные переводы, не доверяя третьим (переводящим) лицам;
- интегрировать машинный перевод и память переводов.
Хотя основная тяга сосредоточена на Linux, два окна надстройки Помогите сделать мост из MS Windows в Linux, а затем обратно из Linux.
Общие особенности
Моисей допускает обучение корпусов, в которых каждое слово представлено вместе, например, с соответствующим ему. лемма и / или часть речевого тега («Обучение с учетом факторов»). Сценарии не охватывают этот тип обучения.
MMM состоит из семи скриптов для Linux, тщательно протестированных с Ubuntu (12.04 и 14.04, 64-бит):
- Установить: Установить в Ubuntu пакеты, от которых зависят и Моисей, и Моисей для простых смертных.
- Создавать: Для компиляции Moses и других необходимых пакетов с помощью одной команды.
- Создание тестовых файлов: Извлечь из исходного корпуса корпус для обучения, файлы для настройки и файлы для тестирования результатов обучения.
- Тренироваться: Для обучения языковых пар, необходимых, поскольку Моисей не зависит от языка и может работать с любым языком / алфавитом.
- Переведите: Выполнять машинные переводы новых документов.
- Счет: Чтобы автоматически сравнивать переводы Моисея с человеческим переводом, принятым в качестве золотого стандарта, используя BLEU и Метрики NIST алгоритмы, чтобы иметь представление об уровне производительности.
- Перенести обучение в другое место: Для переноса движков / тренировок в другие папки на том же компьютере или на другой компьютер.
MMM поставляется с демонстрационным корпусом из 200000 сегментов - он слишком мал, чтобы отдать должное качественным результатам, достижимым с помощью Moses, но способен дать реалистичное представление об относительной продолжительности задействованных шагов и полезно для проверки правильности установки. . Чтобы получить хорошие результаты, обычно нужен корпус из нескольких миллионов сегментов. Каждый ортогональный корпус состоит из двух строго выровненных файлов UTF-8, один на исходном языке, а другой на целевом языке. Знание грамматики не требуется, хотя некоторые языковые пары дают лучшие результаты, чем другие. В общем, морфологически богатые языки дают худшие результаты.
Надстройки
MMM также содержит (для Windows и Linux):
- Extract_TMX_Corpus: Приложение для преобразования одного или нескольких файлов в формате TMX в два параллельных и идеально выровненных файла (на исходном и целевом языках), необходимых для обучения языковой пары.
- Moses2TMX: Приложение для выравнивания оригиналов и переводов Моисея и для упаковки каждого файла в файл TMX с определенными атрибутами, чтобы переводы Моисея идентифицировались как МТ и были переведены Моисеем и могли использоваться с инструментом памяти переводов, с относительным штрафом. к человеческим воспоминаниям.
MMM также содержит файл Nonbreaking_prefix.pt, список сокращений, характерных для португальского языка, основанный на английской и немецкой версиях, уже доступных в пакете Moses.
Возможности программного обеспечения
Моисей для простых смертных также имеет некоторые оригинальные черты:
- Удаляет управляющие символы из входных файлов (это может привести к сбою тренировки);
- Из корпуса он извлекает 2 обучающих файла, 2 файла настройки и 2 тестовых файла (один на исходном языке и один на целевом языке) со случайно выбранными непоследовательными сегментами, которые стираются из файлов корпуса;
- Новое обучение не влияет на файлы предыдущего обучения;
- Новый тренинг в максимально возможной степени использует файлы, созданные в предыдущих тренингах (что позволяет сэкономить время);
- Он останавливается с информативным сообщением, если какой-либо из этапов обучения (построение языковой модели, повторное обучение, обучение корпуса, отображение памяти, настройка или обучающий тест) не дает ожидаемых результатов;
- Он может ограничить продолжительность настройки определенным числом итераций;
- Он может генерировать за один шаг оценки BLEU и NIST для одного перевода или набора переводов, имеющихся в каталоге (либо для каждого документа целиком, либо для каждого сегмента каждого документа);
- Он позволяет переносить обучение корпуса на другой компьютер или на другую установку на том же компьютере;
- Это позволяет управлять параметрами mkcls, GIZA и MGIZA через параметры в сценарии поезда;
- Это позволяет управлять выбранными параметрами в сценариях Моисея и декодере Моисея через поезд и переводить сценарии.
Рекомендации
- ^ а б "Моисей-для-простых смертных". GitHub. Получено 2014-11-28.
- ^ "Добро пожаловать в Моисей!". Получено 2012-01-29.
- ^ "mosesdecoder". Получено 2012-01-29.