Оценка машинного перевода - Evaluation of machine translation

Различные методы для оценка для машинного перевода были трудоустроены. В этой статье основное внимание уделяется оценке результатов машинный перевод, а не на оценку производительности или удобства использования.

Перевод в оба конца

Обычный способ оценки качества машинного перевода для непрофессионалов - это перевод с исходного языка на целевой и обратно на исходный язык с помощью того же механизма. Хотя интуитивно это может показаться хорошим методом оценки, было показано, что перевод туда и обратно является «плохим показателем качества».[1] Причина, по которой это такой плохой предсказатель качества, довольно интуитивна. При двустороннем переводе тестируется не одна система, а две системы: языковая пара движка для перевода. в целевой язык и языковая пара, переводящая назад от целевой язык.

Рассмотрим следующие примеры двустороннего преобразования, выполняемого из английский к Итальянский и португальский из Somers (2005):

Первоначальный текстВыберите эту ссылку, чтобы перейти на нашу домашнюю страницу.
ПереведеноВыберите этот коллега для защиты домашней страницы.
Переведено обратноВыбирает это соединение для просмотра нашей домашней страницы.
Первоначальный текстОко за око
ПереведеноMelharuco para o tat
Переведено обратноОко за око

В первом примере, где текст переведен на Итальянский затем обратно в английский - английский текст значительно искажен, но итальянский можно перевести. Во втором примере текст, переведенный обратно на английский, идеален, но португальский перевод не имеет смысла; программа думала, что "синица" была ссылкой на синица (птица), которое предназначалось для «тат», слова, которое он не понял.

Хотя двусторонний перевод может быть полезен для "излишка удовольствия",[2] методология недостаточна для серьезного изучения качества машинного перевода.

Оценка человека

В этом разделе рассматриваются два крупномасштабных оценочных исследования, которые оказали значительное влияние на эту область, - ALPAC Исследование 1966 г. и исследование ARPA.[3]

Консультативный комитет по автоматической обработке языков (ALPAC)

Одной из составных частей отчета ALPAC было исследование, в котором сравнивались различные уровни человеческого перевода с результатами машинного перевода с использованием людей в качестве судей. Судьи-люди были специально обучены для этой цели. В оценочном исследовании сравнивалась система машинного перевода, переводящая с русский в английский с переводчиками-людьми по двум переменным.

Изучаемыми переменными были «разборчивость» и «верность». Разборчивость была мерой того, насколько «понятным» было предложение, и оценивалась по шкале от 1 до 9. Верность была мерой того, сколько информации сохранилось в переведенном предложении по сравнению с оригиналом, и оценивалась по шкале от 0 до 9. Каждая точка на шкале была связана с текстовым описанием. Например, оценка 3 по шкале разборчивости была описана как «В целом неразборчиво; это имеет тенденцию восприниматься как бессмыслица, но после значительного размышления и изучения можно, по крайней мере, выдвинуть гипотезу, предполагаемую предложением».[4]

Разборчивость измерялась без ссылки на оригинал, а верность - косвенно. Было представлено переведенное предложение, и после его прочтения и усвоения содержания было представлено исходное предложение. Судьям было предложено оценить исходный приговор по информативности. Итак, чем информативнее исходное предложение, тем ниже качество перевода.

Исследование показало, что переменные сильно коррелировали, когда человеческое суждение усреднялось по персентности. В различия среди оценщиков был небольшим, но исследователи рекомендовали использовать как минимум три или четыре оценщика. Методология оценки позволила легко отделить переводы, выполненные людьми, от переводов, выполняемых машинами.

Исследование пришло к выводу, что «можно сделать высоконадежные оценки качества человеческих и машинных переводов».[4]

Агентство перспективных исследовательских проектов (ARPA)

В рамках программы Human Language Technologies Programme Агентство перспективных исследовательских проектов (ARPA) разработала методологию оценки систем машинного перевода и продолжает проводить оценки на основе этой методологии. Программа оценки была начата в 1991 году и продолжается по сей день. Подробности программы можно найти в White et al. (1994) и Белый (1995).

Программа оценки включала тестирование нескольких систем, основанных на различных теоретических подходах; статистические, основанные на правилах и с участием человека. В 1992 г. был опробован ряд методов оценки результатов этих систем, и для включения в программы на последующие годы были выбраны самые последние подходящие методы. Методы были; оценка понимания, оценка группой качества и оценка, основанная на адекватности и беглости.

Оценка понимания направлена ​​на прямое сравнение систем, основанных на результатах тестов на понимание прочитанного с множественным выбором, как в работе Church et al. (1993). Выбранные тексты представляли собой набор статей на английском языке на тему финансовых новостей. Эти статьи были переведены профессиональными переводчиками на несколько языковых пар, а затем переведены обратно на английский язык с помощью систем машинного перевода. Было решено, что этого недостаточно для отдельного метода сравнения систем, и поэтому от него отказались из-за проблем с изменением значения в процессе перевода с английского языка.

Идея экспертной оценки качества заключалась в том, чтобы представить переводы группе экспертов, носителей английского языка, которые были профессиональными переводчиками, и заставить их оценить их. Оценки проводились на основе метрики, смоделированной на основе стандартной метрики правительства США, используемой для оценки переводов, выполненных человеком. Это было хорошо с точки зрения того, что показатель был «мотивирован извне»,[3] поскольку он не был специально разработан для машинного перевода. Однако групповую оценку качества было очень сложно организовать с точки зрения логистики, так как для этого требовалось собрать несколько экспертов в одном месте на неделю или более, и, кроме того, для достижения консенсуса. От этого метода тоже отказались.

Наряду с модифицированной формой оценки понимания (переименованной в оценку информативности), наиболее популярным методом было получение оценок от одноязычных судей для сегментов документа. Судьям был представлен сегмент, и их попросили оценить его по двум переменным: адекватность и беглость. Адекватность - это оценка того, сколько информации передается между оригиналом и переводом, а беглость - это оценка того, насколько хорошо английский. Было обнаружено, что этот метод охватывает соответствующие части оценки группы качества, но в то же время его проще использовать, поскольку он не требует экспертной оценки.

Системы измерения, основанные на адекватности и беглости речи, наряду с информативностью, теперь являются стандартной методологией для программы оценки ARPA.[5]

Автоматическая оценка

В контексте этой статьи метрика это измерение. Метрика, которая оценивает вывод машинного перевода, представляет качество вывода. Качество перевода по своей сути субъективно, объективного или измеримого «хорошего» нет. Следовательно, любая метрика должна присваивать оценки качества, чтобы они коррелировали с человеческим мнением о качестве. То есть метрика должна высоко оценивать переводы, которые люди высоко оценивают, и давать низкие оценки тем людям, которые дают низкие оценки. Человеческое суждение является эталоном для оценки автоматических показателей, поскольку люди являются конечными пользователями любых результатов перевода.

Мера оценки метрик: корреляция с человеческим суждением. Обычно это делается на двух уровнях, на уровне предложения, где баллы рассчитываются по метрике для набора переведенных предложений, а затем соотносятся с человеческим суждением для тех же предложений. И на уровне корпуса, где оценки по предложениям агрегируются как для человеческих суждений, так и для метрических суждений, и затем эти агрегированные оценки сопоставляются. Данные о корреляции на уровне предложения редко сообщаются, хотя Banerjee et al. (2005) приводят цифры корреляции, которые показывают, что, по крайней мере, для их метрики, корреляция на уровне предложений существенно хуже, чем корреляция на уровне корпуса.

Хотя широко об этом не сообщается, было отмечено, что жанр или область текста влияет на корреляцию, полученную при использовании показателей. Кафлин (2003) сообщает, что сравнение текста-кандидата с переводом одной ссылки не оказывает отрицательного влияния на корреляцию показателей при работе с текстом ограниченной области.

Даже если метрика хорошо коррелирует с человеческим суждением в одном исследовании по одному корпусу, эта успешная корреляция может не переноситься на другой корпус. Хорошая производительность метрики для разных типов текста или доменов важна для повторного использования метрики. Показатель, который работает только для текста в определенном домене, полезен, но менее полезен, чем тот, который работает во многих доменах, потому что создание новой метрики для каждой новой оценки или домена нежелательно.

Еще одним важным фактором полезности оценочной метрики является наличие хорошей корреляции даже при работе с небольшими объемами данных, то есть предложениями-кандидатами и справочными переводами. Туриан и др. (2003) отмечают, что «Любая мера оценки МП менее надежна при более коротких переводах», и показывают, что увеличение объема данных повышает надежность метрики. Однако они добавляют, что «... надежность более коротких текстов, таких как одно предложение или даже одна фраза, очень желательна, поскольку надежная мера оценки МП может значительно ускорить исследовательский анализ данных».[6]

Banerjee et al. (2005) выделяют пять атрибутов, которыми должна обладать хорошая автоматическая метрика; корреляция, чувствительность, последовательность, надежность и универсальность. Любая хорошая метрика должна сильно коррелировать с человеческим суждением, она должна быть последовательной, давая аналогичные результаты той же системе машинного перевода для аналогичного текста. Он должен быть чувствительным к различиям между системами машинного перевода и надежным в том смысле, что системы машинного перевода, набравшие одинаковые оценки, должны работать одинаково. Наконец, метрика должна быть общей, то есть работать с разными текстовые домены, в широком диапазоне сценариев и задач МП.

Цель этого подраздела - дать обзор современного состояния автоматических показателей для оценки машинного перевода.[7]

BLEU

BLEU был одним из первых показателей, показавших высокую корреляцию с человеческими оценками качества. Themetric в настоящее время является одним из самых популярных в этой области. Основная идея метрики заключается в том, что «чем машинный перевод ближе к профессиональному человеческому переводу, тем он лучше».[8] Метрика подсчитывает баллы для отдельных сегментов, обычно предложений, а затем усредняет эти баллы по всему корпусу для получения окончательной оценки. Было показано, что это сильно коррелирует с человеческими суждениями о качестве на уровне корпуса.[9]

BLEU использует измененную форму точности для сравнения перевода кандидата с переводами нескольких ссылок. Показатель изменяет простую точность, поскольку известно, что системы машинного перевода генерируют больше слов, чем содержится в справочном тексте. Ни один другой показатель машинного перевода еще не значительно превзошел BLEU в отношении корреляции с человеческим мнением по языковым парам.[10]

NIST

Метрика NIST основана на BLEU метрическая, но с некоторыми переделками. Где BLEU просто вычисляет н-грамм точности добавляя равный вес каждому из них, NIST также вычисляет, насколько информативен конкретный н-грамм является. То есть, когда правильный н-грамм , чем реже встречается n-грамм, тем больший вес ему придается.[11] Например, если биграмма "на" правильно совпадает, она получает меньший вес, чем правильное сопоставление биграммы "интересные вычисления", так как это с меньшей вероятностью произойдет. NIST также отличается от BLEU при расчете штрафа за краткость, поскольку небольшие вариации длины перевода не так сильно влияют на общую оценку.

Частота ошибок в словах

Коэффициент ошибок Word (WER) - это показатель, основанный на Расстояние Левенштейна, где расстояние Левенштейна работает на уровне персонажа, WER работает на уровне слова. Первоначально он использовался для измерения производительности распознавание речи систем, но также используется при оценке машинного перевода. Показатель основан на подсчете количества слов, которые различаются между частью машинно-переведенного текста и справочным переводом.

Связанная метрика - независимая от позиции частота ошибок по словам (PER), которая позволяет переупорядочивать слова и последовательности слов между переведенным текстом и справочным переводом.

МЕТЕОР

Метрика METEOR предназначена для устранения некоторых недостатков, присущих метрике BLEU. Метрика основана на взвешенном гармоническое среднее точности и запоминания униграммы. Метрика была разработана после исследования Лави (2004) значимости отзыва в оценочных показателях. Их исследование показало, что показатели, основанные на воспоминаниях, неизменно достигают более высокой корреляции, чем показатели, основанные только на точности, ср. BLEU и NIST.[12]

METEOR также включает некоторые другие функции, отсутствующие в других показателях, такие как сопоставление синонимов, где вместо сопоставления только по точной словоформе метрика также сопоставляется с синонимами. Например, слово «хорошо» в справочной визуализации и «хорошо» в переводе считается совпадением. Метрика также включает в себя стеммер, который лемматизирует слова и совпадения в лемматизированных формах. Реализация метрики является модульной, поскольку алгоритмы сопоставления слов реализуются в виде модулей, а новые модули, реализующие различные стратегии сопоставления, могут быть легко добавлены.

ЛЕПОР

Новая метрика оценки МП LEPOR была предложена как комбинация многих факторов оценки, включая существующие (точность, отзыв) и модифицированные (штраф за длину предложения и штраф за порядок слов на основе n-граммов). Эксперименты были протестированы на восьми языковых парах из ACL-WMT2011, включая английский-другой (испанский, французский, немецкий и чешский) и обратное, и показали, что LEPOR дает более высокую корреляцию на системном уровне с человеческими суждениями, чем несколько существующих показателей, таких как BLEU, Meteor-1.3, TER, AMBER и MP4IBM1.[13] В статье представлена ​​расширенная версия метрики LEPOR, hLEPOR.[14] hLEPOR использует среднее гармоническое для комбинирования подфакторов разработанной метрики. Кроме того, они разрабатывают набор параметров для настройки весов субфакторов в соответствии с различными языковыми парами. Общая задача метрик ACL-WMT13 [15] Результаты показывают, что hLEPOR дает наивысший балл корреляции Пирсона с человеческим мнением о языковой паре английский-русский в дополнение к наивысшему среднему баллу по пяти языковым парам (английский-немецкий, французский, испанский, чешский, русский) . Подробные результаты задачи метрики WMT13 представлены в статье.[16]

Есть некоторые исследования по оценке машинного перевода,[17][18][19] где люди вводили более подробную информацию о том, какие виды человеческих методов оценки они использовали и как они работают, такие как разборчивость, точность, беглость, адекватность, понимание и информативность и т. д. Для автоматической оценки также были выполнены некоторые четкие классификации, такие как лексическая методы подобия, применение лингвистических особенностей и подполя этих двух аспектов. Например, для лексического сходства он содержит расстояние редактирования, точность, отзыв и порядок слов; Что касается языкового признака, он делится на синтаксический признак и семантический признак соответственно.

Смотрите также

Примечания

  1. ^ Сомерс (2005)
  2. ^ Гаспари (2006)
  3. ^ а б White et al. (1994)
  4. ^ а б АЛЬПАК (1966 г.)
  5. ^ Белый (1995)
  6. ^ Туриан и др. (2003)
  7. ^ Хотя показатели описываются как для оценки машинного перевода, на практике они также могут использоваться для измерения качества перевода, выполненного человеком. Те же показатели использовались даже для обнаружения плагиата, подробности см. В Somers et al. (2006).
  8. ^ Папинени и др. (2002)
  9. ^ Папинени и др. (2002), Кафлин (2003)
  10. ^ Грэм и Болдуин (2014)
  11. ^ Доддингтон (2002)
  12. ^ Лави (2004)
  13. ^ Хан (2012)
  14. ^ Han et al. (2013a)
  15. ^ ACL-WMT (2013)
  16. ^ Han et al. (2013b)
  17. ^ Евроматрикс. (2007).
  18. ^ Dorr et al. ()
  19. ^ Хан и Вонг. (2016)

Рекомендации

  • Банерджи, С. и Лави, А. (2005) «МЕТЕОР: автоматический показатель для оценки MT с улучшенной корреляцией с человеческими суждениями» в Материалы семинара по внутренним и внешним методам оценки для машинного перевода и / или обобщения на 43-м ежегодном собрании Ассоциации компьютерной лингвистики (ACL-2005), Анн-Арбор, Мичиган, июнь 2005 г.
  • Черч, К. и Хови, Э. (1993) "Хорошие приложения для вялого машинного перевода". Машинный перевод, 8 с. 239–258
  • Кафлин, Д. (2003) "Корреляция автоматизированных и человеческих оценок качества машинного перевода" в MT Summit IX, Новый Орлеан, США стр. 23–27
  • Доддингтон, Г. (2002) "Автоматическая оценка качества машинного перевода с использованием статистики совпадений n-граммов". Труды конференции по технологиям человеческого языка (HLT), Сан-Диего, Калифорния стр. 128–132
  • Гаспари, Ф. (2006) «Посмотрите, кто переводит. Выдача себя за другое лицо, китайский шепот и развлечения с машинным переводом в Интернете» в Материалы 11-й ежегодной конференции Европейской ассоциации машинного перевода
  • Грэм, Ю. и Т. Болдуин. (2014) «Тестирование на значимость повышенной корреляции с человеческим суждением». Труды EMNLP 2014, Доха, Катар
  • Лави, А., Сагае, К. и Джаяраман, С. (2004) «Значение отзыва в автоматических показателях для оценки MT» в Труды AMTA 2004, Вашингтон, округ Колумбия. Сентябрь 2004 г.
  • Папинени К., Рукос С., Уорд Т. и Чжу В. Дж. (2002). «BLEU: метод автоматической оценки машинного перевода» в ACL-2002: 40-е ежегодное собрание Ассоциации компьютерной лингвистики стр. 311–318
  • Сомерс, Х. (2005) "Перевод в оба конца: для чего он нужен? "
  • Сомерс, Х., Гаспари, Ф. и Ана Ниньо (2006) «Обнаружение ненадлежащего использования бесплатного онлайн-машинного перевода изучающими языки - особый случай обнаружения плагиата». Материалы 11-й ежегодной конференции Европейской ассоциации машинного перевода, Университет Осло (Норвегия) стр. 41–48
  • ALPAC (1966) "Языки и машины: компьютеры в переводе и лингвистике". Отчет Консультативного комитета по автоматической обработке языка, Отделение поведенческих наук, Национальная академия наук, Национальный исследовательский совет. Вашингтон, округ Колумбия: Национальная академия наук, Национальный исследовательский совет, 1966 г. (публикация 1416).
  • Туриан Дж., Шен Л. и Меламед И. Д. (2003) «Оценка машинного перевода и его оценка». Материалы конференции MT Summit IX, Новый Орлеан, США, 2003 г. стр. 386–393
  • Уайт, Дж., О'Коннелл, Т. и О'Мара, Ф. (1994) "Методологии оценки ARPA MT: эволюция, уроки и будущие подходы". Труды 1-й конференции Ассоциации машинного перевода в Северной и Южной Америке. Колумбия, Мэриленд стр. 193–205
  • Уайт, Дж. (1995) "Подходы к оценке МП черного ящика". Материалы MT Summit V
  • Хан, А.Л.Ф., Вонг, Д.Ф., Чао, Л.С. (2012) «LEPOR: надежная метрика оценки машинного перевода с расширенными факторами» в Материалы 24-й Международной конференции по компьютерной лингвистике (COLING 2012): плакаты, Мумбаи, Индия. Инструмент с открытым исходным кодом стр. 441–450
  • Хан, А.Л.Ф., Вонг, Д.Ф., Чао, Л.С., Хе, Л., Лу, Й., Син, Дж. И Цзэн, X. (2013a) «Независимая от языка модель для оценки машинного перевода с усиленными факторами» в Материалы XIV саммита по машинному переводу, Ницца, Франция. Международная ассоциация машинного перевода. Инструмент с открытым исходным кодом
  • ACL-WMT. (2013) "ACL-WMT13 ЗАДАЧА ПО МЕТРИКАМ "
  • Хан, А.Л.Ф., Вонг, Д.Ф., Чао, Л.С., Лу, Й., Хе, Л., Ван, Ю., и Чжоу, Дж. (2013b) «Описание настраиваемых систем оценки машинного перевода в задаче метрик WMT13» в Материалы восьмого семинара по статистическому машинному переводу, ACL-WMT13, София, Болгария. Ассоциация компьютерной лингвистики. Интернет-бумага стр. 414–421
  • Хан, А.Л.Ф., Вонг, Д.Ф. (2016) «Оценка машинного перевода: обзор» в arXiv: 1605.04515 [cs.CL], [1] С. 1–14, май 2016 г.
  • Евроматрикс. 2007. 1.3: Обзор оценки машинного перевода. Публичное распространение. Проект финансируется Европейским сообществом в рамках Шестой рамочной программы исследований и технологического развития.
  • Бонни Дорр, Мэтт Сновер, Нитин Маднани. Часть 5: Оценка машинного перевода. Редактор: Бонни Дорр. Книжная глава.

дальнейшее чтение

Программное обеспечение для автоматизированной оценки