Машинный перевод на основе словаря - Dictionary-based machine translation

От А до А

Машинный перевод может использовать метод, основанный на толковый словарь статей, что означает, что слова будут переводиться как словарь - дословно, обычно без особого соотношения значений между ними. Поиск по словарю можно выполнять с или без морфологический анализ или лемматизация. Хотя этот подход к машинному переводу, вероятно, наименее сложен, словарный машинный перевод идеально подходит для перевода длинных списков фраз на субсуществующем уровне (т.е. не в полном предложении), например запасы или простые каталоги товаров и услуг.[1]

Его также можно использовать для ускорения ручного перевода, если лицо, выполняющее его, свободно владеет обоими языками и, следовательно, может исправлять синтаксис и грамматику.

LMT

LMT, представленный около 1990 г.,[2] - это система машинного перевода на основе Пролога, которая работает со специально созданными двуязычными словарями, такими как англо-немецкий словарь Collins (CEG), которые были переписаны в индексированной форме, легко читаемой на компьютерах. В этом методе используется структурированная база лексических данных (LDB) для того, чтобы правильно определять категории слов из исходного языка, тем самым создавая связное предложение на целевом языке на основе элементарного морфологического анализа. В этой системе используются «рамки»[2] чтобы определить позицию, которую определенные слова должны занимать с синтаксической точки зрения в предложении. Это "рамки"[2] отображаются с помощью языковых соглашений, таких как UDICT в случае английского языка.

В своей ранней (прототипной) форме LMT[2] использует три словаря, к которым осуществляется одновременный доступ: источник, передача и цель, хотя можно заключить всю эту информацию в один словарь. В программе используется алексическая конфигурация, состоящая из двух основных элементов. Первый элемент - это добавление к лексикону, написанное вручную, которое содержит возможные неправильные переводы. Второй элемент состоит из различных двуязычных и одноязычных словарей, относящихся к двум языкам, которые являются исходным и целевым языками.

Машинный перевод на основе примеров и словарей

Этот метод машинного перевода на основе словарей исследует парадигму, отличную от таких систем, как LMT. An машинный перевод на основе примеров Система снабжена только «двуязычным корпусом, выровненным по предложениям».[3]Используя эти данные, программа-переводчик создает "дословный двуязычный словарь".[3] который используется для дальнейшего перевода.

Хотя эта система обычно рассматривается как совершенно иной способ машинного перевода, чем машинный перевод на основе словаря, важно понимать дополняющий характер этой парадигмы. Благодаря объединенной мощности, присущей обеим системам, в сочетании с тем фактом, что машинный перевод на основе словарей лучше всего работает с «дословным двуязычным словарем»[3] списки слов, это демонстрирует тот факт, что соединение этих двух механизмов перевода могло бы создать очень мощный инструмент перевода, который, помимо семантической точности, способен улучшать свои собственные функциональные возможности с помощью постоянных циклов обратной связи.

Система, которая объединяет обе парадигмы аналогично тому, как это было описано в предыдущем абзаце, - это механизм машинного перевода на основе примеров Pangloss (PanEBMT).[3] движок машинного перевода. PanEBMT использует таблицу соответствия между языками для создания своего корпуса. Кроме того, PanEBMT поддерживает несколько инкрементных операций над своим корпусом, что упрощает предвзятый перевод, используемый для целей фильтрации.

Параллельная обработка текста

Дуглас Хофштадтер в своей книге «Le Ton beau de Marot: InPraise of the Music of Language» доказывает, насколько сложна задача перевода. Автор подготовил и проанализировал десятки и десятки возможных переводов восемнадцатистрочной французской поэмы, тем самым раскрывая сложные внутренние механизмы синтаксиса, морфологии и смысла.[4] В отличие от большинства систем перевода, которые выбирают один перевод на основе сравнения текстов как на исходном, так и на целевом языках, работа Дугласа Хофштадтера доказывает неотъемлемый уровень ошибок, который присутствует в любой форме перевода, когда значение исходного текста слишком детализировано. или сложный. Таким образом, проблема выравнивания текста и «статистика языка»[4] доводится до сведения.

Эти несоответствия привели к взглядам Мартина Кея на переводы и системы перевода в целом. Как говорит Кей, «для более значительных успехов в этих предприятиях потребуется более четкое изображение мира, чем любое, которое можно составить просто из статистики использования языка» [(страница xvii) Параллельная обработка текста: согласование и использование корпусов переводов].[4] Таким образом, Кайхас вновь пролил свет на вопрос о значении внутри языка и об искажении смысла посредством процессов перевода.

Лексическая понятийная структура

Одним из возможных применений машинного перевода на основе словаря является облегчение «Репетиторства по иностранному языку» (FLT). Это может быть достигнуто с помощью технологии машинного перевода, а также лингвистики, семантики и морфологии для создания «крупномасштабных словарей».[5] практически на любом языке. Развитие лексической семантики и компьютерная лингвистика За период с 1990 по 1996 год «обработка естественного языка» (НЛП) стала процветать, получая новые возможности, но, тем не менее, принося пользу машинному переводу в целом.[5]

«Лексическая концептуальная структура» (LCS) - это представление, не зависящее от языка. Он в основном используется при обучении иностранному языку, особенно в элементе обработки естественного языка FLT. LCS также оказался незаменимым инструментом для машинного перевода любого типа, например машинного перевода на основе словарей. В целом одна из основных целей LCS - «продемонстрировать, что смыслы синонимичных глаголов имеют общие модели распределения».[5]

«ДКвец»

«DKvec - это метод извлечения двуязычных лексиконов из зашумленных параллельных корпусов на основе расстояний поступления слов в зашумленных параллельных корпусах». Этот метод появился в ответ на две проблемы, мешающие статистическому извлечению двуязычных лексиконов: «(1) Как можно использовать зашумленные параллельные корпуса? (2) Как можно использовать непараллельные, но сопоставимые корпуса?»[6]

Метод "DKvec" оказался неоценимым для машинного перевода в целом благодаря поразительному успеху, который он имел в испытаниях, проведенных как на англо-японском, так и на англо-китайском шумном параллельном корпусе. Цифры для точности "показывают точность 55,35% для малого корпуса и 89,93% для большего корпуса".[6] При таких впечатляющих цифрах можно с уверенностью предположить, какое огромное влияние оказали такие методы, как "DKvec", на эволюцию машинного перевода в целом, особенно машинного перевода на основе словарей.

Алгоритмы, используемые для извлечения параллельные корпуса в двуязычном формате используйте следующие правила для достижения удовлетворительной точности и общего качества:[6]

  1. Слова имеют один смысл в каждом корпусе
  2. Слова имеют единый перевод на корпус
  3. В целевом документе нет отсутствующих переводов
  4. Частоты появления двуязычных слов сопоставимы
  5. Позиции появления двуязычных слов сопоставимы

Эти методы могут использоваться для генерации или поиска шаблонов вхождений, которые, в свою очередь, используются для создания двоичных векторов вхождений, которые используются методом "DKvec".

История машинного перевода

История машинного перевода (МП) началась примерно в середине 1940-х годов. Машинный перевод, вероятно, был первым случаем, когда компьютеры использовались для нечисловых целей. Машинный перевод вызывал большой интерес исследователей в 1950-х и 1960-х годах, после чего наступил застой до 1980-х годов.[7]После 1980-х годов машинный перевод снова стал массовым, пользуясь даже большей популярностью, чем в 1950-х и 1960-х годах, а также стремительным расширением, в значительной степени основанным на подходе корпусов текстов.

Основная концепция машинного перевода восходит к 17 веку в спекуляциях вокруг «универсальных языков и механических словарей».[7] Первые предложения по настоящему практическому машинному переводу были сделаны в 1933 году Жоржем Арцруни во Франции и Петром Троянским в России. У обоих были запатентованные машины, которые, по их мнению, можно было использовать для перевода значений с одного языка на другой. «В июне 1952 года Иегошуа Бар-Хиллель созвал первую конференцию по МП в Массачусетском технологическом институте».[7] 7 января 1954 года конференция по машинному переводу в Нью-Йорке, спонсируемая IBM, послужила популяризации этой области. Популярность условностей пришлась на перевод коротких английских предложений на русский язык. Эти инженерные достижения представили публике и правительствам США и СССР, которые, таким образом, стимулировали крупномасштабное финансирование исследований в области машинного перевода.[7]Хотя энтузиазм в отношении машинного перевода был чрезвычайно высок, технические и ограниченные знания привели к разочарованию относительно того, на что действительно способен машинный перевод, по крайней мере, в то время. Таким образом, машинный перевод терял популярность до 1980-х годов, когда достижения в области лингвистики и технологий помогли возродить интерес к этой области.

Транслингвальный поиск информации

«Транслингвальный поиск информации (TLIR) состоит из предоставления запроса на одном языке и поиска в коллекциях документов на одном или нескольких разных языках». Большинство методов TLIR можно количественно разделить на две категории, а именно: статистические IR-подходы и трансляцию запросов. TLIR на основе машинного перевода работает одним из двух способов. Либо запрос переводится на целевой язык, либо исходный запрос используется для поиска, в то время как совокупность возможных результатов переводится на язык запроса и используется для перекрестных ссылок. У обоих методов есть свои плюсы и минусы, а именно:[8]

  • Точность перевода - правильность любого машинного перевода зависит от размера переведенного текста, поэтому короткие тексты или слова могут страдать от большей степени семантических ошибок, а также лексической двусмысленности, тогда как более крупный текст может предоставлять контекст, который помогает при устранении неоднозначности.
  • Точность извлечения - на основе той же логики, что и в предыдущем пункте, предпочтительно переводить целые документы, а не запросы, потому что большие тексты, вероятно, будут меньше терять смысл при переводе, чем короткие запросы.
  • Практичность - в отличие от предыдущих пунктов, перевод коротких запросов - лучший способ. Это связано с тем, что короткие тексты легко переводить, в то время как перевод целых библиотек требует значительных ресурсов, плюс объем такой задачи перевода предполагает индексацию новых переведенных документов.

Все это свидетельствует о том, что машинный перевод на основе словарей является наиболее эффективной и надежной формой перевода при работе с TLIR. Это потому, что процесс «ищет каждый термин запроса в двуязычном словаре общего назначения и использует все его возможные переводы».[8]

Машинный перевод очень близких языков

Примеры RUSLAN, словарной системы машинного перевода с чешского на русский, и CESILKO, чешско-словацкой системы машинного перевода, показывают, что в случае очень близких языков более простые методы перевода являются более эффективными, быстрыми и надежными.[9]

Система РУСЛАН была создана для подтверждения гипотезы о том, что родственные языки легче переводить. Разработка системы началась в 1985 году и была прекращена через пять лет из-за отсутствия дальнейшего финансирования. Уроки, извлеченные из эксперимента РУСЛАН, заключаются в том, что подход к переводу, основанный на передаче, сохраняет свое качество независимо от того, насколько близки языки. Два основных узких места «полноценных трансфертных систем»[9] сложность и ненадежность синтаксического анализа.[10]

Многоязычный поиск информации MLIR

«Системы поиска информации ранжируют документы в соответствии с мерами статистического сходства на основе совпадения терминов в запросах и документах». В MLIR Система была создана и оптимизирована таким образом, чтобы облегчить перевод запросов на основе словаря. Это связано с тем, что запросы, как правило, короткие, пара слов, что, несмотря на отсутствие большого контекста, более осуществимо, чем перевод целых документов, по практическим причинам. Несмотря на все это, система MLIR сильно зависит от множества ресурсов, таких как автоматизированная определение языка программного обеспечения.[11]

Смотрите также

Список используемой литературы

  1. ^ Уве Муэгге (2006), «Превосходное приложение для грязного машинного перевода: автоматический перевод большой базы данных», в Элизабет Грэфе (2006; редактор), Материалы ежегодной конференции Немецкого общества технических коммуникаторов, Штутгарт: tekom, 18–21.
  2. ^ а б c d Мэри С. Нефф Майкл К. МакКорд (1990). «ПОЛУЧЕНИЕ ЛЕКСИЧЕСКИХ ДАННЫХ ИЗ МАШИНОЧИТАЕМЫХ СЛОВАРЕЙ ДЛЯ МАШИННОГО ПЕРЕВОДА». IBM T. J. Watson Research Center, P.O. Box 704, Yorktown Heights, New York 10598: 85–90. CiteSeerX  10.1.1.132.8355. Цитировать журнал требует | журнал = (Помогите)
  3. ^ а б c d Ральф Д. Браун. «Автоматическое извлечение словаря для« свободного от знаний »перевода на основе примеров» (PDF). Институт языковых технологий (Центр машинного перевода) Университет Карнеги-Меллона, Питтсбург, Пенсильвания, 15213-3890, США. Получено 2 ноября 2015.
  4. ^ а б c Жан Веронис (2001). Параллельная обработка текста: согласование и использование корпусов переводов. Компьютерная лингвистика. 27. Dordrecht: Kluwer Academic Publishers (серия текстовых, речевых и языковых технологий, под редакцией Нэнси Айд и Жана Веронис, том 13), 2000, xxiii + 402 с; в твердом переплете. С. 592–595. Дои:10.1162 / coli.2000.27.4.592. ISBN  978-0-7923-6546-4. S2CID  14796449.
  5. ^ а б c Дорр, Бонни Дж. (1997). «Создание крупномасштабного словаря для обучения иностранным языкам и межъязыкового машинного перевода». Машинный перевод. 12 (4): 271–322. Дои:10.1023 / А: 1007965530302. S2CID  1548552.
  6. ^ а б c Дэвид Фарвелл Лори Гербер Эдуард Хови (1998). Машинный перевод и информационный суп. Конспект лекций по информатике. 1529. Классификация объектов CR (1998): I.2.7, H.3, F.4.3, H.5, J.5 Springer-Verlag Berlin Heidelberg New York. Дои:10.1007/3-540-49478-2. HDL:11693/27676. ISBN  978-3-540-65259-5. S2CID  19677267.
  7. ^ а б c d Дж. Хатчинс (январь 2006 г.). «Машинный перевод: история». Энциклопедия языка и лингвистики. С. 375–383. Дои:10.1016 / B0-08-044854-2 / ​​00937-8. ISBN  9780080448541. Отсутствует или пусто | название = (Помогите)
  8. ^ а б Иминь Ян; Хайме Г. Карбонелл; Ральф Д. Браун; Роберт Э. Фредеркинг (август 1998 г.). «Транслингвальный поиск информации: изучение двуязычных корпусов». Искусственный интеллект. Институт языковых технологий, Школа компьютерных наук, Университет Карнеги-Меллона, 5000 Forbes Avenue, Питтсбург, PA 15213, США. 103 (1–2): 323–345. Дои:10.1016 / S0004-3702 (98) 00063-0.
  9. ^ а б Ян ХАДЖИЧ; Ян ХРИК; Владислав КУБОН (2000). «Машинный перевод очень близких языков». Материалы шестой конференции по прикладной обработке естественного языка -. С. 7–12. Дои:10.3115/974147.974149. S2CID  8355580. Получено 2 ноября 2015.
  10. ^ Ари Пиркола (1998). Влияние структуры запроса и настроек словаря при поиске межъязыковой информации на основе словаря. Департамент информационных исследований Университета Тампере. С. 55–63. CiteSeerX  10.1.1.20.3202. Дои:10.1145/290941.290957. ISBN  978-1581130157. S2CID  16199588. Получено 2 ноября 2015.
  11. ^ Дэвид А. Халл; Грегори Грефенстетт (1996). «Запросы на разных языках». Запросы на разных языках: словарный подход к поиску многоязычной информации. Ранг Исследовательский центр Xerox 6 chemin de Maupertuis, 38240 Meylan France. С. 49–57. Дои:10.1145/243199.243212. ISBN  978-0897917926. S2CID  1274065.