Rule-based machine translation

 

 

Воображаемая модель машинного перевода

Direct Machine Translation (модель дословного перевода) - в тексте выделяются отдельные слова, каждое из них переводится, согласуется морфология (падежи, окончания) и синтаксис и получается отвратительный (смешной, нелепый, абсурдный) результат.

Самая простая модель машинного перевода, существует исключительно в воображении обывателей.
Никогда не была реализована в реальности.

 

 

Основные технологии (модели) машинного перевода

  • Rule-based machine translation (RBMT) — Машинный перевод на основе правил (c 1950 годов XX века)

  • Corpus-based machine translation (CBMT) — Машинный перевод на корпусах текстов (с 1980 годов XX века)

  • Statistical-based machine translation (SBMT) — Статистический машинный перевод (с 1990 годов XX века)

  • Neural-based machine translation (NBMT) — Машинный перевод на базе нейронных сетей (с 2015 года от РХ)

  • Hybrid machine translation (HMT) — Гибридный машинный перевод (интеграция нескольких разных подходов машинного перевода)

Иногда выделяется Example-based machine translation (EBMT) — Машинный перевод на базе примеров. EBMT основан на принципе параллельного двуязычного корпуса текстов, где каждое предложение дублируется на другом языке и является частным простым случаем CBMT.

Каждая из технологий имеет свои достоинства и ограничения.

Каждая из технологий имеет область применения, для которой она является оптимальной.

 

 

 

 

Технологии (модели) Rule-based

В Rule-based machine translation (RBMT) можно выделить следующие технологии (модели) перевода:

  1. Transfer (ориентированные на пару языков (входной, выходной), которые преобразуют структуры входного языка в структуры выходного языка)

  • Transfer consecutive (последовательный анализ входного предложения в терминах структур входного языка, преобразование этой структуры в структуру выходного языка, синтез выходного предложения по полученной структуре. Пример: Belazar)

  • Transfer hierarchical (иерархический подход, разделяющий процесс перевода на взаимосвязанные Transfer для разных уровней анализа (лексических единиц, групп, уровень простых предложений, сложных предложений. Примеры: Promt, Systran, Linguatec и др...)

  1. Interlingua (основанные на промежуточном языке описания смысла. Нет работающих систем)

 

 

Transfer

Технология перевода Transfer  строится как композиция трех процессов:

  • анализ входного предложения в терминах структур входного языка,

  • преобразование этой структуры в структуру выходного языка (Transfer),

  • синтез выходного предложения по полученной структуре.

В реально действующих системах используется

  • Transfer consecutive (последовательный подход. Пример: Белазар.

  • Transfer hierarchical (иерархический подход, разделяющий процесс перевода на взаимосвязанные Transfer для разных единиц анализа). Примеры: Promt, SYSTRAN,   Linguatec.

В  transfer hierarchical выделяются

  • уровень лексических единиц: слов и словосочетаний. И в случае входного, и в случае выходного языка слово описывается как совокупность основы и окончания. Это обеспечивает возможность, с одной стороны, распознавания входных слов и анализа входной морфологии и, с другой стороны, обеспечивает удобный синтез выходных слов по их морфологической информации, таких, как основа, тип словоизменения и адрес окончания в массиве окончаний этого типа. Т.о., если ввести правила преобразования входной морфологической информации в выходную морфологическую информацию, осуществляется Transfer на морфологическом уровне),

  • уровень групп существительных, прилагательных, наречий и сложных глагольных форм. Этот уровень при анализе, основываясь на формальных сетевых грамматиках, умеет соединять группы в синтаксические единицы, каждая из которых характеризуется синтезированной структурной информацией и главным элементом группы. По входной структуре формируется выходная группа как набор лексических единиц со значениями морфологических признаков, которые могут наследоваться исходя из анализа группы),

  • уровень простых предложений  состоящих из синтаксических единиц, выполняется на основе фреймовых предикатных структур, которые позволяют эффективно выполнять преобразования. Глагол считается для простых предложений главным элементом, и его валентности определяют заполнение соответствующего фрейма. Для каждого типа фреймов существует некоторый закон преобразования в выходной фрейм и оформление актантов)

  • уровень сложных предложений требуется в случае формирования согласования времен и правильного перевода союзов.

RBMT отличает морфологическая точность (не путает слов) и высокая воспроизводимость (все переводы дают одинаковый результат). Они хорошо настраиваемы под отдельные предметные области (терминологию).

Принципиальное ограничение RBMT в том, что языки принципиально невозможно точно описать на основе формальных грамматических правил лингвистики. Эти правила принципиально не в состоянии должным образом отразить многообразие языковых проявлений.
 

 

 

 

Человеческий фактор

 

10.10.2009 Компания PROMT пользователям сервиса Translate.Ru

Вся наша работа направлена на то, чтобы помочь вам понять другого человека.

Для вас мы разрабатываем программы и совершенствуем их.

А потом пишем инструкции, которые помогут понять друг друга вам и нашим программам.

Составить Инструкцию нас подвигло вот такое письмо от нашего пользователя:

I just tried your service. I was wondering why many of the words still did not translate to English. Could it be that these are not Russian words? Peter*

Source: Привет дарагой Питер!! Спасибо тебе за писмо а рускам языке из катораво я ничево не паняла патаму что перевыодчик пнревел какой-та бред!!!!

Result: Greetings дарагой Peter!! Thanks you for писмо and рускам language from катораво I ничево not паняла патаму that перевыодчик пнревел what delirium!!!!

В жалобах от пользователей на наш перевод мы не раз сталкивались с некорректным исходным текстом (опечатки, нехватка знаков препинания, и слишком разговорный стиль).

Все это очень сильно влияет на результат перевода.

Программа-переводчик в отличие от переводчика-человека не всегда может понять по контексту, что предложение вопросительное,  если оно без вопросительного знака, что «вернуться дамой» означает вернуться дОмой, а не дАмой,  а «роман льва толстого» - это не любовная история толстого льва, а произведение писателя Льва Толстого.

Искусственный интеллект во многом уступает человеческому, и так как Вы обладаете вторым, то в Ваших силах облегчить работу первого.

Как это сделать, можно прочитать здесь.

 

 

 

 

Hybrid-based

 

Светлана Соколова (председатель совета директоров Промт):

  • Машинный перевод предполагает наличие в программной системе модуля, «вычисляющего» перевод текста.

  • В этом определении самое важное слово — «вычисляющий», так как имеются фундаментальные различия между операциями извлечения и подстановки существующего перевода из базы данных (эти операции характерны для систем Translation memory и автоматических словарей) и операциями «вычисления» перевода с помощью набора правил.

21.12.2010 PROMT презентовал гибридную систему перевода PROMT DeepHybrid (Rule-based + Statistical-based)

Светлана Соколова (председатель совета директоров Промт):

  • Модули перевода PROMT 9.0 относятся к системам rule-based, но фокусом исследования «ПРОМТ» является гибридная модель модуля перевода, которая объединяет преимущества rule-based-систем и статистических (statistical-based) систем перевода.

  • Rule-based-метод исходит из того, что для всего можно найти правило, и на его основании произвести преобразование. Это очень похоже на работу человека: сначала прочитать и проанализировать текст, исходя из правил языка, которые лежат в его основе, затем выполнить перевод в соответствии с правилами того языка, на который текст переводится. Это аналитический метод. В противовес ему статистический метод основан не на анализе, а на подборе наиболее адекватных вариантов из любого числа имеющихся. Но именно в различии методов и есть возможность развития.

  • Основой статистических моделей являются многоязычные текстовые корпуса в несколько миллиардов словоупотреблений и, в частности, текстовые корпуса онлайн-сервисов компании. Кроме того, статистические модели включают в себя параллельные двуязычные тематические корпуса, например, корпус Европарламента в несколько десятков миллионов словоупотреблений.

PROMT DeepHybrid вместо одного варианта перевода программа порождает множество переводов, число которых у одного предложения, в зависимости от многозначности слов, конструкций, и результатов статистической обработки, может доходить до нескольких сотен, а вероятностная модель языка позволяет выбрать самый вероятный из предложенных вариантов.

Вероятностная модель языка и компоненты системы, выполняющие статистическую обработку, создаются с использованием корпусных и статистических методов на основе тысяч текстов, миллионов слов и словосочетаний, объединенных определенной тематикой. При этом даже на самых больших объемах текстов построение всех необходимых средств занимает всего несколько часов.

Светлана Соколова (председатель совета директоров Промт):

  • Мы много работаем над развитием семантического компонента системы: улучшением возможности понимания значения снова в зависимости от контекста, в котором оно употреблено.

  • Например, возьмём английское слово “application”. Это и приложение на компьютере, и заполнение некоей формы (например, анкеты на получение визы), и просто аппликация (вид рукоделия). Эта полисемантичность усугубляется ещё и тем, что одно и то же слово может относиться к разным частям речи — быть и существительным, и глаголом, и прилагательным…

  • Задача системы машинного перевода — выдать тот вариант, который соответствует контексту, тематике, структуре фразы.

  • Мы сейчас занимаемся исследованиями в этой области для развития семантического компонента наших систем.

14.09.2017

«Яндекс» запустил новый гибридный перевод (Hybrid-based = Neural-based + Statistical-based), который умеет выбирать между нейронным машинным переводом и статистической моделью.

 

 

 

Interlingua

 

Interlingua - технология перевода на основе использования метаязыка описания структур как входного, так и выходного языков.

В 1666 году в "Dissertatio de arte combinatoria" Готфрид Вильгельм Лейбниц опубликовал свою идею о "пазиграфии или искусстве делаться понятным при помощи общих письменных знаков для всех народов на земле, на каких бы разных языках они ни говорили, если только они знакомы с этими общими знаками". 

Идею Interlingua, как концепции машинного перевода, выдвинул в 1949 году Уоррен Уивер (Warren Weaver). 

Эффективных систем, основанной на технологии Interlingua нет, хотя в теоретическом отношении она наиболее разработана.

Этапы перевода в Interlingua:

  • анализ входного предложения в терминах метаязыка

  • синтез из метаструктуры соответствующего предложения выходного языка.

Проблемы технологии Interlingua:

  • необходимость разработки метаязыка

  • описание естественного языка лексикой метаязыка.

Проекты использования Interlingua:

  • UNL (Universal Networking Language)

  • Natural Language Compiler (NLC)

  • Distribuita Lingvo-Tradukado

05.12.2016

Google Translate, использующий нейронную сеть для осуществления переводов стал способен производить переводы с и на языки, для которых он не предназначался изначально. К примеру, если систему обучили переводу между английским и японским языками, и английским и корейским, то она свободно может выполнить перевод между японским и корейским, но уже без использования английского языка в качестве промежуточного. Исследователи компании Google считают, система обрела такую возможность на основе модели "zero-shot translation", разработав нечто вроде внутреннего представления переводимого текста на искусственном языке, который получил название "интерлингва", является универсальным, ориентирован на его использование в технологиях автоматического перевода, абсолютно не годен для его использования людьми.

 

 

 

Universal Networking Language

 

UNL (Universal Networking Language, универсальный сетевой язык) разрабатывается под эгидой Института передовых исследований токийского университета Организации Объединенных Наций (UNU/IAS) семнадцатью университетами и исследовательскими центрами из разных стран.

UNL - это искусственный семантико-синтаксический язык-посредник, предназначенный для описания, хранения и распространения информации в Сети в виде не зависящем от какого-либо естественного языка, компьютерной платформы или операционной системы и ее восстановления на любом естественном языке из числа поддерживаемых системой.

Система перевода на основе UNL должна  автоматически  преобразовывать исходный текст в его UNL-представление, а затем синтезировать из этого представления текст на нужном языке.

Назначение UNL - представить смысл исходных естественно-языковых текстов га основе аппарата записи смысловых концептов.

UW (universal word, универсальное слово) - лексикон UNL на основе английского языка, пополняющийся из  KB (knowledge base, базы знаний) - особом перечне сочетаемости всевозможных смыслов друг с другом.

Уточнение значений концептуальных элементов производится путем приписывания им restriction labels (ограничительных помет).

Пометы описывают смысл UW и представляют собой пары вида (f > S), где f - некоторое семантическое бинарное отношение, а S - иное, отличное от данного (элементарное) UW, в отношении к которому находится рассматриваемое UW.

Согласно последней спецификации языка UNL таких отношений около сорока.

В их числе:

  • гипонимическое отношение (icl - от англ. inclusion),

  • отношения синонимии (equ - англ. equal)

  • антонимии (ant - англ. antonym),

  • объекта (obj - англ. object)

  • агента (agt - англ. agent) действия и многие другие.

 

 

 

Distribuita Lingvo-Tradukado

 

DLT (Distribuita Lingvo-Tradukado) - компьютерный проект распределенного перевода голландского предприятия BSO из Утрехта.

Цель DLT: компьютерная система перевода естественных языков, применяющая в качестве посредника язык эсперанто.

В проекте DLT перед отправкой все сообщения переводятся на один внутренний язык (эсперанто) и в таком виде пересылаются по сети. При получении сообщения вновь переводятся уже на язык получателя. Таким образом, каждый пользователь отправляет и получает сообщения только на своем родном языке. Такой системе требуется только 2n словарей для n языков (по два для каждого языка - для прямого и обратного перевода), в то время, как системе с прямой связью между языками необходимо иметь n(n-1) словарь (для перевода с каждого языка на каждый).

Преимущества планового языка эсперанто перед всеми другими в том, что он, с одной стороны, представляет собой полноценное средство общения, проверенное на практике, а с другой (в силу своей искусственности) легче поддается формализации.

 

 

 

Natural Language Compiler: Interlingua

 

Компания ABBYY  разрабатывает платформу перевода и анализа текстов Natural Language Compiler (NLC)

NLC - система искусственного интеллекта для извлечения нужной информации из большого массива документов на разных языках.

«NLC не ищет в тексте, а понимает текст на основе модели не зависящей от языка иерархии понятий».

Приложения NLC:

  • смысловой поиск по тексту,

  • извлечение фактов из неструктурированных текстов,

  • все виды перевода,

  • анализ и классификация документов,

  • установления связей между объектами мониторинга,

  • распознавание речи

  • защита от несанкционированного использования информации.

В ABBYY подчеркивают, что со временем NLC может стать ее основным бизнесом. Сейчас над проектом работают более 300 человек используя наработки в ABBYY FineReader и Lingvo.

Здесь Давид Ян о проекте NLC

Здесь Сергей Андреев (президент и генеральный директор группы компаний ABBYY) о проекте NLC