Statistical-based machine translation

 

 

Воображаемая модель машинного перевода

Direct Machine Translation (модель дословного перевода) - в тексте выделяются отдельные слова, каждое из них переводится, согласуется морфология (падежи, окончания) и синтаксис и получается отвратительный (смешной, нелепый, абсурдный) результат.

Самая простая модель машинного перевода, существует исключительно в воображении обывателей.
Никогда не была реализована в реальности.

 

 

Основные технологии (модели) машинного перевода

  • Rule-based machine translation (RBMT) — Машинный перевод на основе правил (c 1950 годов XX века)

  • Corpus-based machine translation (CBMT) — Машинный перевод на корпусах текстов (с 1980 годов XX века)

  • Statistical-based machine translation (SBMT) — Статистический машинный перевод (с 1990 годов XX века)

  • Neural-based machine translation (NBMT) — Машинный перевод на базе нейронных сетей (с 2015 года от РХ)

  • Hybrid machine translation (HMT) — Гибридный машинный перевод (интеграция нескольких разных подходов машинного перевода)

Иногда выделяется Example-based machine translation (EBMT) — Машинный перевод на базе примеров. EBMT основан на принципе параллельного двуязычного корпуса текстов, где каждое предложение дублируется на другом языке и является частным простым случаем CBMT.

Каждая из технологий имеет свои достоинства и ограничения.

Каждая из технологий имеет область применения, для которой она является оптимальной.

 

 

 

Statistical-based machine translation

 

Статистическая технология перевода (statistical-based machine translation) основана на статистическом вычислении вероятности совпадений и не использует лингвистические алгоритмы перевода.

Основа statistical-based machine translation  заложена в конце 1980-х начале 1990-х годов - сотрудниками корпорации IBM. Для statistical-based machine translation необходимы огромные базы параллельных текстов, где попарно хранятся N-граммы (фразы из 2–3 слов и их переводы).

В процессе перевода система подбирает вариант перевода, основываясь на частоте совпадений, то есть в конечном итоге будет подставлен вариант, имеющий наиболее высокий процент совпадений.

В качестве примера часто сравниваются две простые фразы на арабском (написано латиницей) - «rajl kabir» и «rajl tawil». Если машина «знает», что первая фраза означает «крупный человек», а вторая - «высокий человек», то статистика позволит машине понять, что «rajl» означает «человек».

 

На основе statistical-based machine translation созданы действующие системы для многих языков:

  • статистический переводчик n.Fluent от IBM (проходит закрытое тестирование).

  • в  Johns Hopkins University создана  для клингоского языка (язык Империи Клингон из сериала Star Trek). Разработкой этого языка даже создан целый институт, в котором переведены на этот язык Библия и «Гамлет».

  • система статистического перевода разработана в Южно-калифорнийском университете США (University of Southern California).

  • общедоступным статистическим переводчиком является был Google Translate.

 

 

 

Statistical-based в Google Translate

 

В 2006 году Сергей Брин, один из основателей Google, попробовал перевести сообщение корейского пользователя через лицензированный переводческий сервис и получил: Нарезанная сырая рыба обувь он хочет. Google зеленый лук штука!»

Этот момент стал началом разработки  Google Translate (представлен в 2007 году).

Google Translate создавался как система статистического перевода.

Чуи Тревелла (Chewy Trewhella, рук. направления машинного перевода Google в 2010):

  • Большинство систем машинного перевода, представленных сегодня на рынке, основаны на понимании правил того или иного языка, что требует большой дополнительной работы лингвистов и IT специалистов по работе со словарями и грамматическими справочниками.

  • Наша система использует другой подход: мы создаем базу из миллионов текстов в оригинале на определенном языке и примеров переводов таких текстов, сделанных людьми. Затем мы применяем самообучающийся статистический анализ для создания моделей перевода.

  • Мы используем множество источников: от блогов до официальных документаций ЕС и ООН. Европейский Союз переводит свои документы на 23 языка и они имеют качественный перевод. Для небольших государств, язык которых не очень популярен в сети, большую часть необходимой информации мы получаем именно из официальных бумаг. Книги являются еще одним важным ресурсом для развития сервиса

17.01.2008

Еврокомиссия предоставила разработчикам систем компьютерного перевода бесплатный доступ к миллионампереведенных предложений на 22 языках из Acquis Communautaire (свода законов, договоров, директив и постановлений ЕС). Переводы этих предложений образуют часть «памяти переводов», используемой 1750 штатными переводчиками Комиссии, снабжены признаками предметной классификации и в точности совпадают для каждого из 22 языков. По ним можно собрать корпус совпадающих фраз на разных языках и найти наиболее вероятный перевод любой заданной фразы.

30.11.2010

Европейское патентное бюро и Google подписали Меморандум о сотрудничестве (Googlе обязуется обеспечить автоматический перевод  50 млн патентов с официальных языков ЕС (английский, немецкий и французский) на 38 иностранных языков. Бюро предоставит Google доступ к переводам патентов, сделанных ранее вручную, что позволит Googlee серьезно улучшить качество машинного перевода)

01.03.2012

Google в партнерстве с Европейским патентным ведомством (ЕПВ) разработала сервис  «Patent Translate» - версию Google-переводчика, оптимизированную для типа языка, используемого в патентной документации.

 

 

 

Модели statistical-based machine translation

 

1. Word-based SMT (статистический перевод по словам):

  • IBM Model 1: мешок слов (строится частотный словарь без учёта порядка или перестановок).
    Простые реализации: shawa/IBM-Model-1 (на языке Pyton)

  • IBM Model 2: мешок слов + учёт порядка слов в предложении

  • IBM Model 3:  мешок слов + учёт порядка слов в предложении + добавление маркеров (NULL-слов) на те места, где машина подозревает необходимость нового слова + подбор нужного артикля, частицы или глагола под каждый маркер.

  • Model 4: мешок слов + учёт порядка слов в предложении + добавление маркеров (NULL-слов) на те места, где машина подозревает необходимость нового слова + подбор нужного артикля, частицы или глагола под каждый маркер + перестановки слов (если при переводе два слова постоянно менялись друг с другом — модель это запоминала).

  • Model 5: мешок слов + учёт порядка слов в предложении + добавление маркеров (NULL-слов) на те места, где машина подозревает необходимость нового слова + подбор нужного артикля, частицы или глагола под каждый маркер + перестановки слов  + модели разрешения конфликтов между словами за место в предложении.

Word-based не работал с падежами, родом и омонимией. Был заменен Phrase-based SMT

2. Phrase-based SMT (статистический перевод по фразам) разбивал текст на  N-граммы (фраземы) — пересекающиеся наборы из N слов подряд.

N-граммы оказались очень удобными для машин, но непривычными для человека синтаксическими конструкциями. Поэтому, любое (лингвистическое) вмешательство человека в модель перевода приводило к резкому падению его качества.

Фредерик Йелинек: Daniel Jurafsky, James H. Martin Speech and language processing
(Каждый раз, когда из команды уходит линвист, качество распознавания возрастает)

Phrase-based SMT дал резкое увеличение точности перевода, улучшение обучаемости, на самой широкой базе параллельных текстов.

С 2006 года (до 2016-го) Phrase-based SMT использовали Google Translate, Yandex переводчик, Bing Translate и др.

3. Syntax-based SMT (статистический перевод на основе синтаксиса - в терминологии ПРОМТ - Hybrid-based).

Syntax-based SMT - объединение подходов SMT и старого трансферного перевода по правилам.

Syntax-based SMT предполагает точный синтаксический разбор предложения (определять подлежащее, сказуемое, зависимые члены ... и построить дерево, на котором машина научится правильно конвертировать фигуры одного языка в фигуры другого, выполняя остальной перевод по словам или фразам статистически.

 В Syntax-based SMT видели «будущее переводчиков», но достичь успеха ему "помешал" Neural-based machine translation.

 

 

 

Ошибки в statistical-based machine translation

 

Слабым местом статистических систем является отсутствие механизма анализа грамматических правил входного и выходного языков.

Cогласно прямой оценке результата  использования технологий компьютерного перевода несомненное преимущество на сегодняшний день у технологии  Transfer.

Вместе с тем, это в большей мере оценка не столько самой технологии, сколько конкретной системы, в которой она нашла свое воплощение. Оценка перспективности технологии должна быть дополнена учетом уровня ее развитости и разработанности. Технологии статистического перевода самые молодые и наименее разработанные.

 

20.08.2009

Сервис Google Translate при переводе на китайский и обратно — на русский язык — превращает слово «Янукович» в слово «Ющенко».

При обратном переводе фразы «Голосуй за Януковича! Он ведет Украину в светлое будущее» пользователи получат  результат: «Голосовать в поддержку Виктора Ющенко! Он имеет блестящее будущее в Украине». Ошибка не имеет идеологической подоплеки. Система статистического машинного перевода строится на сравнении параллельных текстов и в работе с именами собственными могут произойти сбои, когда несколько имен употребляются вместе.

14.10.2010

Google Translate при переводе с русского на английский фразы "Путин едет на желтой Калине"  выдает "Putin goes to a yellow Mazda". Смена фамилии и цвета принципиально перевод не меняет. Уникальным является вариант перевода на креольский язык, в котором Mazda заменяется на Subaru. Пресс-служба Google в России: В Переводчике Google произошла техническая ошибка, специалисты Google о ней уже знают и работают над тем, чтобы ее исправить.

Джейсон Фрейденфельдс (представитель Google): Это сбой в алгоритме. Программа полностью автоматизирована и самообучается, анализируя, как переводятся на другие языки слова и фразы в текстах, размещенных в Интернете. Люди воспринимают речь, понимая значение слов. Переводчик Google не воспринимает семантику языка. Как только нам удастся понять, на чем сбивается программа, они не будут менять эту единственную фразу, а попытаются усовершенствовать весь алгоритм.

28.01.2010

При попытке перевести с английского на русский фразу 'USA is to blame, Russia is to blame, Obama is to blame, Medvedev is to blame' в окне переводчика Google выводился вариант "США не виноваты, Россия виновата, Обама не виноват, Медведев виноват".

Алла Забровская (директор по связям в общественностью Google в России): Ошибка в переводе стала результатом  атаки на сервис, в ходе которой была подброшена "переводобомба". Google выражает признательность российским пользователям за помощь в нахождении ошибки.

kmp-проверка в 10:45 минского времени:  

при переводе фразы 'Medvedev is to blame, Obama is to blame' Google выдавал фразу "Медведев виноват, Обама в этом виноват".

при переводе фразы 'Obama is not to blame, Russia is not to blame, USA is not to blame, Medvedev is not to blame' система предлагала вариант "Обама не виноват, Россия не виновата, США не виноваты, что Медведев не виноват".

26.08.2015

После массового возмущения интернет-пользователей из-за некорректного перевода на русский язык словосочетания "Революція Гідності" Google изменил работу переводчика. Ранее сервис переводил определения "Революція Гідності" на русский как "политический кризис на Украине". После массового обсуждения "сператистского" перевода в Интернете переводчик изменил его на "Революцию Достоинства".

05.02.2017
Результат kmp-посещения официального сайта Белого дома США (https://www.whitehouse.gov)  с помощью браузера, в котором установлен автопереводчи
к (тот Google Translate, который переводит (на начало 2018 года) сайты в браузере использует старый Phrase-based алгоритм и на нём очень заметны отличия по сравнению с онлайн-версией!):

Оригинальные заголовки новостей:

Автоперевод:

 

 

 

 

 

Оценка эффективности технологии перевода

 

Оценка технологии должна быть должна учитывать:

Развитость технологии

Получаемый результат характеризует не только используемую технологию, но и основанную на ней систему машинного перевода, в которой возможности технологии воплощены с той или иной полнотой

Область ее функционального приложения

Перевод текста это сложное функциональное образование, в котором можно выделить: адаптивный перевод, адекватный перевод, аутентичный перевод, буквальный перевод, художественный перевод и т.д.

Возможности компьютерных технологий различны для каждого из указанных видов перевода в целом и разнятся между собой по эффективности и точности получаемого результата.

Число и характер языковых пар

Если в системе Белазар, которая работает с русским и белорусским языками возможно достижение хорошего результата перевода с использованием технологии Transfer практически на уровне алгоритмов прямого перевода, когда текст переводится слово в слово при помощи встроенного двуязычного словаря. При этом переводится только семантическое значение того или иного слова, синтаксические особенности в расчёт не принимаются. Собственно Transfer (при котором за единицу перевода принимается не отдельное слово, а сегмент текста, при этом анализируется не только семантика выражения, но и его синтаксис) дает хорошие результаты для родственных языков и, потенциально проигрывает статистическим методам в случае языков генеалогически отдаленных и отличающихся существенными функционально-морфологическими особенностями. Не случайно онлайновый переводчик Google, основанный на использовании statistical-based machine translation) осуществляет переводы между  европейскими языками и арабским языком, японским языком, китайским и корейским языками. В то же время  система  Promt по прежнему ограничивается только европейскими языками.

Трудоемкость использования

Оценка эффективности технологии должна учитывать такие параметры как . Статистические технологии перевода предельно просты для пользователя. Технология Transfer также может быть применена без учета настроек перевода, но, в таком случае, качество результата резко снижается. Для получение хорошего результата перевода пользователю необходимо выполнить ряд предварительных настроек подключив тем самым  Средства повышения качества перевода.

Эвристичность

Компьютерный перевод не только предоставляет инструментарий решения прикладных задач, но и открывает новые горизонты лингвистический исследований, формирует новое проблемное поле и меняет наше понимание языка. В этом контексте не только технология Transfer имеет существенные преимущества перед статистическими методами перевода, но непреходящим значением обладает и технология Interlingua, которая, несмотря на отсутствие реальных практических результатов в автоматизации переводной деятельности, является наиболее эвристичной для языкознания.

Каждая технология  на основе своих уникальных особенностей имеет области несомненного преимущества перед другими и, тем самым, все технологии нуждаются в развитии и совершенствовании.