Перевод от Yandex

 

 

 

20.01.2011 Компания Яндекс открыл сервис автоматического перевода с русского на украинский и наоборот. В основе сервиса лежит статистический машинный перевод.

16.03.2011 Компания Яндекс дополнила сервис (beta-версия) статистического автоматического перевода (translate.yandex.ru) возможностью работы с английским языком.

08.06.2012 Яндекс.Перевод выведен на полнофункциональный режим. К английскому и украинскому языками, добавлены польский, турецкий и немецкий. В сервисе есть полноценный двусторонний англо-русский словарь.

10.09.2014 Яндекс.Перевод знает 44 языка!

 

 

 

Машинный перевод Яндекса

материал с http://company.yandex.ru/technology/translation/

В 2009 году Яндекс начал переводить тексты с помощью PROMT.

В начале 2011 года Яндекс внедрил собственную систему машинного перевода.

Машинный перевод Яндекса — статистический:

  • система находит параллельные тексты по адресам документов (чаще всего такие адреса различается только пометками, например, «en» или «us» для английской версии и «ru» для русской) и сравнивает их.

  • для каждого изученного текста система строит список уникальных признаков. Это могут быть редко используемые слова, числа, специальные знаки, находящиеся в тексте в определённой последовательности.

  • набрав достаточное количество текстов с признаками, система ищет параллельные тексты ещё и с их помощью — сравнивая признаки новых текстов и уже изученных.

В переводчике Яндекса модель перевода для каждой пары языков содержит более миллиарда пар слов и словосочетаний, что требует огромных вычислительных ресурсов.

 

 

 

 

Моделирование перевода и языка

материал с http://company.yandex.ru/technology/translation/

В системе машинного перевода Яндекса три основные части:

  • модель перевода,

  • модель языка

  • декодер.

Модель перевода — это таблица, в которой для всех известных системе слов и фраз на одном языке перечислены все возможные их переводы на другой язык и указана вероятность этих переводов (для каждой пары языков есть своя таблица).

Модель перевода создаётся в три этапа:

  • подбираются параллельные документы,

  • в них подбираются  пары предложений,

  • в них подбираются  пары слов или словосочетаний.

Допустим, они были из текста про столицу Великобритании:

«London stands on the river Thames» — «Лондон стоит на берегу реки Темзы»

«Crossing the river by the Tower Bridge you can see the Tower of London» — «Пересекая реку по Тауэрскому мосту, можно увидеть Тауэр»

Когда системе кроме первой пары предложений ничего не известно, она считает, что «London», «stands» и каждое другое слово этого английского предложения — равновероятный перевод слов «Лондон», «стоит», «на» и так далее.

Во второй паре предложений снова встречаются слова «river» и «река». Соответственно, после обработки второй пары предложений и пересчёта вероятности, система начнёт считать эту пару слов более вероятным переводом друг друга. И так далее сравниваются миллионы предложений в сотнях тысяч текстов.

Система сравнивает не только отдельные слова, но и словосочетания из 2-5 слов, идущих подряд.

В китайском, например, нет пробелов, и сочетание иероглифов 松鼠 может быть как одним словом, «белка», так и двумя отдельными словами — «сосна» и «мышь».

Значит, прежде чем переводить текст с китайского, его нужно сначала правильно разбить на слова.

Здесь могла бы помочь морфология, например окончания, но их в китайском языке тоже нет.

 На помощь приходит статистика — анализируя тексты, машина составляет представление о сочетаемости иероглифов и использует эти знания в переводе.

Модель языка создается на основе миллионов различных текстов на нужном языке и списка всех употребленных в них слов и словосочетаний с указанием частоты их использования.

Декодер непосредственно осуществляет процесс перевода.

 

 

 

 

Процесс перевода

материал с http://company.yandex.ru/technology/translation/

Декодер непосредственно осуществляет процесс перевода:

  • подбирая для каждого предложения исходного текста все варианты перевода,

  • сочетая между собой фразы из модели перевода,

  • сортируя их по убыванию вероятности.

Например, пользователь захотел перевести фразу «to be or not to be».

Допустим, из всех вариантов в модели перевода максимальная вероятность получилась у сочетания «быть или не бывает», сочетание «быть или не быть» оказалось с небольшим отрывом на втором месте и так далее.

Все получившиеся варианты сочетаний декодер оценивает с помощью модели языка.

В данном примере модель языка подскажет декодеру, что «быть или не быть» употребляется чаще, чем «быть или не бывает».

В итоге декодер выбирает предложение с наилучшим сочетанием вероятности (с точки зрения модели перевода) и частоты употребления (с точки зрения модели языка).

 

 

 

Перевод web-страниц

материал с http://company.yandex.ru/technology/translation/

Система машинного перевода Яндекса переводит не только произвольные тексты, но и веб-страницы.

Когда пользователь вводит на сервисе translate.yandex.ru нужный адрес, сначала у него открывается страница с оригинальным текстом.

Затем браузер пользователя сам разбирает html-код страницы и отправляет текст на сервер перевода по абзацам.

То есть текст из, например, английского, на глазах у пользователя превращается в русский.

В отличие от систем, которые загружают страницу сразу на сервер перевода, сервер системы Яндекса всегда получает тот же текст, что и пользователь (страница может формироваться по-разному для пользователя и для сервера перевода, например, если это страница социальной сети — сервер перевода в ней не авторизован и ничего не сможет увидеть).

К тому же не нужно ждать полного перевода текста — можно начинать читать первые абзацы, пока остальные ещё не готовы.

 

 

 

Развитие статистического перевода

материал с http://company.yandex.ru/technology/translation/

Одно из достоинств статистического машинного перевода в том, что он живёт вместе с языком.

То есть, если что-то в языке меняется, например, люди начинают писать какое-нибудь слово по-другому, система видит это, как только к ней попадают новые тексты.

И чем быстрее нововведение распространится в языке, тем быстрее оно появится в моделях перевода и языка.

Чтобы улучшать качество перевода, систему регулярно обновляют.

Каждое обновление сначала проходит проверку (используется метрика для статистических машинных переводов — Bilingual Evaluation Understudy).

Перевод специально подобранных текстов, полученный системой, сравнивается с эталонным.

Если данные от вновь изученных документов ухудшили качество перевода, то они отбраковываются.