20.01.2011
Компания
Яндекс открыл сервис автоматического перевода с русского на
украинский и наоборот.
В основе сервиса лежит
статистический машинный перевод.
16.03.2011
Компания
Яндекс дополнила сервис (beta-версия)
статистического автоматического перевода
(translate.yandex.ru)
возможностью работы с английским языком.
08.06.2012
Яндекс.Перевод выведен на
полнофункциональный режим.
К
английскому и украинскому языками, добавлены польский, турецкий и
немецкий. В сервисе
есть полноценный двусторонний англо-русский словарь.
10 .09.2014
Яндекс.Перевод
знает 44 языка!
|
Машинный перевод Яндекса
материал с
http://company.yandex.ru/technology/translation/
В 2009 году Яндекс начал переводить тексты
с помощью PROMT.
В начале 2011 года Яндекс внедрил собственную
систему машинного перевода.
Машинный перевод Яндекса —
статистический:
-
система находит
параллельные тексты по адресам документов (чаще всего такие адреса
различается только пометками, например, «en» или «us» для английской
версии и «ru» для русской) и сравнивает их.
-
для каждого изученного текста система строит
список уникальных признаков. Это могут быть редко используемые слова,
числа, специальные знаки, находящиеся в тексте в определённой
последовательности.
-
набрав достаточное количество
текстов с признаками, система ищет параллельные тексты ещё
и с их помощью — сравнивая признаки новых текстов и уже изученных.
В переводчике Яндекса модель перевода для каждой пары языков содержит
более миллиарда пар слов и словосочетаний,
что требует огромных вычислительных ресурсов. |
Моделирование перевода и языка
материал с
http://company.yandex.ru/technology/translation/
В системе машинного перевода Яндекса три основные
части:
-
модель перевода,
-
модель языка
-
декодер.
Модель перевода — это таблица, в которой для всех известных
системе слов и фраз на одном языке перечислены все возможные их переводы
на другой язык и указана вероятность этих переводов (для каждой пары
языков есть своя таблица).
Модель перевода создаётся в три этапа:
-
подбираются параллельные документы,
-
в них подбираются
пары
предложений,
-
в них подбираются
пары слов или словосочетаний.
Допустим, они были из текста про столицу Великобритании:
«London stands on the river Thames» — «Лондон
стоит на берегу реки Темзы»
«Crossing the river by the Tower Bridge you can
see the Tower of London» — «Пересекая реку по Тауэрскому мосту, можно
увидеть Тауэр»
Когда системе кроме первой пары предложений ничего
не известно, она считает, что «London», «stands» и каждое другое слово
этого английского предложения — равновероятный перевод слов «Лондон»,
«стоит», «на» и так далее.
Во второй паре предложений снова встречаются
слова «river»
и «река».
Соответственно, после обработки второй пары предложений и
пересчёта вероятности, система начнёт считать эту пару слов
более вероятным переводом друг друга. И так далее сравниваются
миллионы предложений в сотнях тысяч текстов.
Система сравнивает не только отдельные слова, но и
словосочетания из 2-5 слов, идущих подряд.
В китайском, например, нет пробелов, и
сочетание иероглифов 松鼠 может быть как одним словом, «белка», так и
двумя отдельными словами — «сосна» и «мышь».
Значит, прежде чем
переводить текст с китайского, его нужно сначала правильно разбить на
слова.
Здесь могла бы помочь морфология, например окончания, но их в
китайском языке тоже нет.
На помощь приходит статистика — анализируя
тексты, машина составляет представление о сочетаемости иероглифов и
использует эти знания в переводе.
Модель
языка
создается на основе миллионов различных
текстов на нужном языке и списка всех употребленных в них
слов и словосочетаний с указанием частоты их использования.
Декодер непосредственно осуществляет процесс перевода.
|
Процесс перевода
материал с
http://company.yandex.ru/technology/translation/
Декодер
непосредственно осуществляет процесс
перевода:
-
подбирая для каждого предложения исходного текста
все варианты
перевода,
-
сочетая между собой фразы из модели перевода,
-
сортируя
их по убыванию вероятности.
Например, пользователь захотел перевести
фразу «to be or not to be».
Допустим, из всех вариантов в модели
перевода максимальная вероятность получилась у сочетания «быть или не
бывает», сочетание «быть или не быть» оказалось с небольшим отрывом на
втором месте и так далее.
Все получившиеся варианты сочетаний декодер
оценивает с помощью модели языка.
В данном примере модель языка
подскажет декодеру, что «быть или не быть» употребляется чаще, чем «быть
или не бывает».
В итоге декодер выбирает предложение с наилучшим
сочетанием вероятности (с точки зрения модели перевода) и частоты
употребления (с точки зрения модели языка).
|
Перевод web-страниц
материал с
http://company.yandex.ru/technology/translation/
Система машинного перевода Яндекса переводит
не только произвольные тексты, но и веб-страницы.
Когда пользователь
вводит на сервисе translate.yandex.ru нужный
адрес, сначала у него открывается страница с оригинальным текстом.
Затем
браузер пользователя сам разбирает html-код страницы и отправляет текст
на сервер перевода по абзацам.
То есть текст из, например, английского,
на глазах у пользователя превращается в русский.
В отличие от систем,
которые загружают страницу сразу на сервер перевода, сервер системы Яндекса всегда получает тот же текст, что и пользователь (страница может
формироваться по-разному для пользователя и для сервера перевода,
например, если это страница социальной сети — сервер перевода в ней
не авторизован и ничего не сможет увидеть).
К тому же не нужно ждать
полного перевода текста — можно начинать читать первые абзацы, пока
остальные ещё не готовы. |
Развитие статистического перевода
материал с
http://company.yandex.ru/technology/translation/
Одно из достоинств статистического машинного
перевода в том, что он живёт вместе с языком.
То есть, если что-то
в языке меняется, например, люди начинают писать какое-нибудь слово
по-другому, система видит это, как только к ней попадают новые тексты.
И чем быстрее нововведение распространится в языке, тем быстрее оно
появится в моделях перевода и языка.
Чтобы улучшать качество перевода, систему
регулярно обновляют.
Каждое обновление сначала проходит проверку
(используется метрика для статистических машинных переводов — Bilingual
Evaluation Understudy).
Перевод специально подобранных текстов,
полученный системой, сравнивается с эталонным.
Если данные от вновь
изученных документов ухудшили качество перевода, то они отбраковываются. |
|