Technologies of machine translation |
Основные технологии
(модели)
машинного перевода
Rule-based machine translation (RBMT) — Машинный перевод на основе правил Statistical-based machine translation (SBMT) — Статистический машинный перевод Corpus-based machine translation (CBMT) — Машинный перевод на корпусах текстов
Neural-based machine translation (NBMT)
— Машинный перевод на
базе нейронных сетей Hybrid machine translation (HMT) — Гибридный машинный перевод (интеграция нескольких разных подходов машинного перевода)
Иногда выделяется Example-based machine translation (EBMT) — Машинный перевод на базе примеров.
EBMT основан на принципе параллельного двуязычного корпуса текстов, где каждое предложение дублируется на другом языке
и является частным простым случаем
CBMT.
Каждая из технологий имеет свои достоинства и ограничения. Каждая из технологий имеет область применения, для которой она является оптимальной. |
Технологии
(модели)
Rule-based
В
Rule-based machine translation (RBMT) можно
выделить следующие технологии (модели) перевода:
-
Transfer
(ориентированные на пару языков (входной, выходной), которые
преобразуют структуры входного языка в структуры выходного языка)
-
Transfer
consecutive
(последовательный анализ входного предложения в терминах
структур входного языка, преобразование этой структуры в структуру выходного
языка, синтез выходного предложения по полученной структуре.
Пример:
Belazar)
-
Transfer
hierarchical
(иерархический подход, разделяющий
процесс перевода на взаимосвязанные Transfer для
разных уровней анализа (лексических единиц, групп, уровень простых
предложений, сложных предложений. Примеры:
Promt, Systran,
Linguatec и др...)
-
Interlingua
(основанные на промежуточном языке описания смысла. Нет
работающих систем)
|
Transfer
Технология перевода
Transfer строится как композиция трех процессов:
-
анализ входного предложения в терминах
структур входного языка,
-
преобразование этой структуры в структуру выходного
языка (Transfer),
-
синтез выходного предложения по полученной структуре.
В реально действующих системах используется
-
стандартный лингвистический подход
последовательного Transfer (Белазар),
-
иерархический подход, разделяющий
процесс перевода на взаимосвязанные Transfer для
разных единиц анализа (Promt, SYSTRAN, Linguatec).
Transfer
hierarchical
В системе
transfer
hierarchical
выделяются
-
уровень лексических единиц:
слов и словосочетаний. И в случае входного, и в
случае выходного языка слово описывается как совокупность основы и окончания.
Это обеспечивает возможность, с одной стороны, распознавания входных слов и
анализа входной морфологии и, с другой стороны, обеспечивает удобный синтез
выходных слов по их морфологической информации, таких, как основа, тип
словоизменения и адрес окончания в массиве окончаний этого типа. Т.о., если
ввести правила преобразования входной морфологической информации в выходную
морфологическую информацию, осуществляется Transfer на
морфологическом уровне ),
уровень групп
существительных, прилагательных, наречий и
сложных глагольных форм. Этот уровень при анализе, основываясь на формальных
сетевых грамматиках, умеет соединять группы в синтаксические единицы, каждая из
которых характеризуется синтезированной структурной информацией и главным
элементом группы. По входной структуре формируется выходная группа как набор лексических единиц со значениями морфологических признаков, которые могут
наследоваться исходя из анализа группы ),
уровень простых
предложений
состоящих из синтаксических единиц, выполняется на основе фреймовых
предикатных структур, которые позволяют эффективно выполнять преобразования.
Глагол считается для простых предложений главным элементом, и его валентности
определяют заполнение соответствующего фрейма. Для каждого типа фреймов
существует некоторый закон преобразования в выходной фрейм и оформление
актантов)
уровень сложных предложений
требуется в случае формирования согласования времен и правильного перевода
союзов.
|
R ule-based
+ Statistical-based =
Hybrid-based
Светлана
Соколова
(председатель
совета директоров Промт):
вычисляющего»
перевод текста.
В этом определении самое важное слово — « вычисляющий»,
так как имеются фундаментальные различия между операциями извлечения и
подстановки существующего перевода из базы данных (эти операции характерны
для систем Translation memory и автоматических словарей) и операциями «вычисления»
перевода с помощью набора правил.
21.12.2010
PROMT презентовал гибридную систему перевода
PROMT DeepHybrid.
Светлана Соколова
(председатель
совета директоров Промт):
-
Модули перевода PROMT 9.0 относятся к системам rule-based, но
фокусом исследования «ПРОМТ» является гибридная модель модуля перевода,
которая объединяет преимущества rule-based-систем и статистических
(statistical-based)
систем перевода.
Rule-based-метод исходит из того, что для всего можно найти правило, и на
его основании произвести преобразование. Это очень похоже на работу человека:
сначала прочитать и проанализировать текст, исходя из правил языка, которые
лежат в его основе, затем выполнить перевод в соответствии с правилами того
языка, на который текст переводится. Это аналитический метод. В противовес
ему статистический метод основан не на анализе, а на подборе наиболее
адекватных вариантов из любого числа имеющихся. Но именно в различии методов
и есть возможность развития.
Основой статистических моделей являются многоязычные текстовые корпуса в
несколько миллиардов словоупотреблений и, в частности, текстовые корпуса
онлайн-сервисов компании. Кроме того, статистические модели включают в
себя параллельные двуязычные тематические корпуса, например, корпус
Европарламента в несколько десятков миллионов словоупотреблений.
PROMT DeepHybrid
вместо одного варианта перевода программа порождает множество переводов, число
которых у одного предложения, в зависимости от многозначности слов, конструкций,
и результатов статистической обработки, может доходить до нескольких сотен, а
вероятностная модель языка позволяет выбрать самый вероятный из предложенных
вариантов.
Вероятностная модель языка и компоненты системы, выполняющие статистическую
обработку, создаются с использованием корпусных и статистических методов на
основе тысяч текстов, миллионов слов и словосочетаний, объединенных определенной
тематикой. При этом даже на самых больших объемах текстов построение всех
необходимых средств занимает всего несколько часов.
Светлана Соколова
(председатель
совета директоров Промт):
-
Мы много работаем над развитием семантического компонента системы:
улучшением возможности понимания значения снова в зависимости от контекста,
в котором оно употреблено.
-
Например, возьмём английское слово “application”. Это и приложение на
компьютере, и заполнение некоей формы (например, анкеты на получение визы),
и просто аппликация (вид рукоделия).
Эта полисемантичность усугубляется ещё и тем, что одно и то же слово может
относиться к разным частям речи — быть и существительным, и глаголом, и
прилагательным…
-
Задача системы машинного перевода — выдать тот вариант, который
соответствует контексту, тематике, структуре фразы.
-
Мы сейчас занимаемся исследованиями в этой области для развития
семантического компонента наших систем.
|
Interlingua
Interlingua
- технология перевода на основе использования метаязыка описания структур как
входного, так и выходного языков.
В 1666 году в "Dissertatio de arte combinatoria" Готфрид
Вильгельм
Лейбниц опубликовал свою идею о "пазиграфии
или искусстве делаться понятным при помощи общих письменных знаков для всех
народов на земле, на каких бы разных языках они ни говорили, если только они
знакомы с этими общими знаками".
Идею
Interlingua,
как концепции машинного перевода,
выдвинул в
1949 году
Уоррен Уивер
(Warren Weaver).
Эффективных систем, основанной на технологии
Interlingua
нет,
хотя в теоретическом отношении она наиболее разработана.
Этапы перевода в
Interlingua:
Проблемы технологии
Interlingua:
Проекты использования
Interlingua:
-
UNL
(Universal Networking
Language)
-
Natural Language Compiler
(NLC)
-
Distribuita
Lingvo-Tradukado
05.12.2016
Google
Translate, использующий нейронную сеть для осуществления переводов стал
способен производить переводы с и на языки, для которых он не предназначался
изначально. К примеру, если систему обучили переводу между английским и
японским языками, и английским и корейским, то она свободно может выполнить
перевод между японским и корейским, но уже без использования английского
языка в качестве промежуточного. Исследователи компании Google считают,
система обрела такую возможность на сонвое модели "zero-shot translation",
разработав нечто вроде внутреннего представления переводимого текста на
искусственном языке, который получил название "интерлингва", является
универсальным, ориентирован на его использование в технологиях
автоматического перевода, абсолютно не годен для его использования людьми.
|
Universal Networking Language
UNL
(Universal
Networking Language,
универсальный сетевой язык) разрабатывается под эгидой Института передовых
исследований токийского университета Организации Объединенных Наций (UNU/IAS)
семнадцатью университетами и исследовательскими центрами из разных стран.
UNL
- это искусственный семантико-синтаксический язык-посредник, предназначенный для
описания, хранения и распространения информации в Сети в виде не зависящем от
какого-либо естественного языка, компьютерной платформы или операционной системы
и ее восстановления на любом естественном языке из числа поддерживаемых системой.
Система перевода на основе
UNL
должна автоматически преобразовывать исходный текст в его
UNL-представление,
а затем синтезировать из этого представления текст на нужном языке.
Назначение UNL
- представить смысл исходных естественно-языковых текстов га основе аппарата
записи смысловых концептов.
UW
(universal
word,
универсальное слово) - лексикон
UNL
на основе английского языка, пополняющийся из
KB
(knowledge
base,
базы знаний) -
особом перечне сочетаемости всевозможных смыслов друг с другом.
Уточнение
значений концептуальных элементов производится путем приписывания им
restriction labels
(ограничительных помет).
Пометы
описывают смысл UW и представляют собой пары вида (f > S), где f -
некоторое семантическое бинарное отношение, а S - иное, отличное от
данного (элементарное) UW, в отношении к которому находится
рассматриваемое UW.
Согласно последней спецификации языка UNL таких отношений около
сорока.
В их
числе:
-
гипонимическое отношение (icl - от англ. inclusion),
-
отношения синонимии (equ - англ. equal)
-
антонимии (ant - англ. antonym),
-
объекта (obj - англ. object)
-
агента (agt - англ. agent) действия и многие другие.
|
Distribuita
Lingvo-Tradukado
DLT (Distribuita
Lingvo-Tradukado)
- компьютерный проект распределенного перевода голландского предприятия BSO из Утрехта.
Цель
DLT:
компьютерная система перевода естественных языков, применяющая в
качестве посредника язык
эсперанто.
В проекте
DLT
перед отправкой все сообщения переводятся на один внутренний язык
(эсперанто) и в таком виде пересылаются по сети. При получении сообщения
вновь переводятся уже на язык получателя. Таким образом, каждый
пользователь отправляет и получает сообщения только на своем родном
языке. Такой системе требуется только 2n словарей для n языков (по два
для каждого языка - для прямого и обратного перевода), в то время, как
системе с прямой связью между языками необходимо иметь n(n-1) словарь
(для перевода с каждого языка на каждый).
Преимущества планового языка
эсперанто перед всеми другими в том, что он, с одной
стороны, представляет собой полноценное средство общения, проверенное на
практике, а с другой (в силу своей искусственности) легче поддается
формализации.
|
Natural Language Compiler:
Interlingua
Компания
ABBYY
разрабатывает
платформу перевода и анализа текстов
Natural Language Compiler
(NLC).
NLC
- система искусственного интеллекта для извлечения нужной информации из большого массива
документов на разных языках.
«NLC
не ищет
в тексте, а понимает текст на основе модели не зависящей от языка иерархии
понятий».
Приложения
NLC:
-
смысловой поиск по тексту,
-
извлечение фактов из неструктурированных текстов,
-
все виды перевода,
-
анализ
и классификация документов,
-
установления связей между объектами мониторинга,
-
распознавание речи
-
защита от несанкционированного использования
информации.
В
ABBYY подчеркивают, что со временем NLC может стать ее основным бизнесом.
Сейчас над проектом работают более 300 человек используя наработки в
ABBYY FineReader и Lingvo.
Здесь
Давид Ян о проекте
NLC
Здесь
Сергей
Андреев
(президент и генеральный директор группы компаний ABBYY)
о проекте
NLC
|
Statistical-based machine translation
Статистическая технология перевода (statistical-based
machine translation)
основана на статистическом вычислении вероятности совпадений и не использует лингвистические алгоритмы перевода.
Для
statistical-based
machine translation
необходимы огромные базы параллельных текстов, где попарно хранятся
N-граммы
(фразы из 2–3 слов и их переводы). В процессе
перевода система подбирает вариант перевода, основываясь на частоте совпадений,
то есть в конечном итоге будет подставлен вариант, имеющий наиболее высокий
процент совпадений.
В качестве примера часто
сравниваются две простые фразы на арабском (написано латиницей) - «rajl kabir» и «rajl tawil».
Если машина «знает», что первая фраза означает «крупный человек», а вторая -
«высокий человек», то статистика позволит машине понять, что «rajl» означает
«человек».
Основа
statistical-based
machine translation
заложена в конце 1980-х начале 1990-х годов - сотрудниками корпорации IBM.
На основе
statistical-based
machine translation
созданы действующие системы для многих языков:
-
статистический
переводчик
n.Fluent
от IBM
(проходит закрытое тестирование).
-
в Johns Hopkins University
создана для клингоского языка (язык Империи Клингон из сериала Star Trek).
Разработкой этого языка даже создан целый институт, в котором переведены
на этот язык Библия и «Гамлет».
-
система статистического перевода разработана
в Южно-калифорнийском университете США (University
of Southern California).
-
общедоступным статистическим
переводчиком
является
был
Google Translate.
В
2006 году
Сергей Брин,
один из основателей
Google,
попробовал из любопытства перевести сообщение одного корейского
пользователя и большого поклонника компании через лицензированный
переводческий сервис.
В результате он получил что-то вроде «Нарезанная
сырая рыба обувь он хочет. Google зеленый лук штука!».
Этот момент стал началом
разработки
Переводчика Google
- одной из самых совершенных на сегодняшний день технологий
машинного перевода.
ЗДЕСЬ
интервью с руководителем направления переводов Google
–
Чуи Тревеллой.
|
Google Translate
позволяет выполнять
двусторонний машинный перевод
для 64 языков (на 1.03.2012).
В настоящий момент
она значительно уступает системе Promt.
Слабым местом статистических
систем является отсутствие механизма анализа грамматических правил входного и
выходного языков.
20.08.2009
Сервис Google Translate при переводе на китайский и обратно —
на русский язык — превращает слово «Янукович» в слово «Ющенко».
Можно
зайти на сайт и выбрать перевод с русского на китайский
(традиционный), в окно перевода нужно вставить текст:
«Голосуй
за Януковича! Он ведет Украину в светлое будущее».
При обратном переводе пользователи получат следующий результат:
«Голосовать
в поддержку Виктора Ющенко! Он имеет блестящее будущее в Украине».
Ошибка
не имеет идеологической подоплеки. Система статистического машинного
перевода строится на сравнении параллельных текстов, опубликованных
в Интернете на разных языках и не знает, что, например, слова «Обама»
и «Obama» означают одно и то же. В работе с именами собственными
могут произойти сбои, когда несколько имен употребляются вместе.
Ранее Google Translate иногда переводил «Bush»
как «Путин», а «Putin» как «Буш», так как места, где по-английски
писалось «Bush meets Putin» переводились на русский как «Путин
встречает Буша». Подобные ошибки должны исправляться модераторами
сервиса и пользователями, осуществляющими перевод. |
Еще одна проблема состоит в том,
что для корректной работы такой системы необходимо иметь в базе не просто очень
большое, а невероятно большое количество параллельных N-грамм. Ведь чем больше
базы параллельных текстов, тем выше качество перевода. Для обработки такого
объема информации необходимо значительное количество компьютерных ресурсов, что
по силам только мощному корпоративному или интернет-серверу.
Таким образом, согласно прямой
оценке результата использования технологий компьютерного перевода несомненное
преимущество на сегодняшний день у технологии Transfer.
Вместе с тем, это в большей мере
оценка не столько самой технологии, сколько конкретной системы, в которой она
нашла свое воплощение. Оценка перспективности технологии должна быть дополнена
учетом уровня ее развитости и разработанности. Технологии статистического
перевода самые молодые и наименее разработанные, но имеющие большие перспективы.
14.10.2010
Сервис Google Translate
при переводе
с русского на английский
фразы
"Путин едет на желтой Калине" выдает "Putin goes to a yellow Mazda".
Смена фамилии и
цвета принципиально перевод не меняет. Уникальным является
вариант перевода на креольский язык, в котором Mazda заменяется на Subaru.
Пресс-служба Google
в России:
В Переводчике Google произошла техническая ошибка, специалисты
Google о ней уже знают и работают над тем, чтобы ее исправить. |
17.01.2008
Еврокомиссия предложила разработчикам систем компьютерного перевода бесплатный
доступ к миллиону переведенных предложений на 22 языках. Использование их
в контексте адекватных математических моделей языковых процессов призвано
существенно повысить качество разнообразных языковых инструментов, включая
программы проверки грамматики и орфографии, онлайновые словари и автоматические
переводчики. Предложения взяты из Acquis Communautaire (свода законов, который включает
договоры, директивы и постановления ЕС, решения Европейского суда).
Переводы этих предложений образуют часть «памяти переводов», используемой 1750
штатными переводчиками Комиссии, снабжены признаками предметной классификации и
в точности совпадают для каждого из 22 языков. Это делает их особенно полезными
для разработчиков систем статистического машинного перевода, которым нужно
собрать корпус из тысяч совпадающих фраз на разных языках, чтобы затем можно
было найти наиболее вероятный перевод любой заданной фразы.
30 .11.2010
Европейское патентное бюро и Google
подписали Меморандум о сотрудничестве (Googlе обязуется обеспечить автоматический перевод
50
млн
патентов с
официальных языков ЕС (английский, немецкий и французский) на 38
иностранных языков. Бюро предоставит Google доступ к
переводам патентов, сделанных ранее вручную, что позволит Googlee серьезно улучшить качество машинного
перевода). Без машинного
перевода Бюро не смогло организовать слаженную в рамках Евросоюза
(Испания и Италия требуют возможности подавать заявки на выдачу патентов на
родном языке).
01.03.2012
Google в партнерстве с Европейским патентным ведомством (ЕПВ) разработала
сервис «Patent Translate» - версию Google-переводчика, оптимизированную для типа языка,
используемого в патентной документации.
Сервис переводит патенты с французского, немецкого, испанского, итальянского,
португальского и шведского языков на английский и наоброт, таким образом
охватывая около 90% всех патентов, выданных в Европе. К концу 2014 года в переводчик добавятся все
28 языков стран-членов ЕПВ, а также с китайского, японского, корейского и
русского. Главная идея нового сервиса состоит в том, чтобы люди, которые собираются
запатентовать изобретение в Европе, могли увидеть, была ли ранее их идея уже
заявлена, даже если патент был подан в ЕПВ на другом языке |
Комплементарные MT
информационные технологии
Технологии компьютерного перевода сопряжены с другими информационными
технологиями, находятся с ними в системном единстве, согласовано
развиваются взаимообогащая друг друга.
Комплиментарность (complementarity) - сопряженность и
взаимодополнительность. |
Наиболее комплиментары технологиям компьютерного перевода
технологии:
-
информационного поиска
-
систем управления базами данных
-
статистического
анализа
-
фоносемантического анализа
-
машинной памяти
-
распознавания образов (в том числе системы оптического распознавания)
-
интеллектуального анализа
данных
(data mining)
-
речевого интерфейса (синтеза речи по тексту, распознавания речи, понимания
речи)
-
автогенерации текста
-
программирования
-
метаописания данных (семантической
разметки)
-
интеграции данных
-
Semantic Web technologies
На компьютерный перевод (в
гуманитарном аспекте) оказывают существенное влияние технологии:
-
экранного чтения
-
управления вниманием
|
Человеческий фактор
10.10.2009
Компания PROMT пользователям сервиса
Translate.Ru
Вся наша работа направлена на то, чтобы помочь вам понять другого
человека.
Для вас мы разрабатываем программы и совершенствуем их.
А потом пишем инструкции, которые помогут понять друг друга
вам и нашим
программам.
Составить
Инструкцию нас подвигло вот такое письмо от нашего пользователя:
I just tried your service. I was wondering why many of the words
still did not translate to English. Could it be that these are not
Russian words? Peter*
Source: Привет
дарагой Питер!! Спасибо тебе за писмо а рускам языке из катораво я
ничево не паняла патаму что перевыодчик пнревел какой-та бред!!!!
Result: Greetings
дарагой Peter!! Thanks you for писмо and рускам language from катораво I
ничево not паняла патаму that перевыодчик пнревел what delirium!!!!
В жалобах от пользователей на наш перевод мы не раз сталкивались с
некорректным исходным текстом (опечатки, нехватка знаков
препинания, и слишком разговорный стиль).
Все это очень сильно влияет на
результат перевода.
Программа-переводчик в отличие от
переводчика-человека не всегда может понять по контексту, что предложение
вопросительное, если оно без вопросительного знака, что «вернуться
дамой» означает вернуться дОмой, а не дАмой, а «роман льва
толстого» - это не любовная история толстого льва, а произведение
писателя Льва Толстого.
Искусственный интеллект во многом уступает человеческому, и так как Вы
обладаете вторым, то в Ваших силах облегчить работу первого.
Как это
сделать, можно прочитать
здесь.
|
Это не баг, это фича
28.01.2010
Google сообщил об устранении сбоя в сервисе
переводов, в результате которого фразы с упоминанием России и США, а также
лидеров этих государств, переводились
некорректно.
Ранее по
русскоязычной блогосфере разошлось сообщение о том, что при попытке перевести с
английского на русский фразу 'USA is to blame, Russia is to blame, Obama is to
blame, Medvedev is to blame' в окне переводчика Google выводился вариант "США не
виноваты, Россия виновата, Обама не виноват, Медведев виноват".
Алла Забровская
(директор по связям в общественностью Google в России): Ошибка в переводе стала результатом атаки на сервис, в ходе которой была подброшена "переводобомба". Google выражает признательность российским пользователям за помощь в
нахождении ошибки.
29.01.2010
в 10:45 минского времени произведена
kmp-проверка:
при переводе фразы 'Medvedev
is to blame, Obama is to blame' Google выдавал фразу "Медведев виноват, Обама в
этом виноват".
при переводе фразы 'Obama is not to
blame, Russia is not to blame, USA is not to blame, Medvedev is not to blame'
система предлагала вариант "Обама не виноват, Россия не виновата, США не
виноваты, что Медведев не виноват".
при переводе фразы
Obama is not to
blame, Belarus is not to blame, USA is
not to blame, Lukaschenko is not to
blame'
система предлагала вариант 'Обама
не виноват, и Беларусь не виновата, США
не виноваты, Lukaschenko не виноват'
29.01.2010
Виноват или не
виноват. Разбор полетов.
http://googlerussiablog.blogspot.com/2010/01/blog-post_29.html
Михаил Дайчик,
Менеджер Технических Программ Google.
Недавно была
обнаружена ошибка в Переводчике Google,
из-за которой однотипные фразы " is
to blame" переводились одним из трех
случайных вариантов: " виноват", " в
этом виноват" и, что самое неприятное,
" не виноват".
Эту ошибку, в частности, можно было
заметить при переводе следующих фраз:
-
"USA is to blame" - "США не
виновата"
-
"Russia is to blame" - "Россия
виновата"
-
"Google is to blame" - "Google
не виноват"
-
"Italy is to blame" - "Италия
виновата"
Для того чтобы объяснить, откуда
могла появиться эта ошибка, следует
коротко рассказать о том, как работает
Переводчик Google.
Обычные переводчики, как правило,
преобразуют грамматические конструкции
из одного языка в другой исходя из
жестко прописанных правил.
Примером такого правила может быть
"если
в оригинале использовалась временная
форма present perfect, то в русском
переводе нужно использовать
соответствующую форму для этого глагола".
Эти правила могут быть сложнее или
проще. Могут использоваться правила,
распознающие сложные конструкции и
меняющие порядок слов в конечном тексте.
Но в любом случае в традиционных
переводчиках их пишут вручную.
У этого подхода есть свои
преимущества и недостатки, к которым, в
частности, можно отнести нечеловеческую
сложность работы, требующейся для того,
чтобы покрыть такими правилами все
разнообразие языка.
Переводчик Google устроен
принципиально иначе.
У нас есть набор статистических
эвристик, например, "эта
последовательность слов обычно
переводится так",
который дополнен рядом вспомогательных
правил, обобщающих группы слов. Этих
правил больше, чем можно найти в
традиционных словарях, поэтому они не
проходят ручную обработку, а
генерируются автоматически.
Изначально для обучения Переводчика
Google мы взяли набор текстов,
переведенных максимально близко к
оригиналу. В дальнейшем для
усовершенствования правил мы дали
пользователям возможность присылать нам
переводы тех фраз, которые Переводчик
перевел некорректно.
Откуда появились правила, по
которым осуществлялся перевод "США не
виновата", пока еще до конца не ясно, но
мы предполагаем, что из предложений
пользователей.
В любом случае, ошибка была
устранена в кратчайшие сроки и, надеюсь,
не повторится.
Хронология событий:
-
16:28 Я (Михаил Дайчик) получил
сообщение о баге.
-
16:57 Баг передан команде
поддержки. Так как команда поддержки
находится в другом часовом поясе, у
них была глубокая ночь.
-
17:32 Баг эскалирован, для чего
разбудили инженера из команды
технической поддержки Переводчика.
-
19:18 Фикс готов, тестирование
началось.
-
19:39 Патч начали выкатывать на
датацентры.
-
20:10 Изменения вступили в силу
во всем мире.
escalate 1)
подниматься на эскалаторе; перемещаться
на эскалаторе 2) а) обострять (ситуацию,
конфликт) to escalate confrontation —
углублять конфронтацию б) обостряться (о
конфликте, положении) ; перерастать,
усугубляться The local war escalated
into a major conflict — Локальная война
переросла в более широкий конфликт.
Эскалировать
- поднять вопрос или проблему на уровень
выше. Используется в случае, когда
решение не может быть принято на текущем
уровне (например, на уровне проектной
команды), но может быть принято выше
(например, менеджером проекта или далее
- управляющим комитетом проекта и так
далее).
Баг (bug —
жук) — жаргонное слово, обычно
обозначающее ошибку в программе или
системе, которая выдает неожиданный или
неправильный результат.
«Это
не баг, это фича»
следует понимать буквально: это не
ошибка, это предусмотренная особенность
работы программы.
Патч (patch —
заплатка) — автоматизированное отдельно
поставляемое программное средство,
используемое для устранения проблем
в программном обеспечении или изменения
его функционала, а также сам процесс
установки патча ("пропатчивание").
ыдает предложение на арабском языке «Я буду уважать
президента Хосни Мубарака».
Джейсон
Фрейденфельдс
(представитель Google):
Это сбой в алгоритме.
Программа полностью автоматизирована и самообучается,
анализируя, как переводятся на другие языки слова и фразы в
текстах, размещенных в Интернете. Чаще всего ссылки на «президента Египта»
приводят к фразе с упоминанием Хосни
Мубарака. При этом качество перевода зависит не столько от
распространенности языка в мире, сколько от того, насколько
он представлен в Интернете. Что касается английского и испанского языка, то в сети есть
огромная масса переводов, поэтому качество перевода правильно построенных фраз
довольно высокое». Кроме того, имеет значение
разница в структурах между двумя языками.
Во французском и испанском можно переставлять местами
прилагательные и существительные. Этот нюанс
машина-переводчик может усвоить без особых проблем. Но если
при переводе нужно перенести слово в конец предложения, то
научиться этому системе гораздо сложнее.
Для таких языков, как арабский, переводчику Google
потребуется некоторое время, чтобы уяснить изменения,
происходящие в реальном мире. Люди воспринимают речь, понимая значение слов. Мы знаем,
кто такой президент, и что его как-то зовут. Переводчик Google не воспринимает семантику языка.
Как только нам удастся понять, на чем
сбивается программа, они не будут менять эту единственную
фразу, а попытаются усовершенствовать весь алгоритм.
26.08.2015
После массового возмущения
интернет-пользователей из-за
некорректного перевода на русский язык
словосочетания "Революція Гідності"
Google изменил работу переводчика. Ранее
сервис переводил определения "Революція
Гідності" на русский как "политический
кризис на Украине". После массового
обсуждения "сператистского" перевода в
Интернете переводчик изменил его на
"Революцию Достоинства".
05.02.2017
Результат посещения официального сайта
Белого дома США (https://www.whitehouse.gov)
с помощью браузера, в котором установлен
автопереводчик:
Оригинальные заголовки новостей:
Автоперевод:
|
Оценка эффективности
технологии перевода
Оценка технологии должна быть
должна учитывать:
|
развитость технологии |
Получаемый
результат характеризует не только используемую технологию, но и основанную на
ней систему машинного перевода, в которой возможности технологии воплощены с той
или иной полнотой |
область ее функционального приложения |
Перевод текста это сложное функциональное образование, в котором можно выделить:
адаптивный перевод, адекватный перевод, аутентичный перевод, буквальный перевод,
художественный перевод и т.д.
Возможности компьютерных технологий различны для
каждого из указанных видов перевода в целом и разнятся между собой по
эффективности и точности получаемого результата.
|
число и характер языковых пар |
Если в системе Белазар, которая работает с русским и белорусским языками возможно достижение
хорошего результата перевода с использованием технологии Transfer практически на
уровне алгоритмов прямого перевода, когда текст переводится слово в слово при
помощи встроенного двуязычного словаря. При этом переводится только
семантическое значение того или иного слова, синтаксические особенности в расчёт
не принимаются. Собственно Transfer (при котором за единицу перевода принимается
не отдельное слово, а сегмент текста, при этом анализируется не только семантика
выражения, но и его синтаксис) дает хорошие результаты для родственных языков и,
потенциально проигрывает статистическим методам в случае языков генеалогически
отдаленных и отличающихся существенными функционально-морфологическими
особенностями. Не случайно онлайновый переводчик Google, основанный на
использовании statistical-based machine translation) осуществляет переводы между
европейскими языками и арабским языком, японским языком, китайским и корейским
языками. В то же время система Promt по прежнему ограничивается только
европейскими языками. |
трудоемкость использования |
Оценка эффективности технологии
должна учитывать такие параметры как . Статистические
технологии перевода предельно просты для пользователя. Технология Transfer также
может быть применена без учета настроек перевода, но, в таком случае, качество
результата резко снижается. Для получение хорошего результата перевода
пользователю необходимо выполнить ряд предварительных настроек подключив тем
самым Средства повышения качества перевода.
|
эвристичность |
Компьютерный перевод не только предоставляет инструментарий
решения прикладных задач, но и открывает новые горизонты лингвистический
исследований, формирует новое проблемное поле и меняет наше понимание языка. В этом контексте не только технология Transfer
имеет существенные преимущества перед статистическими методами перевода, но
непреходящим значением обладает и технология Interlingua, которая, несмотря на
отсутствие реальных практических результатов в автоматизации переводной
деятельности, является наиболее эвристичной для языкознания. |
К аждая
технология на основе своих уникальных особенностей имеет области
несомненного преимущества перед другими и, тем самым, все технологии
нуждаются в развитии и совершенствовании. |
|