Программа
для перевода — это как автомобиль: у вас может быть самый технически
навороченный автомобиль в мире, но если вы не знаете, куда ехать, вы всего лишь
гораздо быстрее приедете в никуда.
Эстель Ренар (Estelle Renard) из
выступления
на VII международной конференции Languages & the Media,
2010
С
истемы машинного
перевода
Системы машинного
перевода(machine translation systems)
- программы, осуществляющие автоматизированный перевод.
Системы машинного перевода по степени автоматизации
подразделяют на три категории:
полностью автоматический перевод
(дело будущего,
требуют сильного ИИ и решения проблем машинного
понимания);
автоматизированный машинный перевод при участии человека
(Machine translation
systems);
перевод, осуществляемый человеком с использованием
компьютера
(Тranslation memory).
kmp-примечание:
Настройка machine translation systems
осуществляется именно человеком.
Параметры machine translation
systems
качество перевода.
направления перевода
(поддержка языковых пар)
удобство интерфейса,
лёгкость интеграции программы с другими средствами обработки документов,
выбор тематики,
пополнения словаря.
23.03.2010
Светлана Соколова
(ген.
директор «ПРОМТ»):
Машинный перевод может использоваться для самых разных целей:
общение,
получение информации из текстов на иностранном языке,
перевод текста с целью публикации.
И для различных целей нужны совершенно разные продукты, с разным интерфейсом и
разными возможностями настройки.
SYSTRANET
SYSTRAN Personal
SYSTRAN PROfessional Standard
SYSTRAN PROfessional Premium
SYSTRAN Enterprise
TRANSLATION ONLINE SYSTRAN WEB PAGE TRANSLATOR
SYSTRAN -
ведущий поставщик на рынке программных продуктов для перевода
(настольных компьютеров, решений для предприятий и сети Интернет), обеспечивающих
поддержку 52 комбинаций языков.
Компанию
SYSTRAN
создал Peter
Toma
в 1968 году.
Основной переводчик русских научно-технических документов под эгидой ВВС США.
В 1986 году продана семье Гашо (Париж).
Штаб-квартира в Париже, подразделение в Сан-Диего. Более 50% рынка
систем перевода. Более 100 сотрудников
(50 в Париже, 50 в филиале Сан-Диего).
Гендиректор
Dimitris Sabatakakis.
Руководитель отдела исследований
Jean Senellart. Доходы
сокращаются на протяжении последних нескольких лет.
15.02.2013 Консолидированные продажи SYSTRAN составила до 10,18 млн. евро в 2012 году, снизившись на
3,8% по сравнению с 2011 годом. .
Система
SYSTRAN показывает хорошие
результаты относительно других
переводчиков, а по основным парам
перевода она является лидером.
Настольные
системы
SYSTRAN
7(2010
год) для Windows, Linux,
Unix, стоимостью от 80 до 1000 евро.
Ядро и
оболочка системы написаны на языке С++,
лингвистические движки на С , внутренние инструменты на Рerl.
Движки были написаны в цифровом коде в 60-х
годах. В 70-х их переписали в ассемблере. В начале 90-х
на С. С тех пор их боятся, и никто не трогает. Код необычайно уязвим.
Онлайн-сервисы Microsoft и Yahoo! по
переводу работают на платформе Systran.
Заказчики
продуктов SYSTRAN:
большие корпорации и государственные органы (70%).
57,1%
дохода поступает из 10 основных клиентов. Доходы
сокращаются на протяжении последних нескольких лет.
интернет-компании (28%)
обычные пользователи
(2%)
Перспективы
SYSTRAN:
система SYSTRAN
GALE (Global Autonomous Language Exploitation) - полное разрешение
проблемы распознавания речи и
автоматического перевода, для чего требуется
1 млрд $ на 10 лет.
20.12.2010 Еврокомиссия
выплатит 12 млн евро компании Systran за нарушение ее авторских прав.
Комиссия использовала программное обеспечение EC-Systran Unix с 1997 по
2002 годы.
В 2003 году Еврокомиссия провела тендер на поставку
обновленных систем машинной трансляции с требованием
поддержки ПО EC-Systran Unix,
код которого на тот момент был закрыт.
Украинская
компания
Трайдент Софтвер
- основана в 1998 году, разработала системы
компьютерного перевода - Language Master, L-Master 98 и Pragma.
22.02.2010Вышла новая
версия Pragma 6.x.
Имя пакета Pragma зависит от включаемых языковых модулей. Последняя цифра имени - количество языков. Например, Pragma 6.3 - включает три языковых модуля.
Наличие словарей спецтерминов отображается в названии программы в виде плюса. Pragma 6.x+ или Pragma 6.x Plus.
Pragma 6.x включает
8 языков - английский, немецкий, французский, латышский, русский, украинский, польский и казахский. Перевод возможен для всех комбинаций языков.
Pragma6.x имеет модульную организацию языков:
Базовый модуль (обязательный)
Английский модуль
Немецкий модуль
Французский модуль
Латышский модуль
Русский модуль
Украинский модуль
Словарь спецтерминов
Польский модуль
Казахский модуль
Словари, грамматики, орфография и вспомогательные файлы упакованы в отдельные модули для каждого языка. Этот метод позволяет легко манипулировать программной конфигурацией для различных практических потребностей.
Все комбинации направлений перевода взаимозаменяемы, кроме англо-русской пары. Эта пара - главный мост между романо-германской и славянской группами. Так украино-английский перевод выполняется частично напрямую, но в большей части по русско-английскому направлению. Такой подход позволяет уменьшить количество связей для перевода между различными языками.
Проблема многозначности слов решена
в Pragma двумя способами:
специальная маркировка слов по тематической направленности (около сотни тематик).
объединение слов в фразы, которые имеют высший приоритет во время перевода.
В Pragma
нет отдельных тематических словарей. В главном переводном словаре отмечены некоторые многозначные слова. Имеется только дополнительный (необязательный) словарь специальной терминологии, где собраны слова из соответствующих областей, как например медицина, химия, математика, нефтегазовая, и т.п. (всего до 50 тематик).
Пользователь имеет возможность вести словарь пользователя, который имеет самый высокий приоритет.
Pragma 6.x позволяет переводить документы по одному щелчку мыши, добавляя в
известные приложения
(MS Office, OpenOffice/StarOffice, FireFox, Internet Explorer и др.) функцию перевода.
Пользователми
Pragma: Верховная Рада Украины, Секретариат Президента Украины, Кабинет Министров, Национальный банк и большинство других правительственных учреждений в Украине,
коммерческие компании, все общеобразовательные школы Украины, частные лица в Украине и по всему миру.
Первая версия системы фразеологического машинного перевода
RETRANS
(Russian - English TRANslation System
) была создана в 1993 г . как
реализация концепции
профессора
Белоногова Герольда Георгиевича/
Белоногов Г. Г.
Впервые в печати мысль о том, что перевод должен быть
семантико-синтаксическим, преимущественно фразеологическим, была мною
сформулирована в предисловии к книге Д. Жукова "Мы - переводчики" еще в
1975 году...
kmpрекомендует
книгу
Д. Жукова "Мы - переводчики" (она
здесь)
RETRANS поставлялась в ведущие центры научно-технической информации
СССР (ВИНИТИ, ВНТИЦентр и др.), в Миннауки, в Минобороны,
в коммерческие организации.
Хорошилов
А. А.
(ген. директор RETRANS Technologies): Главный тезис
концепции Белоноговав том, что
наименования понятий в текстах чаще всего обозначаются не отдельными
словами, а словосочетаниями, и при переводе текстов с одного языка на
другой в качестве основных единиц смысла следует использоватьне отдельные слова, а фразеологические сочетания, выражающие
понятия, отношения между понятиями и типовые ситуации. Отдельные слова могут использоваться
только в тех случаях, когда перевод не
удается выполнить с помощью фразеологических словосочетаний.
В 2002
Юрию Сокову
удалось найти инвестиции и существенно переработать
лингвистическое ядро системы (полностью были интегрированы
подсистемы перевода русско-английского и англо-русского, добавлены
пользовательский словарь и возможности технологии Translation Memory).
17.12.2002
Белоногов Г. Г.:
Если
брать тексты разных тематик, то в среднем неопознанных слов у Promt
в 5 раз больше, чем у Retrans Vista, а грубых
искажений — в три. Мы же отстаем в грамматике, что
можно легко подправить за полгода, в отличие от словарей.
Там, чтобы улучшить покрытие всего на 1%,
надо как минимум удвоить словарь.
Если бы были созданы минимальные
условия для работы нашего научного коллектива, то максимум через
два-три года научно-технический перевод в лингвистическом
плане был бы на очень высоком уровне. Но это может быть только
семантико-синтаксический, преимущественно фразеологический перевод.
Что касается удожественных текстов, то я не
исключено, что когда-нибудь за переводчиком останется только функция
редактирования и правки. Даже при переводе поэзии, хотяздесь без последующей обработки, конечно же, обойтись нельзя.
C
2009 г. система фразеологического машинного перевода
RETRANS
стала распространяться RETRANS Technologies под торговым знаком
MetaFraz:
7 000 000 фразеологических едениц.
4 встроенных словаря (Общая лексика, Политика и пресса, Бизнес и
экономика, Техника и транспорт).
Интеграция с Microsoft Word и Internet Explorer.
Возможность создавать и подключать собственные словари.
МетаФраз используют
(?):
Администрация Президента РФ,
Федеральная налоговая служба,
Совет Федерации РФ.
Между прочим
(06.01.2015):
Невероятно устаревшую
технику обнаружила в Белом Доме новый технологический
директор Меган Смит. Компьютерная система администрации
призедента США до сих пор использует уже основательно
всеми забытые пластиковые дискеты. В 2015г.
проблематично не только купить компьютер, поддерживающий
эту старинную технологию, но и приобрести сами дискеты.
Их активно использовали в 80-х и 90-х, им на смену
пришли USB-устройства. Помимо дискет, основными
носителями для сотрудников Белого Дома остаются лазерные
диски CD-ROM.
Разработан
ряд модификаций системы
MetaFraz,
отличающихся набором функциональных возможностей, составом словарей и
возможностями работы с пользователями:
Лингвистический процессор
ЭТАП-3 – это компьютерная система,
анализа текстов на естественных языках и построения таких текстов по исходному смысловому заданию.
ЭТАП-3
разработан под руководством
Юрия Дерениковича Апресяна в
Лаборатории компьютерной лингвистики (http://cl.iitp.ru)
Институа проблем передачи информации им. А.А.Харкевича Российской
Академии наук (Московская
семантическая школа).
На основе
ЭТАП-3 осуществлены четыре прикладные разработки:
умеет переводить тексты с русского языка на английский и с английского на русский.
располагает словарями этих языков, достигающими 100 тысяч лексических единиц каждый,
основана на нескольких массивах правил анализа, синтеза и перевода текстов.
ЭТАП-3
опирается на целостную лингвистическую теорию «Смысл
<=>
Текст» И.А.
Мельчука
в контексте разработки
полной действующей формальной модели языка, которая
должна описывать языковое поведение человека, т.е. его способность производить
тексты на естественном языке и понимать их.
TRANSLATOR XT2
TRIO
27.03.2010
Translator XT2 Trio - лучший
польско-русский, польско-немецкий, польско-французский словарь и контекстный
переводчик от польской компании Techland
(ведущего в Польше производителя
систем машинного перевода).
Translator XT2 Trio – пятое поколение
смстемы, основанной
на одновременном
использовании анализа структуры предложений, анализе семантики выражений и алгоритмов переноса грамматики.
Translator XT2 Trio
- использует сразу два движка,
содержащих технологию «InstantTransfer» (основана на особом механизме реорганизации традиционных этапов переработки языка),
которые могут работать, либо в
кооперативном режиме, либо предлагать пользователю альтернативные варианты
перевода.
Translator XT2 Trio
интегрируется в Microsoft Word, Excel, PowerPoint, Outlook, Windows Mail,
OpenOffice.org Writer, Calc, Impress, Internet Explorer, Firefox, почтовый клиент Thunderbird.
25.11.2009
Система автоматического перевода IBM
n.Fluent:
призвана в фоновом режиме переводить документы, веб-страницы и
реплики в программах IM.
может использоваться с компьютеров и
смартфонов.
предназначена для переводов на 10 языков мира: английский,
китайский, корейский, японский, французский, итальянский, русский, испанский,
португальский и арабский.
за время тестирования 400 000 сотрудниками IBM
из 170 стран мираперевела более 400 млн слов.
использует специальные
алгоритмы, полученные при анализе огромных объемов текстовой информации, а
также сопоставления оригиналов с материалами, сделанными профессиональными
переводчиками.
Применение
краудсорсинга
- участия в разработке массы добровольных
помощников — позволило резко ускорить наполнение базы данных программы.
Летом 2009 года за 2 недели в нее было добавлено 1,3 млн слов. Корпорация
организует еще несколько подобных массовых проектов для расширения базы и
повышения качества перевода.
23.04.2010
IBM и Lionbridge
(одна из крупнейших в мире переводческих компаний) объявили о
стратегическом партнерстве в сфере лингвистических технологий.IBM - разработчик перспективного
движка статистического перевода.
В базах данных Lionbridge
– десятки миллиардов языковых пар,
созданных профессиональными переводчиками,
вычитанных редакторами, рассортированных
по отраслям и тематикам.
Беспроводные наушники-переводчик
Pilot
нью-йоркского стартапа Waverly Labs. Для перевода устройству
необходимо приложение на смартфоне, которое работает без подключения к интернету.
Наушники-переводчики продаются в комплекте из двух пар, так как
устройство функционирует, только если его используют оба участникам
диалога. Pilot поддерживает английский, французский, испанский
и итальянский языки (сайт
+ видео на
канале...).
Предзаказ с 25 мая 2017, $129-179.
04.03.2017
На Mobile World Congress
в Барселонепредставлен
Mymanu Clik
британскойя компании Mymanu.
Беспроводные наушники Mymanu
Clik переводят произносимую речь с отставанием в одно-два предложения.
Устройство работает по Bluetooth в связке со смартфоном и переводит
с 37 языков, включая японский, русский, испанский, иврит и несколько
вариаций английского языка. Mymanu Clik также воспроизводит музыку
и звонки и присылает оповещения мобильных приложений. После полной
подзарядки устройство работает шесть часов.
Для ориентации среди разноязычных
информационных материалов виртуального мира
Second Life
лучшими помощниками резидентам становятся программы-переводчики:
X-Lang,
AF Translator Pro,
Translator Box,
Q-Translator,
Ferd’s Free
Translator,
Simbolic.
ЗДЕСЬ материал о языковом образовании в
Second Life
(и не только)
Компьютерный
комплекс жестовой речи
11.05.2010
Новосибирские учёные разработали
компьютерный сурдопереводчик, который переводит сказанные в
микрофон слова в текст, а затем в жестэкранного
манекена.
В его
арсенале - 4 000 слов.
На каждое снят видеожет. Если слово трудное,
система пытается подобрать синоним. Если такого нет, то электронный
сурдопереводчик разобьет его на слоги и буквы.
Текст можно вводить и с клавиатуры.
Михаил Гриф
(проф. каф. автоматизированных
систем управления НГТУ):
Для показа видеоперевода жестов человек должен
выглядеть одинаково, в одной одежде, с одинаковой прической, но если мы
дополняем переводчик новыми словами, этого добиться трудно.
Разработкой заинтересовались врачи,
которым сложно поставить
диагноз глухонемому больному.
VirtualSecrets
30.08.2007
Джо Маккормак
из Университета передовых технологий создал систему электронного перевода
VirtualSecrets
с английского в египетские иероглифы и клинопись (http://www.virtualsecrets.com)
Можно
выбрать ассирийскую и вавилонскую клинопись, египетские иероглифы и
шумерскую клинопись. Достаточно ввести одно или
несколько слов и нажать на кнопку перевода. и система отобразит ее частичный или полный перевод
на древнем языке.
Расшифровать угаритский
30.06.2010
Реджина Барзилай
(Regina Barzilay) с коллегами из Массачусетского технологического института
разработала компьютерную программу, которая расшифровала мертвый
язык семитской семьи - угаритский - за 2 часа.
Реджина
Барзилай:
Наша
программа, даже если и не расшифрует древние письменности, поможет
разработчикам автоматических переводчиков.
Программа
в поисках общих корнейсравнивала слова на угаритском со словами из иврита.
Исследователи исходили из допущения, что между разноуровневыми
элементами родственных языков можно установить однозначные связи -
как на уровне знаков алфавита, так и на уровне частей слов (морфем).
Угаритский уже был расшифрован: иначе исследователи не смогли бы
проверить точность работы программы. Для 29 из 30 его букв машина
смогла верно найти соответствия в иврите. Примерно треть угаритских
слов имеют "родственников" в иврите; из них программа верно
определила 60%.
Толчком к работе для массачусетских исследователей стала книга "Потерянные
языки"
Эндрю Робинсона
(Andrew Robinson), в которой он утверждает, что машины не обладают
тем сплавом логики и интуиции, которые необходимы археологам и
лингвистам для успешной расшифровки надписей на мертвых языках.
Переводчик детского плача
31.01.2010
Apple продает приложение
для iPhone?
способное «переводить» плач маленького ребенка.
Независимо от национальности и языка, на котором разговаривают родители,
плачущие малыши во всем мире издают одинаковые по частоте и силе звуки. При этом
существует 5 универсальных причин, по которым маленькие дети могут начать
кричать (голод, раздражение, усталость, потрясение, скука). Каждый вид детского
плача уникален и отличается от других характером звучания.
Испанские ученые-педиатры разработали программу, которая расшифровывает
принимаемые через телефонный микрофон звуки, а затем выдает на экран результаты
анализа. Точность такого «перевода» - 96%.
25.02.2010
Томомаса Нагасима
(Муроранский технологический
институт в Японии) разработал
алгоритм, распознающий в тембре детского плача характерные "ноты", и
позволяющий понять его причину. Использован
статистический метод анализа, основанный на распознавании виртуальных
образов тех или иных криков младенцев, построенных на основе набора
частот и интенсивностей звуков, содержащихся в детском плаче.
Томомаса Нагасима:
Мы
сумели сопоставить различные образы записанных звуков детского плача с
их эмоциональным состоянием, информацию о котором получили от их
родителей. С помощью подобных устройств родители всегда будут точно
знать, хочет ли их ребенок отдохнуть, есть, нужно ли ему поменять
пеленки или он испытывает боль.
20.04.2010
Однако,
дети плачут на разных языках!
Группа
Катлин Вермке
(Kathleen
Wermke,prof. Universität Würzburg)
записывала плач французских и немецких детей в возрасте от 2 до 5 дней. Для всех
криков были измерены: частота основного тона и интенсивность. Оказалось, что уже
2-5-дневные младенцы плачут по-разному: у французских детей тон к концу крика
поднимается, а у немецких – падает.
Катлин Вермке:
Считалось, что способности ребенка к восприятию звучащей речи зависят от того,
какой язык он слышал в течение последних трех месяцев до рождения. При этом плод
способен воспринимать только просодические свойства языка – тон, распределение
громкости, ритм и т.д. Именно они позволяют новорожденным узнавать голос матери
и отличать родной язык от других.
Мы предполагаем, что младенцы усваивают основные черты родного языка еще до
рождения. Если бы свойства крика зависели только от дыхательного цикла, то для
них был бы всегда характерен только падающий контур. Поэтому вопли младенцев
оказываются в результате сложной и хорошо скоординированной работой дыхательного
тракта и гортани – фактически, первой демонстрацией владения родным языком.
17.07.2013
Группа исследователей из Университета Брауна (Провиденс, США) создала прибор, который может анализировать младенческий плач,
для выявления проблем в здоровье и развитии ребенка. Незаметные для человеческого уха отличия в криках ребенка могут помочь максимально рано обратить внимание на потенциальную проблему.
Ученые рассчитывают, что компьютерная программа, проводящая акустический анализ, сможет диагностировать неврологические отклонения и задержки в развитии. Прибор стал результатом двухлетнего сотрудничества Инженерной школы Университета Брауна (Brown University School of Engineering) и входящей в состав университета больницы (Women & Infants Hospital of Rhode Island). Описание разработанного устройства
опубликовано в Journal of Speech, Language and Hearing Research.
В процессе работы программа делит запись младенческого плача на фрагменты продолжительностью 12,5 миллисекунд. Анализируются акустические параметры каждого фрагмента. Затем программа рассматривает более продолжительные фрагменты записи, включая соотношения криков и пауз между ними. В итоге определяется около 80 различных параметров.
Барри Лестер (Barry Lester,
соавтор): Впервые звуки плача как материал для диагностики начали использовать в 1960-х годах. Тогда одно из заболеваний, обусловленных генетическим дефектом, даже получило название «синдром кошачьего крика» (Cri du chat syndrome) из-за особого плача младенца, вызванного аномалией в строении гортани.Именно тогда
мы задались вопросом: не могут ли акустические характеристики плача свидетельствовать о других проблемах в здоровье ребенка.
Переводчики с
языка жестов
15.03.2011Fingual
- система
перевода жестов языка глухонемых в символы (разработана в
университетах Осаки и Шиншу, Япония).
Fingual
состоит из
компьютера со специализированным программным обеспечением и особой
перчатки с постоянными магнитами, закрепленными на кончике каждого
пальца. Изменения магнитного поля, возникающие при жестикуляции,
регистрируются магнитными датчиками и отправляются на обработку в
компьютер. Полученная информация анализируется и преобразовывается в
символы.
Точность
распознавания жестов
Fingual
составляет 80–90%
(для постороннего человека) и превышает 90%
при настройке под конкретного пользователя.
23.07.2013
В Китае разработана система на базе Microsoft Kinect, которая в реальном времени переводит
китайский язык жестов в написной текст.
Жуобин Ву6:
Мы надеемся, что данная разработка поможет в
повседневной жизни взаимодействовать разным людям,
облегчая коммуникационный процесс для людей с
ограниченными возможностями. Сейчас многие глухие люди не
владеют языком жестов, еще меньше людей с нормальным
слухом, кто бы мог использовать язык жестов. Именно
поэтому подобные разработки помогают наладить процесс
общения.
Шотландская компания Techabling
ведет похожую разработку (используется любая
Web-камера и специальное программное обеспечение), но здесь
пока разработки еще не завершены.
Dream Translator -
переводчик женщин
iSVS
Dream Translator
- переводчик реакции женщины на слова и действия мужчины во
время коммуникации.
В основе работы
iSVS Dream Translator
аналитическое программное обеспечение, которое:
содержит огромную базу фраз, состояний, сценариев,
собирает с различных датчиков и сенсоров и накапливает
информацию о состоянии и ревкции организма(температура тела,
потоотделение,
пульсометрия, дыхание...),
самообучается и подстраивается под циклические изменения в
состоянии, поведении, восприятии, и эмоциональных реакциях,
физиологическое состояние может озвучивать (Bluetooth-наушник)
или показывать через изменение цвета светодиодов на
браслетах (красный и зеленый).
iSVS Dream Transla
tor
может использоваться, как медицинский диагностический прибор и
женский
календарь, способен
удаленно вызвать врача или передавать ему информацию о состоянии
наблюдаемого пациента (посредством Skype на ПК или iPhone).
Автоматическое обновление программного
обеспечения
iSVS Dream Translator
при каждом включении.
$330
Google
Translate for Animals ;-)
01.04.2010
Компания Google
представила
Google
Translate for Animals
- переводчик... с языка животных для мобильных устройств на основе ОС Android.
Необходимо записать звук, издаваемый животным и выбрать вид
животного из масштабного списка. Затем звук будет обработан, переведен и
синтезирована фраза на человеческом языке (поддерживается, как минимум,
английский).
Наглядная видео-демонстрация (http://www.youtube.com/watch?v=3I24bSteJpw) показывает
перевод хрюканья свиньи. Она наконец получила возможность высказать своему
хозяину все, что о нем думает.
Приложение
создавалось
к
1 АПРЕЛЯ вместе с ведущими специалистами в области лингвистики животных.
No More Woof: переводчик с собачьего
30.12.2013
No More Woof
это первое в мире устройство, которое должно адекватно переводит мысли
собак в человеческую речь.
Проект No More Woof, который
разрабатывается Nordic Society for Invention and Discovery, организовал
сбор средства на Indiegogo – и за 47 дней до окончания кампании получил
в полтора раза больше денег, чем хотел.
No
More Woofвключает: устройство для
снятия энцефалограммы, компьютер для обработки (Raspberry PI),
динамик.
Пока
No More Woof распознает лишь несколько отчетливых мыслей собак –
усталость, голод или любопытство.
NMW Micro за $65
будет «понимать» два паттерна, а NMW Standard за $300 – четыре.
No More Woof
должны поступить покупателям в апреле 2014 года.