Машинный перевод

 

 

Традиционный (человеческий) хороший перевод возможен без знания того, что же такое перевод (знание важно и очень полезно, но не является необходимым)

Хороший компьютерный перевод, без знания того, что такое перевод - невозможен!

 

 

Машинный vs. компьютерный

Машина — техническое устройство, выполняющее преобразования (энергии, материалов) информации.

Машины используются для уменьшения нагрузки на человека или полной замены человека при выполнении конкретной задачи для повышения производительности труда.

Автомат — машина, выполняющая свои функции по заданной управляющей программе без непосредственного участия человека в процессе обработки (материалов, энергии) информации.

Автоматизированное устройство (полуавтомат) — машина, предполагающая вмешательство человека (кофе-машина, СВЧ-печь и др.).

Компьютер - вычислительная машина!

Компьютерный перевод (в узком смысле) - вычисляемый (rule-based, правиловый ) перевод.

Технологические этапы перевода:

  • Rule-based machine translation (RBMT) — Машинный перевод на основе правил

  • Statistical-based machine translation (SBMT) — Статистический машинный перевод

  • Neural-based machine translation (NBMT) — Машинный перевод на базе нейронных сетей

Компьютерный перевод (в широком смысле) - машинный перевод.

Термин "машинный перевод" (machine translation) - более точный, общий и популярный, чем термин "компьютерный перевод" (computer translation)

 

 

Компьютерный перевод как деятельность

Перевод, как деятельность, формально представляет собой структуру (деятельности) с базовыми компонентами:

  • субъект,

  • цель,

  • средство,

  • предмет,

  • результат...

Базовые компоненты деятельности могут служить критерием отнесения перевода к компьютерному.

Частотный пример, компьютерный перевод  - перевод с помощью компьютера
(определяющий признак - средство, инструмент моделирования).

Такое понимание правомерно, но ограничено и не позволяет понять суть компьютерного перевода, его гуманитарное значение и роли в языковой практике и лингвистической науке.

При данном подходе  перевод делает компьютерным:

  • (в узком смысле) - наличие одновременно всех признаков (базовых компонент деятельности).

КМ - перевод компьютерами компьютерного для компьютеров компьютерными средствами  :)

  • (в широком специальном смысле) - наличие любого признака (базового компонента : субъект, цель, средство, предмет, время, пространство, среда) или их сочетания:

Компьютерный перевод - перевод компьютерами

Компьютерный перевод - перевод для компьютеров...

Компьютерный перевод - перевод с помощью компьютеров...

Компьютерный перевод  - перевод компьютерной информации (данных, программ)

.....

Любая человеческая деятельность (историческая, культурная, цивилизационная) определяется (прямо или опосредованно) социальной реальностью, в которой она становится возможна, востребована и осуществляется.

Компьютерный перевод (в широком смысле) -  перевод в компьютерной (вычисляемой) реальности (среде)...

Компьютерный перевод - перевод в глобальной вычислительной среде.

Компьютерный перевод - перевод в информационном обществе потребления.

Именно информационное общество потребления (современная компьютерная среда) задает и делает возможными постановки проблем, цели, задачи, средства, методы, предметы и способы осмысления (компьютерного) перевода.

В современном обществе компьютерные вычисления (прямо или опосредованно) существенно  определяют :

  • социальные и межличностные коммуникации (сетевые или все больше опосредованные сетевыми)

  • особенности финансово-экономической среды (преимущественно знаковой и обслуживающей информационные потребности)

  • эстетическую и культурную среду (от дизайна бытовых вещей до языковых стереотипов и мемов)

  • систему потребления, услуг и производства (преимущественно информационного, знакового)

  • образовательную и научную сферу (как информационные системы)

  • .... и т.д.

Доминирующая в информационном обществе потребления компьютерная метафора (сознания человека) оказывает существенное влияние на самосознание субъекта перевода (понимающего себя в качестве особого биологического компьютера).

 

 

 

Компьютерный перевод как процесс

Процесс (лат. processus, движение вперёд) — совокупность изменений состояний системы, с конкретным началом и концом.

См. А. М. Миронов. Теория процессов.

Перевод, как процесс, формально представляет собой структуру с начальным и конечным состояниями.

Перевод - преобразование теста из одного состояния в другое.

Перевод, в узком филологическом смысле, преобразование текста на одном национальном языке в эквивалентный текст на другом национальном языке.

Процесс (информатика) — выполняющаяся (в текущий момент) программа и среда выполнения (ресурсы программы: адресное пространство, глобальные переменные, регистры, стек, открытые файлы и так далее).

Компьютерная программа (сама по себе) — текст (пассивная последовательность инструкций)

Компьютерный процесс — непосредственное выполнение инструкций компьютерной программы (реализация текста).

Компьютерный перевод, как процесс, выполнение инструкций компьютерной программы по преобразованию одних символьных цепочек в другие

 

 

 

 

 

Конвертирование в ИТ

 

Конвертирование (conversion) - автоматическое преобразование:

  • типов данных (data type) в языках программирования.

  • содержимого файла из одного формата хранения данных в другой (file conversion)

  • текста из одной кодовой таблицы в другую (перекодировка, transcoding)

  • метаданных (разметки)

  • способов представления (например, инфографика)

  • языков (например, Wiki или MarkDown в HTML)

Общепринятая в вычислительной технике концепция файла — неструктурированная последовательность байтов.

Формат — структура файла, определяющая способ хранения и отображения его содержимого на экране или при печати.

Компьютерные программы, сохраняющие в файлах структурированные данные, должны преобразовывать их в последовательность байтов  (в ООП - «сериализация»; для текста - «парсинг») и наоборот.

Алгоритм этого преобразования, а также соглашения о том, как различные фрагменты информации располагаются внутри файла, и составляют его «формат».

Различные форматы файлов могут различаться степенью детализации, один формат может быть «надстройкой» над другим или использовать элементы других форматов (Текстовый формат накладывает самые общие ограничения на структуру данных. Формат HTML устанавливает дополнительные правила, но любой HTML-файл является и текстовым файлом).

Конвертирование может быть с потерей информации или без потери информации, что обычно связано с «богатством» того или иного формата данных.

 

 

 

Примеры межсемиотического перевода

1

Цветовые палитры фильмов

Участники проекта MovieBarCode реализовали идею межсемиотического перевода на основе генерации цветового спектра фильма путём сжатия каждого кадра до одного пикселя и размещения их в вертикальных столбцах.

Здесь наглядные примеры

2

Перевод числа в музыку

Американский музыкант Майкл Блейк (Michael Blake) перевел числа Пи и Тау (удвоенное Пи) на музыку. Блейк присвоил нотам от одной октавы до следующей октавы номера от 1 до 8, затем взял запись числа с точностью до 126 знака после запятой и проиграл ее в соответствии с выбранной кодировкой нот. Далее музыкант аранжировал получившуюся мелодию.

В kmp-media можно послушать мелодии чисел Пи (файл Translation of Tau.mpg4) и Тау (файл Translation of Pi.mpg4).

Пи  https://www.youtube.com/watch?v=wK7tq7L0N8E
Тау https://www.youtube.com/watch?v=3174T-3-59Q

3

Увы, ничто не вечно ....

Проигрыватель сайтов

Codeorgan (http://www.codeorgan.com) - любой URL превращает в электронную мелодию. Полученной музыкой можно тут же поделиться с Twitter или Facebook сообществом. 

 

4

Число Пи в пикселах. Дизайн-студия TWO-N сгенерировала  интерактивную графику, где пикселами закодированы четыре миллиона цифр после запятой в числе Пи.

Картинка масштабируется, можно посмотреть легенду с цифрами. Есть поиск произвольных последовательностей.

Смотри: http://two-n.com/pi/

5

Музыкант, художник и программист Ханн Дэвис и сотрудник Национального научно-исследовательского совета Канады Саиф Мохаммед, занимающийся обработкой естественного языка, создали приложение ТransProse, трансформирующее художественные тексты в музыку определяя настроение произведения . 

ТransProse. Программа анализирует текст, разбивая его на четыре хронологических отрывка (начало, первая часть, вторая часть и конец) и определяя в каждом из них эмоционально окрашенные слова, а также общее настроение книги (используя список из 14 000 эмоционально окрашенных слов, объединённых в группы, соответствующие восьми базовым эмоциям: гнев, страх, ожидание, доверие, удивление, грусть, радость, отвращение).

Рассчитав в текстовом фрагменте плотность слов, передающих эмоции, TransProse задает основные параметры звучания: количество и тональность нот, темп произведения. Книги с положительным настроением проигрываются в мажоре, с отрицательным настроением — в миноре. Счастливые книги выше на октаву, печальные ниже, большему количеству эмоционально окрашенных слов соответствует большее количество нот.

Услышать, как звучат литературные произведения можно на сайте Sound Cloud.

Ссылка на научную работу

6

 

Слушаем правки в Wikipedia

http://listen.hatnote.com/

Колокольчик — дополнение, а струны — удаления.

Длина звучания зависит от того насколько большая правка.

Реализация переводчика здесь

7

Разработчик и дизайнер из Филадельфии Кайл Стетц создал сайт Typedrummer (http://typedrummer.com/#), который работает как драм- превращая набранные латиницей слова и фразы в партию ударных. 

На главной странице Typedrummer открывается небольшое окошко, куда необходимо вбивать текст.

Латинские буквы сразу превращаются в звуки барабанной установки.

Ритмом собственного текста можно поделиться, поскольку сайт сразу выдает электронный адрес сэмпла.

8

«Розетта» записала колебания электромагнитного поля кометы 67P/Чурюмова — Герасименко частотой 40-50 мГц. Преобразованием частоты эти колебания были приведены в звуковой диапазон, который может воспринимать человеческое ухо:

9

Музыка пульсаров: https://youtu.be/jJqelIAQ2bo

 

 

 

Онлайн калькуляторы +

+

.....

Защищённый сервис обмена текстовой информацией bin.so:

  • Каждому загруженному тексту выделяется уникальный случайный URL

  • Если указать пароль, то информация шифруется прямо в браузере и на сервер сохраняется только зашифрованная версия данных. Для просмотра данных нужно ввести пароль, чтобы расшифровать в браузере данные, полученные с сервера.

  • Поисковым системам запрещено индексировать содержимое сайта

  • HTTPS везде

Шифрование данных в браузере обеспечено библиотекой SJCL. Данные шифруются AES алгоритмом в режиме GCM. Исходный код доступен на github. Серверная часть написана на python, веб-фреймворк Bottle, доступ к данным через peewee. База данных, по-умолчанию, sqlite.

 

http://web.expasy.org/translate/ - is a tool which allows the translation of a nucleotide (DNA/RNA) sequence to a protein sequence.

 

 

 

Слышать цвет

 

Инженер и бизнесмен Нил Харбиссон родился с тяжелой формой дальтонизма – он совершенно не различает цвета, а потому видит мир исключительно в черно-белой гамме.

Харбиссон вживил в собственный череп специальную антенну с камерой, которая различает цвета предметов и преобразовывает их в звуки.

Звуковые сигналы, соответствующие разным цветам и оттенкам, это устройство подает при помощи вибрации в череп носителя, так что никто другой их не слышит, даже если находится совсем близко.

Cyborg Foundation (Фонд киборгов, основан Нилом Харбиссонном в 2010 г.) позволяет больным людям, инвалидам в покупке и производстве на заказ высокотехнологичных имплантатов.

 

Sapienti sat