kmp-Translation Memory

DeJaVu

Déjà Vu

18.02.2014 Вышла Déjà Vu X3

Популярная у переводчиков-фрилансеров Déjà Vu:

Функция DeepMiner – сложный перекрестный анализ позволяет «извлекать» переводы отдельных слов и фраз, «встроенных» в сегмент, позволяет также исправлять нечеткие соответствия, создавая новые законченные переводы.
Функция AutoWrite предложит завершить набираемое слово/фрагмент. При работе AutoWrite использует как базы данных, так и функцию DeepMiner, позволяя обеспечить существенно большую производительность, чем у любого другого аналога.
«Автоподстановка» перевода по всем аналогичным сегментам на проекте,
«Автосборка» перевода из фрагментов, хранящихся в базах данных, функции машинного перевода Google Translate.
Функция Лексикона для создания глоссариев на основе переводимых проектов, определения частотности употребления терминов для контроля качества.
«Автопостроение» Лексикона значительно сокращает время на его создание.
Функции контроля качества проверят соответствие чисел, дат, номеров разделов и других числовых значений,
Язык структурированных запросов SQL Select и SQL Execute для управления качеством на крупных проектах и больших базах данных.

Возможность создания и редактирования шаблонов проектов снижает время за создание проектов, загрузку файлов и баз данных и др.

TM-технология

Тranslation Мemory - технология, при которой запоминаются уже сделанные один раз переводы, а при новых переводах автоматически заменяются переведенные фрагменты и термины соответствующими переводами.

Translation Memory (при техническом переводе документов, содержащих многократно повторяющиеся фрагменты):

предполагает первоначальное формирование терминологических баз и параллельных текстов,
позволяет (на основе базы переводов) без потери качества сократить время и силы, затрачиваемые на перевод,
обеспечивает (на основе базы переводов) терминологическое и стилистическое единство переводов.

TM-системы

Тranslation Мemory - системы (программы), позволяющие переводчику накапливать в специальной базе данных (БД) парные двуязычные фрагменты теста (слова, словосочетания, предложения, абзацы) для повторного использования при переводе.

Основные функции ТМ-программы

сегментирование переводимого текста для поблочного перевода,
сличает полученных сочетаний с элементами БД (баз данных),
подстановка готового перевода фрагмента в конечный текст (автоматическая или реализованная как предложение переводчику),
пополнение баз данных (параллельных текстов и глоссариев).

Дополнительные возможности:

“нечеткий” поиск.
ведение словарей терминов и непереводимых имен
поддержка языковых пар и “двунаправленных языков (текстовых массивов)”.
мультиязычный морфологический анализ
проверка орфографии для нескольких языков,
интеллектуальные средства сопоставления параллельных текстов с целью автоматического формирования парных фрагментов на двух языках.
интеграция с текстовыми процессорами и издательскими пакетами,
поддержка распространенных форматов (RTF, PDF, HTML.
группировка рабочих файлов, БД и терминологических словарей в отдельные "проекты".

Из истории...

12 ФАКТОВ, СОВЕТОВ И ИДЕЙ О БАЗАХ ДАННЫХ DÉJÀ VU X2
01.02.2012 TRANSLATOR ДОБАВИТЬ КОММЕНТАРИЙ
Déjà Vu X2 – это программа памяти переводов (Translation Memory). Она не содержит уже загруженного языкового контента, но запоминает то, что вы делаете – таким образом, программа выступает в роли «памяти» о том, что вы «уже видели» (= от франц.“déjà vu“).

Déjà Vu значительно облегчает работу переводчикам.
1. Существует три вида памяти:

Для каждого проекта можно создать TM (память перевода), TB (терминологическая база) и лексикон.

TM – база данных, в которой можно сохранять предложения исходного текста вместе с их переводом.

TB – терминологическая база данных, которую можно использовать для отдельных слов или целых фраз.

Лексикон – база данных, которая создается для конкретного проекта. Для каждого файла проекта можно создавать отдельный лексикон.

Во время работы над проектом Déjà Vu X2 использует все три типа баз данных, чтобы предложить варианты перевода и облегчить вашу работу. Инструменты, применяемые Déjà Vu X2 для этого, называются: «Предперевод» (Pretranslate), «Сборка» (Assemble) и «АвтоСборка» (AutoAssemble) – это тема для будущих статей.

2. Большая Ма и Большой Па:

Вы можете сохранять все ваши наработки в одной TM (“BigMama”) и TB (“BigPapa”). Если вы укажете для каждой записи определенную тематику и клиентский код, Déjà Vu X2 будет это учитывать при выборе варианта перевода из ваших баз данных. В моей главной TM за 12 лет накопилось около 40 000 пар предложений, а в TB около 55 000 записей.

3. Раздельные TM и TB:

В Déjà Vu X2 Professional можно подключать до пяти TM и пяти TB к каждому проекту, в Déjà Vu X2 Workgroup ограничений нет. Таким образом, вы можете использовать ваши основные базы Big Mama/Papa вместе с другими базами данных, например, предоставленными клиентом TM или глоссариями, общими справочными материалами типа баз данных Генерального директората Европейской комиссии по переводу, либо терминологическим списком от таких крупных компаний, как Microsoft, SAP или какой-либо банк. Возможно, вы решите сохранить отдельные базы данных для разных клиентов или предметных областей, вместо того чтобы пополнить ваши основные базы данных. Вероятно, вы найдете этот способ удобным, если вы одновременно работаете над текстами конкурирующих инженерных или IT-компаний, которые намеренно используют различную терминологию для своих брендов. Единственная проблема – в этом случае возможны трудности при поиске необходимого материала: допустим, вы знаете, что уже работали с таким термином или предложением в DVX2, но вы не помните, когда и в какой базе данных они были сохранены.

4. Неточное совпадение (Fuzzy matching):

Вы можете настроить DVX2 на выявление в тексте неточных совпадений. Можно выставить процент совпадения, варианты ниже которого DVX2 рассматривать не будет (= Минимальный порог соответствия – “Minimum Score ” (Tools>Options>General)). По умолчанию выставлено 75%, но в зависимости от форм словоизменения, которые встречаются в используемых языках, практичнее бывает выставить порог в 50% или менее. Указанный процент применяется одновременно к TM и TB, но не к лексикону, т.к. в нем находятся только точные совпадения. Кроме этого, “Minimum Score ” не влияет на работу таких функций DVX2, как Субсегментарный поиск (DeepMiner) и Автозаполнение (AutoWrite)

5. Добавляем записи в базы данных:

В DVX2 это делается очень быстро и просто. Для TM доступна функция автоматического занесения (AutoSend), включить ее можно двумя способами: Tools>Options>Environment, или используя иконки, находящиеся в нижней части окна программы (иконка AutoSend – вторая справа). После этого нужно будет лишь нажать CTRL + стрелка вниз по завершении работы над сегментом. Для занесения в лексикон нужно выделить слово или фразу в исходном тексте и в тексте перевода, затем нажать F10. Для занесения в TB также необходимо выделить слово или фразу, затем нажать F11. После этих действий откроется окно:

Здесь вы можете отредактировать в обоих языках сам термин, поменять склонение, подправить орфографию и прочее. Также можно проверить, правильно ли указана терминологическая область и клиентские коды. Здесь же находятся дополнительные поля («Описание», «Часть речи», «Род», «Число» и «Контекст»). До сих пор я не использовал ни одно из этих полей, однако некоторым пользователям они могут пригодиться.

Терминологическая база (TB) – один из ключей к эффективности DVX2. Рекомендуется добавлять в нее слова и целые фразы так часто, как только возможно. Некоторые пользователи придерживаются правила добавлять в TB записи из каждого переведенного предложения. Статья Стивена Марзуолы о том, как пользоваться терминологической базой данных, писалась под предыдущую версию DVX (сейчас ее часто называют DVX1), но в ней можно найти полезную информацию, применимую к DVX2.

6. Тематика и коды:

Это важный момент, т.к. DVX2 обращается к ним, чтобы выбрать и предложить правильный вариант для вашего текущего перевода. После установки DVX2 вы увидите предложенный список тематик, который при необходимости с легкостью можно удалить и составить свой собственный. Каждая тема содержит короткий индекс-код (к примеру, 435) и описание (Региональное планирование/экология). Когда программа выясняет, какая тема больше всего подходит для вашего текущего проекта, она работает иерархически: в моем примере программа решила, что записи под кодом 43 (Городское планирование) и 4 (Строительство) являются наиболее подходящими. Вместо чисел вы можете обозначать коды буквами, если вам так удобнее.

7. Создать лексикон (Build lexicon):

Эту функцию вы можете найти в меню «Лексикон» (“Lexicon”), временами она может быть полезна при подготовке к работе над текстом, в котором много терминов. Я использую данную функцию примерно в 5-10 % проектов. Рассмотрим ее пошагово: сначала нажмем «Создать лексикон» (“Build lexicon”) и определим максимальное количество слов (обычно 4). После этого программа в течение пары минут ищет варианты. Затем открываем лексикон (используя Project Explorer), щелкаем по заглавию над левой колонкой и определяем критерий сортировки: 1. Количество слов (по убыванию), 2. Частотность (по убыванию). Теперь самостоятельно просмотрим весь список. Сначала определим, какие фразы из четырех слов следует добавить в лексикон. Обычно это важные содержательные фразы, которые часто встречаются. Дойдя до фраз, встречающихся в тексте 3 раза или менее, я обычно пролистываю их, спускаясь ниже – к наиболее частотным фразам из трех слов. И так далее, выделяя все записи, походящие для лексикона. Далее выберем «Удалить записи» (“Remove entries”) в меню «Лексикон», щелкнем «Записи без перевода» (“Entries with empty targets”) и нажмем ОК. Обычно для проекта из нескольких сотен сегментов это дает около 30-50 записей – но это записи, которые часто встречаются и требуют единообразия. Таким образом, предварительно создав лексикон, в дальнейшем мы получим лучшие результаты при выполнении «Предперевода» или «Сборки».

Эту функцию также можно использовать для составления списка терминов, которые должны войти в глоссарий, если его требует заказчик. За годы работы у меня был всего один подобный проект, но создание лексикона может быть полезно для переводчиков, которые часто работают со сложными техническими текстами.

8. Имена собственные:

Это стандартные элементы для добавления в лексикон. Название или код определенного продукта, которые есть в вашем тексте, можно использовать только для определенного проекта, т.к. они вряд ли подойдут для проектов от других клиентов. Это относится и к именам конкретных людей, работающих на заказчика: эту информацию следует заносить в лексикон, а не в терминологическую базу. Однако некоторые имена, встречающиеся часто, целесообразнее заносить в TB. Мое главное правило: если имена можно перепутать со словами, существующими в языке – для TB они не подходят. Например, распространенное немецкое имя Helmut я не вносил в TB, т.к. в зависимости от уровня неточных совпадений его можно перепутать со словом Helm (шлем) и его формами Helme/Helmen/Helmes. То же самое с фамилией Kohl, чтобы избежать путаницы с Kohl (капуста) и близким совпадением Kohle (уголь). Но два имени вместе я заношу в TB, подразумевая известного немецкого канцлера Гельмута Коля. Имена других известных политиков тоже находятся здесь, например, в немецком и английском написании – Gorbatschow и Gorbachev.

9. Адаптация баз данных под нужные языки:

В некоторых случаях выбранная вами языковая пара и направление перевода могут повлиять на то, как вы будете использовать различные базы данных – это связано с порядком слов и изменениями их форм. Пример: английская фраза “public green spaces” во французском языке имеет иной порядок слов: “espaces verts publics”, также возможны иные формулировки: “espaces verts des lieux publics”, “espaces verts ouverts au public”, “espaces verts pour le public” и др. (Спасибо Дейву Тернеру за этот и другие примеры.) Первое, что приходит на ум при переводе на немецкий – “öffentliche Grünflächen”, притом что первое слово может иметь также форму “öffentlichen”.

Вероятно, при переводе с французского языка на английский следует внести каждую французскую фразу как лексическую единицу, особенно если в тексте, с которым вы работаете, много повторов. Ввод отдельных слов мало чем поможет, потому что порядок слов нужно будет изменить. В зависимости от специфики вашей работы и частотности использования данных фраз, вы можете внести их в лексикон, TB или TM.

Если вы переводите с немецкого языка, разумнее всего будет добавить оба слова в терминологическую базу и позволить DVX2 расценивать изменяющиеся окончания как «неточные совпадения». Даже если речь идет о фразах с большим количеством вариантов склонения (например, “public building” – “öffentliche Gebäude”, “öffentliches Gebäude”, “öffentlichen Gebäudes”, “öffentlichem Gebäude”), вы можете ввести всего одну форму каждого слова и использовать функцию неточного совпадения. Удобно здесь то, что, хотя слово в языке оригинала будет меняться, в языке перевода (английском) оно останется без изменений.

Перевод с практически нефлективного языка на флективные языки (например, французский или немецкий) может быть затруднителен, поэтому необходимо подобрать стратегию, подходящую к языкам, с которыми вы работаете. Нет единого решения, которое бы подошло для всех языков и тематик, но в DVX2 предоставляется гибкое использование баз данных.

10. Поиск по базе данных:

Существует несколько способов просмотреть информацию из ваших баз данных. Когда вы применяете функции «Предперевод», «Сборка» и «Автосборка», DVX2 использует информацию из баз данных, чтобы подобрать подходящий перевод. После этого вы увидите, что некоторые слова и фразы в предложенном переводе подчеркнуты синим – это те термины, для которых в базе данных содержится несколько вариантов перевода. Щелкнув правой кнопкой мыши по слову или фразе, вы увидите остальные варианты, с которыми можно ознакомиться и выбрать правильный щелчком мыши или с помощью цифр на клавиатуре. Еще один способ поиска подходящей информации в вашей базе данных – искать в окне или окнах “Portions”. Здесь можно посмотреть несколько скриншотов. И, наконец, еще одна возможность просмотра информации – использовать функцию “Scan” (CRTL+S) для поиска соответствий в TM, либо “Lookup” (CTRL+L) для просмотра содержимого TB.

11. Перенос баз данных на другой компьютер:

Чтобы перенести вашу работу на другой компьютер, например, на ноутбук в случае отъезда, понадобится скопировать несколько файлов. Первый файл – ваш проект, он имеет расширение .dvprj. Лексикон содержится в самом проекте, поэтому не нужно никаких дополнительных действий, чтобы его скопировать. Терминологическая база находится в отдельном файле с расширением .dvtdb. TM содержит как минимум 4 файла. Основная информация находится в файле с расширением .dvmdb. Кроме того, для каждого языка существует индексный файл (например, файлы с расширением en.dvmdi и de.dvmdi для английского и немецкого языка соответственно). Также необходим файл с расширением .dvmdx. Когда вы откроете проект на другом компьютере, DVX2 может пожаловаться, что не видит баз данных. Это не проблема – когда проект открыт, вы можете выбрать их вручную: Project>Properties>Databases.

Файл с расширением .dvset содержит настройки (тема, клиенты и прочее) – его тоже необходимо скопировать. Что касается защиты – если вы используете электронный лицензионный ключ, убедитесь, что его можно применить и на другом компьютере.

TM-терминология

... "Напишите и переведите единожды –
используйте сколько угодно раз" ...

Тranslation Мemory - система управления базой данных (эталонных переводов).

Translation unit (сегмент, единица перевода) - одна запись (билингва) в такой базе данных соответствующая предложению, части сложносочинённого предложения, абзацу.

Exact match (точное соответствие) - совпадение единицы перевода исходного текста с единицей перевода, хранящейся в базе, при которой она автоматически подставляется в перевод.

Fuzzy match (неточное соответствие) - неполное совпадение единицы перевода исходного текста с единицей перевода, хранящейся в базе, которая может быть подставлена в перевод после внесения переводчиком необходимых изменений.

Допустимая точность соответствия может настраиваться (в процентах совпадения).

Аlignment (выравнивание, сопоставление) - выявление в переводимом тексте фрагментов, переводы которых уже имеются в базе данных переводов.

Опытный письменный переводчик переводит в день без потери качества 7-8 стандартных страниц текста средней сложности. Он же, используя ТМ, при переводе похожего текста, может переводить до 12 страниц.

Maintenance (обслуживание) - упорядочение, редактирование и удаление сегментов в базах, исправление ошибок.

Terminology Program (терминологический словарь) - электронный словарь с поддержкой импорта, возможностью редактирования и пополнения статей.

Document Editor (текстовый редактор) - двухоконная (для исходного текста и его перевода) среда осуществления процесса перевода с возможностью устанавливать в процентах степень сходства между переводимым в данный момент исходным текстом и текстом в копилке переводов.

Concordance (конкорданс) - связка словоупотребления с контекстом.

Переводчику, работающему с Translation Memory нужно перевести только новые фрагменты, которые еще не переводились. При этом качество перевода остается "человеческим", т.к. все переводы делал переводчик, а не компьютер.

Базы эталонных переводов

При обработке нового входящего документа Тranslation Мemory разбивает его на сегменты и сравнивает их с уже хранящимися в базе данных эталонами.

TM эффективны лишь при высоком (от 75%) уровне совпадений

Успех применения TM напрямую зависит от объема и качества базы эталонных переводов по нужным тематикам и областям деятельности

Базы эталонных переводов можно купить, либо создать самостоятельно.

По этой причине этап внедрения TM требует существенных финансовых и трудозатрат, связанных с наполнением TM.

Практически каждая компания, как правило, имеет архив готовых документов на исходном и целевом языках, которые могут стать основой такой БД, но для них нужны специальная обработка и сегментация.

В любых переводческих агентствах, уже применяющих системы ТМ, всегда есть определенная доля заказов, которые в силу разных причин (нестандартный формат, перегруженный макет, особые требования переводчика, специализирующегося на данной узкой тематике) невозможно или нецелесообразно обрабатывать автоматически, что дает постоянный (пусть и не слишком значительный) источник новых материалов для добавления в БПТ, но заниматься этим вручную довольно дорого.

Автоматизировать все упомянутые процессы предназначен ABBYY Aligner.