Проблемы "неуправляемой" терминологии Риски отсутствия стратегии управления терминологией: Без инструментов и процессов, обеспечивающих согласованное употребление утвержденных терминов различными участниками внешней коммуникации в ходе выпуска продукта на рынок, различия в терминах будут неизбежно появляться. В больших организациях разные люди используют разные слова для обозначения одних и тех же вещей, а также одни и те же слова для обозначения разных вещей. Это ведёт к ошибкам. К оллективный перевод больших проектов приводит к терминологическому рассогласованию текста на языке перевода. Несоответствия между тем, что видит потребитель, пользуясь товаром или услугой, и тем, о чем он узнает из сопроводительных текстов для потребителей (инструкции пользователя, информационные листовки, онлайн материалы) могут оказать негативное влияние на мнение потребителя о товаре или услуге. Намного хуже, если выход товара на рынок придется отложить из-за задержек в процессе регуляторного одобрения, вызванных несоответствием в терминологии и/или некорректным ее употреблением в поданных документах или терминологическими расхождениями с документами надзорных или регуляторных органов . Управление терминологией стоит денег. Отсутствие управления терминологией стоит дороже. Исследование, проведенное в автомобильной отрасли, говорит о том, что изменения в терминологии на стадии использования (после публикации) обойдется в 200 раз дороже, чем на стадии спецификации (сбора данных о продукте) Наличие полной, составленной под конкретный проект базы терминов уже на начальных этапах проекта позволяет освободить удаленных разработчиков, авторов, и, конечно же, переводчиков от самостоятельных трудоемких поисков терминов. Управление терминологией – это наиболее эффективное решение для обеспечения того, чтобы организация говорила «в один голос». |
Terminology Management Управление терминологией (Terminology Management) - систематический отбор, обработка и предоставление терминов в виде записей терминологической базы в целях обеспечения согласованного употребления всех слов, наиболее тесно связанных с продукцией и услугами компании (института) - в исходном языке и во всех языках, на которые переводятся документы. Структура управления терминологией: Извлечение терминологии (выявление ключевых терминов в документах). Создание словарных статей (записей) Предполагает решение вопросов о том, какой термин следует вносить в глоссарий и какая сопроводительная информация может понадобиться. В ISO 12620 указано около 200 возможных категорий данных для терминологических записей, но в то же время, ISO 12616 только три из них выделяет как обязательные: термин, источник и дата. Наиболее часто используется модель данных, включающая меньше двенадцати категорий данных. В большинстве терминологических стандартов определения – это необязательная категория данных. Их написание затратная и ценная часть записи. Хорошее терминологическое определение – это краткое изложение сути явления, не длиннее одного предложения. Проверка и утверждение глоссария и терминологической базы экспертами конкретной предметной области до их публикации или использования. Глоссарии и терминологические базы – это нормативные документы, которыми, в идеале, будут пользоваться как специалисты по коммуникациям внутри организации, так и внешние поставщики коммуникационных услуг (PR, маркетинговые, рекламные и переводческие агентства). Если глоссарии переводятся, то проверка должна проводиться специалистом предметной области, работающим в стране языка перевода. Ведение терминологической базы Постоянное пополнение терминологических баз новыми терминами и регулярная проверка уже существующих на пригодность.
Области применения управления терминологией: Перевод и локализация Управление терминологией повышает качество и скорость работы при переводе и локализации, обеспечивая терминологическое единообразие и возможность многократно обращаться к одним и тем же элементам контента (то есть избегать ненужного дублирования работы). При этом время создания окончательной версии текста сокращается, экономя бюджет проекта. Создание и поддержка контента Для авторов и менеджеров, отвечающих за создание контента, управление терминологией несет в себе целый ряд преимуществ. Во-первых, терминологическая база компании хранится в доступном через интернет централизованном репозитории, что облегчает работу с текстом. Во-вторых, поддерживается непрерывный процесс передачи знаний. Новые сотрудники усваивают информацию быстрее и эффективнее, поэтому допускают меньше ошибок. В-третьих, оптимизируется процесс производства контента на разных языках, поскольку и штатные сотрудники, и внешние поставщики лингвистических услуг опираются на одну многоязычную терминологическую базу. Обучение систем машинного перевода Средства управления терминологией можно интегрировать в систему машинного перевода. Это существенно повысит качество создаваемых с помощью этой системы текстов, экономя время и деньги на их редактирование. Контроль качества Система управления терминологией позволяет автоматизировать процессы контроля качества. Анализируя готовые переводы, она сравнивает обнаруженные термины с утвержденными тематическими глоссариями и выявляет переводческие ошибки. Данную функцию можно интегрировать в программное решение или (что еще эффективнее) в CAT-систему. В этом случае система будет предлагать правильный термин в процессе создания контента или перевода, а также выделять в тексте неверные и неподходящие по контексту термины.
|
Terminology Management System Система управления терминологией (terminology management system, TMS) - программное обеспечение, которое позволяет пользователям эффективно собирать, обрабатывать, размечать, организовывать в базы данных и предоставлять терминологию.PoolParty Thesaurus Manager (http://poolparty.biz/products/poolparty-thesaurus-manager/), один из лидеров в области автоматического управления терминологией: поддерживает SKOS тесно интегрируется с другими лингвистическими программами PoolParty. интегрирован с dbpedia (http://dbpedia.org - структурированная информация из Википедии), поддерживает новый европейский стандарт метаданных "семантических активов "ADMS (Asset Description Metadata Schema, http://joinup.ec.europa.eu/asset/adms/home). понимает огромное количество форматов данных.
TopBraid Enterprise Vocabulary Net (TopBraid EVN, в отличие от PoolParty не просто поддерживает SKOS, а предоставляет полномасштабную интеграцию разных глоссариев с разными "входными" моделями данных на основе концепции Semantic Web http://www.topquadrant.com/solutions/ent_vocab_net.html . Чтобы оценить, насколько системы "ручного ведения терминологии" отличаются от автоматизированных (где терминология "экстрагируется" из какого-то корпуса текстов), можно рассмотреть DBpedia -- это база знаний, в которой описано сейчас 3.77 миллиона вещей, из которых 2.35млн. представлено в виде более-менее организованной онтологии. Информация в DBpedia попадает из Википедии через софт "экстрактора" (http://wiki.dbpedia.org/Documentation), а затем раздаётся в разных форматах (http://wiki.dbpedia.org/Architecture?v=14cg). Конечно, есть аналогичные коммерческие решения, типа связки вики Сonfluence и PoolParty PowerTagging (http://poolparty.biz/products/poolparty-powertagging/), причём найденная структурированная терминологическая информация не просто становится доступной "сбоку", но сразу может быть использована для семантического поиска (учёт синонимов), или для обогащения контента (автоматическая простановка тегов). В принципе, можно пробовать завести "корпоративную википедию" и вести её по правилам Википедии, а затем экстрагировать из неё онтологию/тезаурус так же, как это делают в Dbpedia -- но нужно понимать всю громоздкость такого решения. Частичную поддержку SKOS ("экспорта в SKOS" - SKOS Outside) предоставляют: |
Сетевые сервисы управления терминологией Termwiki (http://www.termwiki.com) - социальная сеть обмена знаниями, основанная на конкретных предметно-ориентированных областях и терминологических тезаурусах создааваемых и управляемых пользователями и экспертами. Имеет два типа учетных записей: Тermbases (http://www.termbases.eu/page/view/pricing/) имеет русский и немецкий интерфейсы и очень большую функциональность:Подробные конфигурации доступа, настройка различных доступа для каждой комбинации терминологической базы и группы Импорт данных в TBX, XLIFF и CSV форматах Экспорт данных в TBX, CSV, XSL, HTML форматы Концептуальная модель (добавление несколько терминов и определений в одну концепцию) Визуальный словарь терминологической базы Расширенный поиск в терминологической базы на основе термина и концепции с настраиваемыми атрибутами и языками Отношения между терминами: ссылки, омоним, пароним Отношения между понятиями: ссылки, антоним, hyponym, hyperonym, meronym, holonym Добавление комментариев к терминам и понятиям Сохранение истории (версий, изменений) термина и концепции 2 уровня удаления терминов и понятий: "Удалить" перемещает элемент в корзину, "Удалить" удаляет удаленные элементы полностью Персонализированный пользовательский интерфейс, перетаскивание, скрытие панели SOAP API для интеграции внешних систем
Есть бесплатная и платные (от 600 € в год) версии Тermbases Nomigy (http://www.nomigy.ca/en) предназначена для: переводчиков, писателей, лингвистов, инженеров, маркетинговых агентств, национальных и международных организаций
19.09.2013 Компания Abbyy Language Services выпустила Abbyy Lingvo.Pro - корпоративное онлайн-решение по управлению терминологией. Abbyy Lingvo.Pro призвано упростить работу переводчиков с корпоративной терминологией. Облачное решение предполагает минимум затрат на внедрение и обслуживание. Компания может легко выдать доступ к корпоративной терминологии штатным сотрудникам, внештатным переводчикам, подрядчикам по переводу, и при этом сохранить полный контроль над переводческими материалами и обеспечить их конфиденциальность. Abbyy Lingvo.Pro интегрируется с CAT-инструментами и системами управления контентом, позволяет задействовать в работе все возможные типы переводческих материалов: |
Автоматический поиск в сетевых терминологических базах ApSIC Xbench - программа для одновременного поиска в нескольких терминологических базах в Интернете. ApSIC Xbench позволяет производить поиск в следующих форматах: Текстовый файл с табуляцией в качестве разделителя Память перевода в формате TMX Экспортированная память перевода TRADOS Экспортированные глоссарии TRADOS MultiTerm 5 Файлы в формате TRADOS Multiterm XML Файлы в формате TRADOS TagEditor Неочищенные файлы Word в форматах .rtf и .doc, переведенные с помощью TRADOS Файлы в формате SDLX .itd files. Примечание: Для этой функции требуется установка SDLX. Экспортированные словари IBM TranslationManager Установленные и экспортированные папки IBM TranslationManager (.fxp) Парные файлы STAR Transit Память перевода Wordfast Глоссарии Wordfast Глоссарии Microsoft в формате .csv (с разделителями-запятыми) Файлы Oracle в формате XLIFF Файлы в формате TBX Глоссарии Mac OS X
Источники терминов можно группировать по нескольким уровням приоритетности в соответствии с требованиями конкретного проекта. Сайт разработчика ApSIC Xbench: http://www.apsic.com/en/products_xbench.html Условия распространения: Бесплатная. |
Автоматическое извлечение терминологии Извлечение терминологии – создание терминологической базы на основе имеющейся документации. Этапы извлечения терминологии: специальный инструмент анализирует текст, выделяя наиболее частотные и релевантные термины. специалист-терминолог изучает полученный список и создает единый глоссарий (включающий различные языковые единицы: от аббревиатур до толкований терминов и примеров их применения в том или ином контексте. список терминов переводится на нужные языки, в результате чего формируется многоязычная терминологическая база, котовая к кодификации.
Системы автоматического извлечения терминологии, как правило, включаются в пакеты современных систем автоматизации перевода (Computer-Assisted Translation tools) мощных систем Translation Memory. Например: Системы автоматического извлечения терминологии могут быть выполнены в качестве отдельных программных средств: Simple Concordance Program: позволяет извлекать термины и словосочетания в список, которые, после этого, могут быть отредактированы вручную. Поддерживаются алфавиты: Английский, Французский, Немецкий, Польский, Греческий, Русский.Сайт разработчика Simple Concordance Program: http://www.textworld.comУсловия распространения: Бесплатная. Word Tabulator: программа
извлечения терминологии. Быстрая и простая программа,
однако из-за отсутствия возможности установки «черного списка»терминов,
выдает большое количество предлогов, артиклей и общих слов, таким образом,
время и усилия, необходимые на редактуру увеличиваются. Поддерживается
русский язык, а также присутствует подробная справка на русском языке.Сайт разработчика Word Tabulator: http://www.rvb.ru Условия распространения: Бесплатно. SynchroTerm - программа для извлечения терминологии из параллельных текстов и памяти переводов:реализует извлечение терминов, поиск и функции проверки контекста. применяет статистический, синтаксический и морфологический алгоритмы для выявления возможных эквивалентов в результатах поиска. обеспечивает экспорт записей терминологии, во все форматы, включая базы TRADOS MultiTerm, LogiTerm, терминологические базы SDL, Promemoria, FileMaker, Wordfast, Deja-Vue, MS-Access, MultiTrans, Lotus Notes, Oracle и многие другие, сводя к минимуму время, необходимое для интеграции SynchroTerm с существующими инструментами извлечения терминологии. предлагает множество опций точной настройки работы программы, которые позволяют полностью контролировать процесс извлечения терминологии. осуществляет автоматическое добавление контекстных выражений и предложений, а также справочной документации для всех созданных терминологических записей. поддерживает английский, французский, испанский, итальянский, португальский, шведский, русский и немецкий языки.
Сайт разработчика SynchroTerm: http://www.bridgeterm.comУсловия распространения: Платная
Способность Translation Memory извлекать не только предложений, но терминологию, не альтернатива созданию терминологической базы: без терминологической базы, «память переводов» содержит множество переводов, сокращенных форм и вариантов перевода одного и того же термина, что затрудняет или делает невозможным подбор одинаковых терминов для перевода. когда в тексте оригинала встречается термин, использование функции сопоставления будет приводить к значительным затратам времени и снижению продуктивности. для работы с новой терминологией система translation memory – вообще непригодны.
|
PROMT Term 11.04.2001 Компания ПРОМТ выпустила программу для автоматического извлечения терминологии PROMT Terminology Manager (PROMT TerM). Функции PROMT TerM: выполняет статистический анализ текста, формирует список терминов в соответствии с заданными правилами.
Возможности PROMT TerM: устанавливать различные опции при формировании терминологического словаря, (указывать количество слов в сочетании слов и др.). провести сравнение полученного списка терминов со словарями системы машинного перевода (МП) ПРОМТ, выполнить машинный перевод терминов, использовать переводные эквиваленты из словарей и баз данных систем класса Translation Memory (Trados TWB компании Trados, Transit компании Star). пополнять словари системы МП ПРОМТ, импортировать термины в словари систем Translation Memory (TM). экспорта результатов работы в базу данных в формате Microsoft Access PROMT TerM позволяет интегрировать процессы извлечения терминологии и автоматизированного перевода (с помощью систем МП и ТМ) в единую технологическую цепочку. |
Форматы файлов для обмена терминологией TMX (Translation Memory Exchange Format — формат обмена памятью переводов), обеспечивает взаимный обмен между разными поставщиками памяти переводов. TMX является общепринятым форматом в среде переводчиков и лучше всего подходит для импорта и экспорта памяти переводов. TBX (Termbase Exchange format — обмен терминологическими базами), позволяет проводить обмен терминологией, в том числе детальной лексической информацией. Основная база TBX определяется стандартами: ISO 12620 (обеспечивает реестр четко определенных «категорий данных» со стандартизованными именами, которые функционируют как типы элементов данных или предопределенные значения), ISO 12200 (предоставляет основу для каркасной структуры TBX), ISO 16642 (известен также как Terminological Markup Framework — Структура терминологической разметки) включает структурную метамодель для терминологических языков разметки (Terminology Markup Languages) в целом.
SRX создан для улучшения формата TMX и большей эффективности обмена памятью переводов между програмами. Предоставляет возможность указывать правила сегментации, которые использовались в предыдущем переводе, повышает эффективность отождествления сегментов в текущем тексте с содержимым памяти переводов (Translation Memory). XLIFF (XML Localization Interchange File Format) — расширяемый платформенно-независимый стандарт обмена локализуемыми данными и сопутствующей информацией, основанный на языке разметки XML. XLIFF — это наилучший в современной индустрии переводов способ обмена информацией в формате XML. UTX (Universal Terminology eXchange, универсальный терминологический обмен) - набор форматов для созданных пользователем терминологических словарей. Словарь, в данном случае, означает множество языковых пар, которые состоят из источника на входном языке, пеервода на целевом языке. UTX предназначен для преодоления несовместимости между различными форматами для машинного перевода .UTX-XML - XML-формат, который содержит сведения, дополняющие информацию о каждом входе и словарь. XML (Extensible Markup Language) расширяемый язык разметки документов, определяет синтаксис, который позволяет создавать языки разметки, учитывающие специфику документов заданной предметной области, например MathML, XLink, SMIL, XSL и другие. Terminology Markup Languages (язык разметки терминологии, TML) - подмножество XML для разметки терминологии. С помощью тегов термины в документе могут быть размечены (дополнены метаданными): дефиниции, источники, стандарты, эквиваленты, области применения, коды, акронимы, языки и т.п.) |
П ример TML-кода TBX-файла <?xml version="1.0" encoding="UTF-8"?> <martif type="TBX" xml:lang="en-US"> <martifHeader> <fileDesc> <titleStmt> <title>Microsoft Terminology Collection Export</title> </titleStmt> <sourceDesc> <p>Microsoft Terminology Collection</p> </sourceDesc> </fileDesc> </martifHeader> <text> <body> <termEntry id="14926_6"> <langSet xml:lang="en-US"> <descripGrp> <descrip type="definition">To terminate abruptly, often used in reference to a program or procedure in progress.</descrip> </descripGrp> <ntig> <termGrp> <term id="6">abort</term> <termNote type="partOfSpeech">Verb</termNote> </termGrp> </ntig> </langSet> <langSet xml:lang="fr-fr"> <ntig> <termGrp> <term id="8">abandonner</term> <termNote type="partOfSpeech">Verb</termNote> </termGrp> </ntig> </langSet> </termEntry> <termEntry id="10234_34"> <langSet xml:lang="en-US"> <descripGrp> <descrip type="definition">An absolute (machine) address specifying a physical location in memory.</descrip> </descripGrp> <ntig> <termGrp> <term id="34">absolute address</term> <termNote type="partOfSpeech">Noun</termNote> </termGrp> </ntig> </langSet> <langSet xml:lang="fr-fr"> <ntig> <termGrp> <term id="39">adresse absolue</term> <termNote type="partOfSpeech">Noun</termNote> </termGrp> </ntig> </langSet> </termEntry> </body> </text> </martif> |
Международные терминологические стандарты ISO (International Organization for Standardization) - Международная организация по стандартизации (ИСО) крупнейшая организация по разработке международных стандартов. С 1947 года ИСО опубликовано 19 500 более стандартов, охватывающих почти все аспекты технологии и производства. Стандарты ISO носят добровольный характер и разрабатываются на основе консенсуса. Членами ISO являются представители из 164 стран. Структура ISO насчитывает 3 368 технических органов, которые занимаются разработкой стандартов. 151 человек работает в Центральном секретариате ИСО (Женева, Швейцария). Сайт ISO: http://www.iso.org ISO разработано несколько стандартов, определяющих наиболее удачную практику в управлении терминологией: ISO 704:2000 Работа над терминологией – Принципы и методы Этот стандарт – отличный вводный документ в управление терминологией, включающий основы написания определений. ISO 12616:2002 Терминография, ориентированная на перевод В документе представлена информация об управлении терминологией в сфере переводов. ISO 1087-1:2000 Работа над терминологией – Словарь – Часть 1: Теория и ее применение Еще один обобщающий текст о наиболее распространенных подходах в управлении терминологией. ISO 12620:1999 Компьютерные приложения в терминологии – Категории данных В документе указаны категории данных, которые должны быть использованы для упрощения обмена данными между системами, сохраняющими и обрабатывающими терминологию. ISO 1951:2007 Применение компьютеров в терминологии. Машинно-считываемый формат обмена терминологией. Согласованный обмен ISO 22128:2008 Принципы управления проектами стандартизации терминологии ISO 24613:2008 Терминологические продукты и услуги. Общий обзор и рекомендации ISO 1087-1:2000 Терминологическая работа. Гармонизация понятий и терминов ISO/TR 24156:2008 Применение компьютера в терминологических целях. Структура терминологической разметки ISO 704:2009 Системы для управления терминологией, знаниями и содержанием. Обмен базами данных (TermBase eXchange (TBX) ISO 23185:2009 Системы управления терминологией знаниями и содержанием. Аспекты развития и интернационализации систем классификации, Связанные с концептомISO/TR 22134:2007 ISO 24611:2012 Оценка и сравнительный анализ терминологических ресурсов. Общие понятия, принципы и требования
ISO опубликованы сотни стандартов, содержащих глоссарии на одном или нескольких язык: http://www.iso.org/iso/ru/products/standards/catalogue_ics_browse.htm?ICS1=01&ICS2=020& |
ISO 26162:2012 25.08. 2012 ISO опубликовала стандарт ISO 26162:2012 «Системы управления терминологией, знаниями и контентом – Разработка, внедрение и поддержание систем управления терминологией» (Systems to manage terminology, knowledge and content – Design, implementation and maintenance of terminology management systems) объёмом 69 страниц.ISO 26162 – один из представителей семейства стандартов для упрощения обмена терминологическими данными. Он подготовлен рабочей группой SC3 технического комитета TC37 / (Терминология и другие языковые и контентные ресурсы / Системы управления терминологией, знаниями и контентом). В стандарте ISO 26162:формулируются критерии для разработки, внедрения и поддержания систем управления терминологией, СУТ (terminology management system, TMS). содержится обоснование использования СУТ,
имеются сведения о типах пользователей и их потребностях, об этапах проектирования и внедрения СУТ, о задачах организации и поддержки набора терминологических данных (terminological data collection, TDC). описанные этапы, необходимые для успешного развития СУТ и для того, чтобы избежать дорогостоящих ошибок. содержатся рекомендации по отбору и использованию категорий данных для управления терминологией в различных средах, по разработке и внедрению модели данных, а также в отношении пользовательского интерфейса системы управления терминологией, с ориентацией на целевые группы пользователей. Стандарт ISO 26162 предназначен для специалистов по терминологии, разработчиков программного обеспечения и прочих лиц, вовлеченных в процесс разработки или закупки СУТ. Источники: http://www.iso.org/iso/home/store/catalogue_tc/catalogue_detail.htm?csnumber=43427 http://www.archiv.ru/news/27/17975/
|
Стандарты представления терминологии Управление терминологией (terminology management) на практике часто терминологически отождествляют с: Однако, стандарты представления словарей/тезаурусов/онтологий существенно различаются и их поддержка требует существенно различных реализаций и программного обеспечения Примеры: SKOS (Simple Knowledge Organization System) - cамый простой и распространённый стандарт, утверждён в 2009г. http://www.w3.org/2004/02/skos/). ISO 15926 - самый сложный стандарт представления 4D онтологий, направлен на создание словарей (vocabulary), часть 4 которого называется "таксономия". http://dot15926.livejournal.com/27293.html OMG SBVR, Semantics of Business Vocabulary and Business Rules - промежуточный по сложности стандарт, в котором 90% посвящено словарям/онтологиям, и 10% нормам деятельности, которые формулируются с использованием чётко определенных словарём/онтологией значений. http://en.wikipedia.org/wiki/Semantics_of_Business_Vocabulary_and_Business_RulesSKOS (Simple Knowledge Organization System) - рекомендация W3C предназначенная для представления тезаурусов , классификационных схем , таксономий , предметных указателей систем, или любых других типов структурированных контролируемых словарей. SKOS является частью Semantic Web семейства стандартов создан на RDF и RDFS, его основной целью является обеспечение простой публикации и использования таких словарей, как проверенных и структурно оформленных списков терминов, используемых для тематического анализа, поиска документов и публикаций в областях образования, культуры, естественных, социальных и гуманитарных наук, коммуникации и информации. Тезаурус построен на основе нескольких основных полей с разбивкой на микротезаурусы, которые позволяют быстро знакомиться с темой. Условные обозначения SKOS: SN - Содержание термина: разъяснение, помогающее правильно использовать данное описание. MT - Микротезаурус: указание номера и наименования микротезауруса, к которому принадлежит данное описание. UF - Синоним: ссылка на одну или несколько позиций, не являющихся описанием и синонимичных или почти синонимичных данному описанию. BT - Широкий термин: ссылка на один или несколько родовых или порождающих элементов, являющихся описанием и расположенных одним уровнем выше в структуре тезауруса. NT - Узкий термин: ссылка на одно или несколько конкретных или производных описаний, находящихся одним уровнем ниже в структуре тезауруса. RT - Родственный термин: ссылка на одно или несколько сопутствующих описаний.
См.: http://skos.um.es/ |
|