kmp-OTT

Терминологические базы

Базы данных

База данных (БД) — организованная в соответствии с определёнными правилами и поддерживаемая в памяти компьютера совокупность данных, характеризующая актуальное состояние некоторой предметной области и используемая для удовлетворения информационных потребностей пользователей.

Данные в БД логически структурированы (систематизированы) с целью обеспечения возможности их эффективного поиска и обработки в вычислительной системе.

Структурированность подразумевает явное выделение составных частей (элементов), связей между ними, а также типизацию элементов и связей, при которой с типом элемента (связи) соотносится определённая семантика и допустимые операции.

БД включает:

данные
метаданные, описывающие логическую структуру БД в формальном виде (в соответствии с некоторой метамоделью).

Терминологические базы данных (ТБД)

Терминологические базы данных (ТБД, termbases) — базы данных, содержащие в качестве данных ключевые термины, которые должны одинаково толковаться и переводиться в пределах всего документа (проекта).

Каждый термин в ТБД снабжен метаданными (дополнительной информацией о термине):

указывается значение термина,
даются эквиваленты термина на других языках,
краткие формы термина,
его синонимы (допустимые и недопустимые),
сведения об области его применения
сообщается, каким документом утвержден термин (например, национальным или международным стандартом), и т. д.

ТБД подразделяют по целевому назначению:

ориентированные на обеспечение работ по переводу научно-технической литературы и документации
предназначенные для обеспечения информацией о стандартизованной и рекомендованной терминологии.

ТБД, помимо практического значения являются мощным средством проведения серьезных научных исследований.

ТБД подразделяют по инструментальному назначению:

ориентированные на использование человеком (терминологом, переводчиком и др. специалистами).
предназначенные для компьютерного использования (в системах автоматического управления терминологией).

Существует множество крупных ТБД:

с открытым и ограниченным доступом
являющиеся общественным достоянием и корпоративные
предоставляемых в качестве продукта и сетевого сервиса (платного или бесплатного)
формируемые экспертами или открытым сетевым сообществом
тематических и претендующих на глобальность
на конкретных языках и мультиязычные.

Примеры открытых сетевых ТБД

Терминологическая база данных ИСО (ISO Concept Database, ISO/CDB)

Международная организация по стандартизации ИСО создала концептуально-терминологическую базу данных, доступную по адресу http://cdb.iso.org/.

База данных ISO/CDB предоставляет согласованную платформу для поиска, разработки и поддержки концептуально-терминологического контента для всех стандартов ИСО и позволяет вести поиск по трём важным категориям:

Термины и определения
Графические символы
Коды (стран, валют, языков и т.д.)

По мере развития базы, планируется добавлять новые возможности.

В 1975 году создана терминологическая база данных Eurodicautom для использования переводчикам и другим сотрудникам Европейской комиссии.

В 2007 Eurodicautom заменена IATE (ИАТЭ).

IATE (Inter-Active Terminology for Europe — интерактивная терминология для Европы) — многоязычная база данных терминов, используемых в документах Европейского союза.

Проект запущен в 1999 году для предоставления единого доступа ко всем ресурсам по терминологии Евросоюза с целью упрощения доступа к информации, а также обеспечения стандартизации среди органов ЕС.

В 2004 IATE начала использоваться в институтах и агентствах ЕС.

28.06.2007 года IATE была официально открыт для свободного доступа http://iate.europa.eu

Терминологическая база Майкрософт (http://www.microsoft.com/Language/ru-ru/Terminology.aspx) доступна на Языковом портале Microsoft (http://www.microsoft.com/Language/ru-ru/default.aspx), где можно также получить Language Interface Packs (бесплатные языковые пакеты для Windows, Office и Visual Studio более чем на 50 языках).

Глоссарии предоставляются в формате TBX — стандартном формате для хранения терминов.

Помимо терминов TBX-файлы содержат следующие данные из терминологической базы Майкрософт:

идентификатор термина
определение
термин на исходном языке
идентификатор исходного языка
термин на языке перевода
идентификатор языка перевода

Терминологическую базу Майкрософт можно применять для разработки локализованных версий приложений, которые поддерживают интеграцию с продуктами Майкрософт, в том числе с помощью MUI и LIP

MUI (Multilingual User Interface) — технология Microsoft для локализации английских версий операционных систем.

LIP (Language Interface Pack) — программный продукт Microsoft, для упрощенной локализации систем (около 80 % элементов интерфейса). LIP имеет в своей основе технологию MUI.

08.08.2013

Международный совет архивов (МСА) официально принял и выложил на своем сайте многоязычную базу данных архивной терминологии (см. http://www.ica.org/14282/multilingual-archival-terminology/multilingual-archival-terminology.html)

Лючиана Дюранти (рук. проекта разработки ТБД):

Проект создания многоязычной базы данных архивной терминологии начался с базового набора терминов, основанных на понятиях, отраженных в предыдущих словарях Международного совета архивов и в глоссариях, подготовленных в рамках проекта InterPARES.
Терминология живет и изменяется, а попытка создать окончательный, авторитетный словарь, который раз и навсегда решил бы эту задачу, вылилась бы в обреченный на провал трудозатратный проект, потому что, учитывая наблюдающиеся в нашей области темпы изменения и роста, результат устарел бы уже в момент публикации – даже если бы в какой-то момент времени и удалось бы договориться об окончательных авторитетных определениях. Поэтому я вижу терминологическую базу данных как динамичный ресурс, способный извлекать выгоду из доступности цифровых сетей и использовать мудрость краудсорсинга в рамках сообщества архивистов и специалистов по управлению документами.

Создание терминологический баз данных

Создание многоязычных терминологических баз обычно входит в стандартный объем работ по любому крупному многоязычному проекту, что помогает сохранить единую терминологию и не допускать расхождение при выработке новых терминов.

Создание многоязычных терминологических баз может быть выполнено в качестве самостоятельного проекта.

Терминологические базы на заказ создаются на основе данных, содержащихся в переводах, выполненных как в нашей, так и в других компаниях.

Основа высокого качества переводов – профессионально созданная терминологическая база.

Для создания и обновления мощных терминологических баз применяют специальное программное обеспечение.

Системы автоматизированного перевода в классе памяти переводов (Translation memory) могут иметь интегрированные средства создания многоязычных терминологических баз

Multiterm – программа, служащая для создания терминологических баз для SDL Trados.

Терминологические базы в MultiTerm основываются не на словах, а на понятиях.

MultiTerm с мастера создания терминологической базы (Termbase Wizard) генерирует два файла *.MTF.XML (в нем будут находится термины) и *.XDT (в нем описана структура создаваемой терминологической базы). Терминологическую базу MultiTerm можно легко и быстро импортировать в среду Trados Studio.

Все обладатели легальных лицензий SDL Trados Studio или SDL MultiTerm могут бесплатно скачать терминологические базы «Microsoft» в формате MultiTerm здесь: http://www.sdl.com/en/language-technology/sdl-openexchange/AppDetails.aspx?appid=134

Терминологические базы данных в системе Deja Vu создаются на основе шаблонов, которые определяют типы отношений, атрибутов и категорий, присущих создаваемой базе данных. Шаблоны служат мощным средством унификации и сертификации глоссариев. Наиболее широко используются шаблоны ATRIL Deja Vu X и Vintars.

Создание простой новой базы данных в Deja Vu X2:

Открываем меню (“Файл -> Создать -> Терминологическая база..”) и выбираем имя и место сохранения новой базы (deja_vu_x2_tbd)
Выбираем минимальный шаблон deja_vu_x2_template и создание новой БД закончено.
Заполняем бызу новыми терминами.

Терминологические базы знаний

База знаний (БЗ; англ. knowledge base, KB) в информатике и исследованиях искусственного интеллекта — особого рода база данных, разработанная для оперирования знаниями (метаданными).

База знаний содержит:

структурированную информацию, покрывающую некоторую область знаний, для использования кибернетическим устройством (или человеком) с конкретной целью.
правила вывода, допускающие автоматические умозаключения о вновь вводимых фактах и, как следствие, осмысленную обработку информации.

Область наук об искусственном интеллекте, изучающая базы знаний и методы работы со знаниями, называется инженерией знаний.

Иерархический способ представления в базе знаний набора понятий и их отношений называется онтологией.

Онтологию некоторой области знаний вместе со сведениями о свойствах конкретных объектов также можно назвать базой знаний.

Примером терминологической базы знаний является Терминологическая база знаний «Научная терминология» (ТБЗ НТ)

ТБЗ «Научная терминология»

Терминологический центр Института русского языка им. В. В. Виноградова РАН создан в сентябре 2007 г. (http://www.ruslang.ru/agens.php?id=terminol_centre).

Цели и задачи Центра:

научно-исследовательская деятельность в области терминологии, специальной лексики и языков науки и техники;
научно-исследовательская деятельность в области культуры русского языка в профессиональных областях деятельности;
подготовка и издание сборников научно-нормативной терминологии;
разработка, создание и ведение терминологических банков данных и баз знаний;
методическое руководство и координирование работ по созданию научно-нормативных терминологий и словарей профессиональных языков;
сотрудничество с институтами, организациями, компаниями и фирмами по повышению культуры русского языка в профессиональных областях деятельности;
экспертиза нормативных терминологических словарей и терминологических стандартов;
международное сотрудничество с терминологическими организациями (IITF, AEFT, Infoterm, Nordterm и др.).

В рамках Терминологического центра функционирует Терминологическая база знаний «Научная терминология» (ТБЗ НТ), включающая

Восемь ТБЗ соответствует источникам на русском языке и представляют информацию на русском языке, остальные — источникам на английском языке и представляют информацию на английском языке.

ТБЗ НТ:

представляет собой терминологический банк данных, обладающий возможностями анализа понятийной структуры терминологии и структуры знания той или иной области.
включает 12 компьютерных терминологических баз знаний на русском и английском языках
содержит структурированные сведения о терминологии на русском и английском языках из различных словарей, энциклопедий и справочных изданий.
позволяет пополнять имеющиеся базы данных и формировать новые;
просматривать и изменять (корректировать) базы данных;
осуществлять гибкий и разнообразный поиск данных по различным признакам и их сочетанию.
получить и графически представить понятийную структуру терминологии соответствующей области знания, в которой каждое понятие характеризуется отношением к другим понятиям и своим уровнем в иерархии этих понятий (имеющим числовую характеристику);
получить и графически представить родовидовую и цело-частную структуры терминологических понятий данной области знания;
получить разнообразные списки терминов, называющих специфические понятия данной области, анализировать структуру данной области знания и производить некоторые логические выводы.

В качестве источника ТБЗ выступают нормативные терминологические словари и сборники научно-нормативной терминологии, а также словарно-справочные издания (например, «Лингвистический энциклопедический словарь» (М.: Изд-во «Советская энциклопедия», 1990)).

Лингвистические корпусы

Лингвистический корпус - репрезентативная (представительная - соответствующая той области функционирования языка, которую будет отражать) совокупность текстов, собранных в соответствии с определёнными принципами (соответствующим конкретной исследовательской задаче), размеченных (снабженных аннотациями) по определённому стандарту и обеспеченных специализированной поисковой системой.

Примеры корпусов:

Национальный корпус русского языка http://ruscorpora.ru/,
British National Corpus http://www.natcorp.ox.ac.uk/,

Параллельный текст (битекст) — текст на одном языке вместе с его переводом на другой язык. «Выравнивание параллельного текста» — это идентификация соответствующих друг другу предложений в обеих половинах параллельного текста. Выравнивание параллельного корпуса на уровне предложений является необходимой предпосылкой для различных аспектов лингвистических исследований.

Параллельный корпус (Parallel Corpora) - корпус параллельных текстов.

В современной корпусной лингвистике выделяется два вида параллельных корпусов:

многоязычный, или Comparable (Мultilingual) Сorpora,
переводной, или Translation Сorpora.

Структурная организация корпуса определяется его целями:

в виде традиционного текста со ссылкой на перевод/ы,
в табличной "зеркальной" форме, что более удобно для восприятия и сравнения,
в виде базы данных.

Примеры двуязычных/многоязычных корпусов:

EUROPARL - более 20.000.000 словоупотреблений, открытый корпус Европарламента на 11 языках http://www.isi.edu/~koehn/publications/europarl/
OPUS (an open source parallel corpus) - переводы в Интернет (5 языков). http://logos.uio.no/opus/

Проблемные корпусы - корпусы, представляющие некоторую часть языка (стиль, жанр, язык определённого писателя и т.п.) или созданные специально для изучения конкретной проблемы или проверки гипотезы.

Единицы хранения в корпусе:

тексты,
термины и терминообразования
дискурсивные слова,
рекламные слоганы и другое.

Корпусы в терминоведении

Корпус параллельных текстов представляет собой неструктурированную комплексную базу знаний и данных, достаточную для гармонизации терминологии включенных в него языков.

Контрастивное (сопоставительное) исследование терминологии на базе анализа корпуса параллельных текстов может служить основой для создания:

системы двуязычного терминологического словаря,
терминологической базы данных предметной области.

Сопоставительный анализ является плодотворным методом лингвистического исследования терминологии по отношению к корпусу параллельных текстов и дает возможность гармонизировать термины на уровне терминосистем.

Комплексный терминографический анализ корпуса параллельных текстов, направленного на гармонизацию терминов, обычно осуществляют двумя независимыми способами:

при помощи средств автоматической обработки текста,
вручную.

Первый из названных способов анализа корпуса параллельных текстов предполагает создание

частотного и алфавитно-частотного словарей каждого отдельно взятого корпуса,
создание конкорданса каждого отдельно взятого корпуса,
рабочий машинный перевод полученных словарей и текстов.

Второй способ требует строгого соблюдения последовательности этапов:

фрагментация исходных текстов,
выравнивание текстов на уровне абзацев и предложений,
выравнивание фрагментов на уровне слов и словосочетаний,
выравнивание фрагментов на уровне сопоставимых фрагментов,
сопоставительный лексико-семантический анализ полученных результатов.

Последовательное выполнение названных этапов позволило выделить в корпусе параллельных текстов термины и устойчивые терминологические словосочетания в языковых парах.