Базы данных
База данных
( БД)
—
организованная в соответствии с определёнными правилами и поддерживаемая
в памяти компьютера совокупность данных, характеризующая актуальное
состояние некоторой предметной области и используемая для удовлетворения
информационных потребностей пользователей.
Данные в БД логически структурированы (систематизированы) с целью
обеспечения возможности их эффективного поиска и обработки в
вычислительной системе.
Структурированность
подразумевает явное выделение составных частей (элементов), связей между
ними, а также типизацию элементов и связей, при которой с типом элемента
(связи) соотносится определённая семантика и допустимые операции.
БД включает:
|
Т ерминологические
базы данных (ТБД)
Терминологические базы данных
(ТБД,
termbases)
— базы данных, содержащие в качестве данных ключевые термины, которые должны
одинаково толковаться и переводиться в пределах всего документа (проекта).
Каждый
термин в ТБД снабжен метаданными (дополнительной информацией о
термине):
-
указывается значение термина,
-
даются эквиваленты термина на других языках,
-
краткие формы термина,
-
его синонимы (допустимые и недопустимые),
-
сведения об области его применения
-
сообщается, каким
документом утвержден термин (например, национальным или
международным стандартом), и т. д.
ТБД
подразделяют по
целевому назначению:
ТБД, помимо практического значения являются мощным средством проведения серьезных научных исследований.
ТБД
подразделяют по
инструментальному назначению :
-
ориентированные на использование человеком (терминологом,
переводчиком и др. специалистами).
-
предназначенные для компьютерного использования (в системах
автоматического управления терминологией).
Существует множество крупных ТБД:
-
с открытым и ограниченным доступом
-
являющиеся общественным достоянием и корпоративные
-
предоставляемых в качестве продукта и сетевого сервиса
(платного или бесплатного)
-
формируемые экспертами или открытым сетевым сообществом
-
тематических и претендующих на глобальность
-
на конкретных языках и мультиязычные.
|
Примеры
открытых сетевых ТБД
Терминологическая база
данных ИСО
(ISO Concept
Database,
ISO/CDB)
Международная
организация по стандартизации ИСО создала
концептуально-терминологическую базу данных, доступную по адресу http://cdb.iso.org/.
База данных
ISO/CDB
предоставляет согласованную платформу для поиска, разработки и поддержки
концептуально-терминологического контента для всех стандартов ИСО и
позволяет вести поиск по трём важным категориям:
По мере развития базы,
планируется добавлять новые возможности.
В 1975 году создана терминологическая
база данных
Eurodicautom
для использования переводчикам и другим сотрудникам Европейской
комиссии.
В 2007 Eurodicautom заменена
IATE (ИАТЭ).
IATE (Inter-Active
Terminology for Europe —
интерактивная терминология для Европы) — многоязычная база
данных терминов, используемых в документах Европейского союза.
Проект запущен в 1999 году для предоставления единого доступа ко
всем ресурсам по терминологии Евросоюза с целью упрощения доступа к
информации, а также обеспечения стандартизации среди органов ЕС.
В
2004
IATE
начала
использоваться в институтах и агентствах ЕС.
28.06.2007
года
IATE
была официально открыт для свободного доступа
http://iate.europa.eu
Терминологическая база Майкрософт
(http://www.microsoft.com/Language/ru-ru/Terminology.aspx)
доступна на Языковом портале
Microsoft (http://www.microsoft.com/Language/ru-ru/default.aspx), где можно также получить
Language Interface Packs
(бесплатные языковые пакеты для Windows, Office и Visual
Studio более чем на 50 языках).
Глоссарии предоставляются в формате
TBX — стандартном формате для
хранения терминов.
Помимо терминов TBX-файлы содержат следующие данные из терминологической базы
Майкрософт:
Терминологическую базу Майкрософт можно применять для разработки
локализованных версий приложений, которые поддерживают интеграцию с
продуктами Майкрософт, в том числе с помощью
MUI и
LIP
MUI (Multilingual User Interface) —
технология Microsoft для локализации английских
версий операционных систем.
LIP (Language Interface Pack) —
программный продукт Microsoft, для упрощенной локализации систем (около 80 %
элементов интерфейса). LIP имеет в своей основе технологию MUI.
08.08.2013
Международный совет архивов (МСА) официально принял и выложил на
своем сайте
многоязычную базу данных архивной терминологии (см.
http://www.ica.org/14282/multilingual-archival-terminology/multilingual-archival-terminology.html)
Лючиана
Дюранти
(рук. проекта разработки ТБД):
-
Проект создания многоязычной базы данных архивной терминологии
начался с базового набора терминов, основанных на понятиях,
отраженных в предыдущих словарях Международного совета архивов и в
глоссариях, подготовленных в рамках проекта InterPARES.
-
Терминология живет и изменяется, а попытка создать окончательный,
авторитетный словарь, который раз и навсегда решил бы эту задачу,
вылилась бы в обреченный на провал трудозатратный проект, потому
что, учитывая наблюдающиеся в нашей области темпы изменения и роста,
результат устарел бы уже в момент публикации – даже если бы в
какой-то момент времени и удалось бы договориться об окончательных
авторитетных определениях. Поэтому я вижу терминологическую
базу данных как динамичный ресурс, способный извлекать выгоду из
доступности цифровых сетей и использовать мудрость краудсорсинга в
рамках сообщества архивистов и специалистов по управлению
документами.
|
Создание терминологический баз данных
Создание
многоязычных
терминологических баз обычно входит в стандартный объем работ
по любому крупному многоязычному проекту, что
помогает сохранить единую терминологию и не допускать расхождение при
выработке новых терминов.
Создание
многоязычных
терминологических баз
может
быть выполнено в качестве самостоятельного проекта.
Терминологические базы на заказ создаются на основе данных, содержащихся
в переводах, выполненных как в нашей, так и в других компаниях.
Основа высокого качества переводов – профессионально созданная
терминологическая база.
Для создания и обновления
мощных терминологических баз применяют специальное
программное обеспечение.
Системы
автоматизированного перевода в классе памяти переводов (Translation
memory) могут иметь интегрированные средства создания
многоязычных
терминологических баз
Multiterm
– программа, служащая для создания терминологических баз для
SDL Trados.
Терминологические базы в MultiTerm основываются не на словах, а на
понятиях.
MultiTerm
с мастера создания терминологической базы (Termbase Wizard)
генерирует
два файла *.MTF.XML (в нем будут находится термины) и *.XDT (в нем
описана структура создаваемой терминологической базы). Терминологическую
базу MultiTerm можно легко и быстро импортировать в среду Trados Studio.
Все обладатели
легальных лицензий SDL Trados Studio или SDL MultiTerm могут бесплатно
скачать терминологические базы «Microsoft» в формате MultiTerm здесь:
http://www.sdl.com/en/language-technology/sdl-openexchange/AppDetails.aspx?appid=134
Терминологические базы данных в системе
Deja Vu
создаются на основе шаблонов, которые определяют типы
отношений, атрибутов и категорий, присущих создаваемой базе данных.
Шаблоны служат мощным средством унификации и сертификации глоссариев.
Наиболее широко используются шаблоны
ATRIL Deja Vu X и Vintars.
Создание простой новой базы данных в Deja Vu X2:
-
Открываем меню (“Файл -> Создать -> Терминологическая база..”) и
выбираем имя и место сохранения новой базы (deja_vu_x2_tbd)
-
Выбираем минимальный шаблон deja_vu_x2_template и создание новой БД
закончено.
Заполняем бызу
новыми терминами.
|
Терминологические базы знаний
База знаний (БЗ; англ. knowledge base,
KB) в информатике и исследованиях искусственного интеллекта — особого рода база данных, разработанная для оперирования знаниями
(метаданными).
База знаний содержит:
-
структурированную информацию,
покрывающую некоторую область знаний, для использования
кибернетическим устройством (или человеком) с конкретной целью.
-
правила
вывода, допускающие автоматические умозаключения о вновь вводимых
фактах и, как следствие, осмысленную обработку информации.
Область наук об искусственном интеллекте, изучающая базы знаний и
методы работы со знаниями, называется инженерией знаний.
Иерархический способ представления в базе знаний набора понятий и их
отношений называется онтологией.
Онтологию некоторой области знаний
вместе со сведениями о свойствах конкретных объектов также можно
назвать базой знаний.
Примером
терминологической базы знаний является
Терминологическая база
знаний «Научная терминология»
(ТБЗ НТ)
|
ТБЗ «Научная терминология»
Терминологический центр Института русского языка им. В. В. Виноградова РАН
создан в сентябре 2007 г. (http://www.ruslang.ru/agens.php?id=terminol_centre).
Цели и задачи Центра:
-
научно-исследовательская деятельность в области терминологии,
специальной лексики и языков науки и техники;
-
научно-исследовательская деятельность в области культуры русского
языка в профессиональных областях деятельности;
-
подготовка и издание сборников научно-нормативной терминологии;
-
разработка, создание и ведение терминологических банков данных и баз
знаний;
-
методическое руководство и координирование работ по созданию
научно-нормативных терминологий и словарей профессиональных языков;
-
сотрудничество с институтами, организациями, компаниями и фирмами по
повышению культуры русского языка в профессиональных областях
деятельности;
-
экспертиза нормативных терминологических словарей и терминологических
стандартов;
-
международное сотрудничество с терминологическими организациями (IITF,
AEFT, Infoterm, Nordterm и др.).
В рамках Терминологического центра функционирует
Терминологическая база
знаний «Научная терминология»
(ТБЗ НТ),
включающая
Восемь ТБЗ соответствует источникам на русском языке и представляют
информацию на русском языке, остальные — источникам на английском языке
и представляют информацию на английском языке.
ТБЗ
НТ:
-
представляет собой
терминологический банк данных, обладающий возможностями анализа понятийной структуры
терминологии и структуры знания той или иной области.
-
включает
12 компьютерных терминологических баз знаний на русском и английском
языках
-
содержит структурированные сведения о терминологии на русском
и английском языках из различных словарей, энциклопедий и справочных
изданий.
-
позволяет пополнять имеющиеся базы данных и формировать новые;
-
просматривать и изменять (корректировать) базы данных;
-
осуществлять гибкий и разнообразный поиск данных по различным
признакам и их сочетанию.
-
получить и графически представить понятийную структуру терминологии
соответствующей области знания, в которой каждое понятие характеризуется
отношением к другим понятиям и своим уровнем в иерархии этих понятий
(имеющим числовую характеристику);
-
получить и графически представить родовидовую и цело-частную структуры
терминологических понятий данной области знания;
-
получить разнообразные списки терминов, называющих специфические
понятия данной области, анализировать структуру данной области знания
и производить некоторые логические выводы.
В качестве
источника ТБЗ выступают нормативные терминологические словари и сборники
научно-нормативной терминологии, а также словарно-справочные издания
(например, «Лингвистический энциклопедический словарь» (М.: Изд-во
«Советская энциклопедия», 1990)).
|
Лингвистические корпусы
Лингвистический корпус - репрезентативная
(представительная - соответствующая той области функционирования языка,
которую будет отражать) совокупность текстов, собранных в соответствии с
определёнными принципами (соответствующим конкретной исследовательской
задаче), размеченных (снабженных аннотациями) по определённому стандарту
и обеспеченных специализированной поисковой системой.
Примеры корпусов:
Параллельный текст (битекст) — текст на
одном языке вместе с его переводом на другой язык. «Выравнивание
параллельного текста» — это идентификация соответствующих друг другу
предложений в обеих половинах параллельного текста.
Выравнивание параллельного корпуса на уровне предложений является
необходимой предпосылкой для различных аспектов
лингвистических исследований.
Параллельный
корпус
(Parallel
Corpora)
- корпус
параллельных текстов.
В современной корпусной лингвистике выделяется два вида
параллельных корпусов:
-
многоязычный, или Comparable (Мultilingual) Сorpora,
-
переводной, или Translation Сorpora.
Структурная организация корпуса определяется его целями:
-
в виде традиционного текста со ссылкой на перевод/ы,
-
в табличной "зеркальной" форме, что более удобно для
восприятия и сравнения,
-
в виде базы
данных.
Примеры двуязычных/многоязычных корпусов:
Проблемные корпусы
- корпусы, представляющие некоторую часть языка (стиль, жанр, язык
определённого писателя и т.п.) или созданные специально для изучения
конкретной проблемы или проверки гипотезы.
Единицы хранения в корпусе:
|
Корпусы в терминоведении
Корпус параллельных текстов представляет собой
неструктурированную комплексную базу знаний и данных, достаточную для
гармонизации терминологии включенных в него языков.
Контрастивное (сопоставительное) исследование
терминологии на базе анализа корпуса параллельных текстов может служить
основой для создания:
Сопоставительный анализ
является плодотворным методом лингвистического исследования
терминологии по отношению к корпусу параллельных текстов и
дает возможность гармонизировать термины на уровне терминосистем.
Комплексный терминографический анализ
корпуса параллельных текстов, направленного на гармонизацию терминов,
обычно осуществляют двумя независимыми
способами:
Первый из названных способов анализа корпуса
параллельных текстов предполагает создание
-
частотного и алфавитно-частотного словарей каждого
отдельно взятого корпуса,
-
создание конкорданса каждого
отдельно взятого корпуса,
-
рабочий машинный перевод полученных словарей и
текстов.
Второй способ требует строгого соблюдения последовательности
этапов:
-
фрагментация исходных текстов,
-
выравнивание текстов на
уровне абзацев и предложений,
-
выравнивание фрагментов на уровне слов
и словосочетаний,
-
выравнивание фрагментов на уровне сопоставимых фрагментов,
-
сопоставительный лексико-семантический анализ полученных результатов.
Последовательное выполнение названных этапов позволило выделить в
корпусе параллельных текстов термины и устойчивые
терминологические словосочетания в
языковых парах.
|
|