Тезаурусы

 

 

 

Тезаурус

 

Теза́урус (от греч. θησαυρός — сокровище) — собрание сведений (корпус, свод) охватывающее с  максимальной полнотой понятия, определения и термины специальной области знаний или сферы деятельности, с примерами их употребления в текстах.

Теза́урус (в современной лингвистике) — особая разновидность словарей общей или специальной лексики, в которых указаны семантические отношения (синонимы, антонимы, паронимы, гипонимы, гиперонимы и т. п.) между лексическими единицами.

Тезаурусы, особенно в электронном формате, являются одним из действенных инструментов для описания отдельных предметных областей и призваны способствовать пониманию в общении и взаимодействии лиц, связанных одной дисциплиной или профессией.

В отличие от толкового словаря, тезаурус позволяет выявить смысл не только с помощью определения, но и посредством соотнесения слова с другими понятиями и их группами, благодаря чему может использоваться для наполнения баз знаний систем искусственного интеллекта.

Термин тезаурус употребляется в теории информации для обозначения совокупности всех сведений, которыми обладает субъект.

Примеры:

  • Амара-коша (Словарь Амары) — первый и наиболее важный санскритский тезаурус (III—IV век)

  • Тезаурус Роже (XIX век, Англия, около 15 000 синсетов) - первый тезаурус в современном смысле слова.

  • Викисловарь: многоязычный свободно пополняемый словарь и тезаурус (2004-наст.вр., проект фонда Викимедиа, в Русском Викисловаре (дамп — январь 2009) содержится 250 тыс. понятий, 67 тыс. отношений)

  • РуТез — тезаурус русского языка (был создан Центром информационных исследований как инструмент для автоматического индексирования; разрабатывается с 1997 года по настоящее время, 45 тыс. понятий, 107 тыс. слов и выражений, 177 тыс. отношений).

  • Тезаурус английского языка (www.thesaurus.com)

  • WordNet http://wordnet.princeton.edu/

Составление тезауруса требует сограсованного участия различных специалистов (лингвистов, специалистов по информационной технологии, специалистов данной отрасли науки и технологии и т.д.).

 

 

 

Тезаурус: значения термина

 

Тезаурус - словарь с концептуальным входом и фиксированными семантическими связями между его единицами. Для определения тезауруса существенны оба указанных независимых признака (Никитина С.Е.).

Термин «тезаурус» употребляется по отношению к различным лингвистическим ресурсам и словарям:

  • особый вид словарей – идеографический, лексика в которых организуется по тематическому принципу. Первым такого рода словарем явился знаменитый Тезаурус Роже, созданный в 19 веке. Основное назначение таких словарей – помощь в подборе синонимов и близких по смыслу слов при написании текста.

  • информационно-поисковые тезаурусы, описывающие отношения между терминами предметной области. Такие словари создаются экспертами в некоторой предметной области и предназначены для помощи при информационном поиске.

  • лингвистические ресурсы описывающие отношения между лексическими значениями естественного языка как иерархическую систему групп синонимов – синсетов. Примеры: WordNet , EuroWordNet.

  • Ассоциативные тезаурусы:

  • словари, описывающие психологические ассоциации между словами, возникающие у людей. Например,  Русский ассоциативный словарь.

  • собрание ссылок на ресурсы, создаваемые автоматически на основе обработки текстовых коллекций и показывающие совместную встречаемость пар слов в документах.

 

 

 

Тезаурус WordNet

 

 

WordNet — это электронный тезаурус/семантическая сеть для английского языка, разработанный в Принстонском университете и выпущенный вместе с сопутствующим программным обеспечением под некопилефтной свободной лицензией.

WordNet  состоит из 4 сетей для основных знаменательных частей речи:

  • существительных,

  • глаголов,

  • прилагательных,

  • наречий.

Базовой словарной единицей в WordNet является не отдельное слово, а синсеты/

Синсет - синонимический ряд, объединяющий слова со схожим значением и являющийся узлом сети WordNet.

Каждый синсет дополнен дефиницией и примерами употребления слов в контексте (ля удобства использования человеком).

Слово или словосочетание может появляться более чем в одном синсете и иметь более одной категории части речи.

Каждый синсет содержит список синонимов или синонимичных словосочетаний и указатели, описывающие отношения между ним и другими синсетами.

Слова, имеющие несколько значений, включаются в несколько синсетов и могут быть причислены к различным синтаксическим и лексическим классам.

Синсеты в WordNet связаны между собой различными семантическими отношениями:

  • гипероним (breakfast → meal) (завтрак → прием пищи);

  • гипоним (meal → lunch) (прием пищи → обед);

  • has-member (faculty → professor) (факультет → профессор);

  • member-of (pilot → crew) (пилот → экипаж);

  • мероним: has-part (table → leg) (стол → ножка);

  • антоним (leader → follower) (лидер → последователь).

Также, существуют различные другие связи: лексические, антонимические, контекстные (слово 'x' имеет отношение к слову 'y') и другими. Среди них особую роль играет гипонимия: она позволяет организовывать синсеты в виде семантических сетей. Для разных частей речи родовидовые отношения могут иметь дополнительные характеристики и различаться областью охвата.

WordNet можно свободно использовать в коммерческих и научных целях.

Для работы с WordNet существуют различные программы, множество интерфейсов и API, реализуемых как на большинстве возможных языков, так и с помощью протокола DICT (программы GoldenDict).

 

 

 

 

Информационно-поисковые тезаурусы

 

В соответствии с определениями стандартов, информационно-поисковый тезаурус – это нормативный словарь, точно указывающий отношения между терминами и предназначенный для описания содержания документов и поисковых запросов.

Основные цели разработки информационно-поисковых тезаурусов:

  • обеспечение перевода документов и запросов пользователей на один и тот же словарь, используемый для индексирования и поиска. Таким образом, различия в лексическом составе документа и запроса пользователя сводятся к одним и тем же единицам тезауруса.

  • обеспечение последовательного использования единиц индексирования.

  • обеспечение отношений между терминами – отношения между единицами тезауруса позволяют найти оптимальный термин для описания документа или запроса.

  • использование как поискового средства при поиске документов.

 

Информационно-поисковый тезаурус (ИПТ) - словарь лексических единиц информационно-поискового языка, в котором заданы парадигматические (базисные) смысловые отношения между этими единицами.

Информационно-поисковый язык (ИПЯ) - формализованный искусственный язык, предназначенный для индексирования документов, информационных запросов и описания фактов с целью последующего хранения и поиска.

Информационно-поисковые тезаурусы строятся для описания лексики дескрипторных ИПЯ, лексическими единицами которых являются дескрипторы.

Лексическая единица ИПЯ - обозначение отдельного понятия, принятое в информационно-поисковом языке и неделимое в этой функции.

Лексические единицы могут представлять собой принятые в естественном языке слова, устойчивые словосочетания, аббревиатуры, символы, даты, общепринятые сокращения, лексически значимые компоненты сложных слов, а также эквивалентные им кодовые или символические обозначения искусственного языка, например коды классов классификационной системы.

Дескриптор это ключевое слово, выбранное из группы условно эквивалентных ключевых слов и представляющее данную группу при индексировании и поиске информации. Дескриптор также описывается как смысловая доминанта, или основное понятие с относящимся к нему словом, подобно заголовочному слову в толковом словаре. 

В роли дескрипторов выступают термины, обозначающие отдельные понятия некоторой предметной области и удовлетворяющие принципам общеупотребительности, распространенности, краткости и терминологической точности.

Ключевое слово (КС) – отдельное слово или словосочетание естественного языка, выделяемое из текста информационного документа и отражающее его основное содержание при индексировании.

Группа условно эквивалентных КС объединяет не только те слова и словосочетания, которые признаются синонимами в естественном языке, но и такие, которые можно считать условно равнозначными с точки зрения информационного поиска, т. е. в рамках данного ИПЯ.

Парадигматические  отношения (базисные, аналитические, ассоциативные)выражают постоянные семантические (смысловые) связи между ЛЕ ИПЯ, не зависящие от текста. Таковыми признаются отношения «род – вид», «целое – часть» и т. п. Они являются стабильными для каждой предметной области и могут быть зафиксированы в словаре.

Например, судак, лещ, форель относятся к семантической категории «Рыбы», т.е. отношение «род-вид» между дескрипторами рыбы – судак являются контекстуально не зависимыми. Это парадигматическое отношение.

В ИПТ обычно фиксируются следующие парадигматические отношения:

  • родо–видовые,

  • отношения эквивалентности (синонимии),

  • ассоциативные отношения.

Отношение «род – вид» связывает два дескриптора, если объем понятия, соответствующий одному из дескрипторов, включает в себя объем понятия другого дескриптора, например, рыба – форель, рыболовные снасти – удочка, способы ловли рыбы – спиннинг.

Отношение синонимии означает, что поиск по одному из условных или истинных синонимов позволит найти в базе данных автоматизированной информационной системы (АИС) те документы, которым приписаны в качестве ключевых слов остальные.

Например, рыболовство = рыбная ловля = рыбный промысел.

Ассоциативные отношения устанавливаются между КС, принадлежащими к одной и той же или разным смысловым категориям и произвольным уровням иерархии. Они аналогичны ассоциативным связям в сознании человека, когда возникающее представление об одном объекте вызывает представления о других.

Например, при поиске по дескриптору Рыболовство пользователю АИС можно предложить провести дополнительные поиски по дескрипторам: отрасль промышленности, сырьевые ресурсы Мирового океана, водохранилища, виды рыб, млекопитающие, моллюски, способы рыбной ловли, снасти и т.д.

Ассоциативные связи, как правило, не различают в ИПТ по их семантике.

Распространены следующие виды ассоциаций:

  • «целое – часть»;

  • «причина – следствие»,

  • «близость в пространстве или во времени»,

  • «антонимия»,

  • «предмет – обычая область его применения». 

При разработке информационно-поисковых тезаурусов первой задачей является отбор терминов для включения в тезаурус.

Основные источники терминов для разработки информационно-поисковых тезаурусов:

  • существующие тезаурусы в близких предметных областях.

  • Термины – кандидаты на внесение в тезаурус – могут быть предложены экспертами предметной области.

  • термины тезауруса могут быть получены из текстов предметной области применением автоматизированных методов или ручной обработки документов. .

Если в списке обнаруживается несколько близких по смыслу терминов, то из них выделяется наиболее частотный термин, остальные термины могут быть исключены и переведены в аскрипторы.

Правила включения терминов в тезаурус:

  • исключаются слишком частотные термины, поскольку предполагается, что они являются малоинформативными для различения отдельных документов.

  • термины тезауруса должны представлять понятия, которые реально упоминаются в литературе, и должны отбираться из соображений эффективности их использования в поиске документов.

  • малочастотные термины могут быть удалены из списка или представлены как аскрипторы более общих или более частотных понятий.

  • Включение новых терминов в тезаурус должно происходить с учетом уже включенных тезаурусных терминов. Термины-кандидаты должны проверяться на предмет соответствия их общности / специфичности к другим терминам тезауруса. Также должно проверяться, представляет ли термин-кандидат отдельное понятие, которому нет соответствий среди существующих терминов тезауруса. Необходимо избегать включения терминов, чьи значения пересекаются со значениями уже существующих тезаурусных терминов настолько, что индексаторам и пользователям будет трудно различать их.

 

 

 

Тезаурусный подход

 

В  научной терминологии нашего времени — в лингвистике, семиотике, информатике, теории искусственного интеллекта и других областях знания — тезаурус обозначает некоторое особым образом оформленное накопление.

В информатике и теории искусственного интеллекта обращается внимание на систематизацию данных, составляющих тезаурус, и на их ориентирующий характер.

Именно такая характеристика тезауруса легла в основу содержания этого понятия в общегуманитарном тезаурусном подходе:

Тезаурус — это структурированное представление и общий образ той части мировой культуры, которую может освоить субъект.

Характерные особенности тезауруса:

  • неполнота любого тезауруса по сравнению с реальным развитием культуры, его фрагментарность, относительная непоследовательность; единство тезауруса, несмотря на фрагментарность составляющих его элементов, обеспечивается субъективно (внутренняя логика), в частности, через единство личности;

  • иерархичность, восприятие мировой культуры сквозь призму ценностного подхода; выделенные приоритеты составляют определенную подсистему — ядро тезауруса;

  • творческое пересоздание, переосмысление, вводящее герменевтический аспект в характеристику тезауруса;

  • ориентирующий характер тезауруса;

  • наличие родственных явлений в других тезаурусах, что ставит вопрос о генезисе тезаурусов;

  • разнообразие и изменчивость тезаурусов, множественность уровней освоения культуры, при наличии ядра — отсутствие четких границ;

  • действенность тезауруса, который влияет на поведение, другие проявления субъекта; воспитывающий (социализирующий) характер.

Тезаурусы лежат в основе социального конструирования реальности.

Тезаурус  строится не от общего к частному, а от своего к чужому. Все новое для того, чтобы занять определенное место в тезаурусе, должно быть в той или иной мере освоено (буквально: сделано своим):

  • Мир входит в сознание человека в определенной последовательности, которую определяет уже сложившаяся структура тезауруса, отбирающая, оценивающая и преобразующая (перекодирующая, переводящая на понятный «язык») многообразные сигналы извне.

  • Центральное место занимает образ самого себя (самоосознание) и другого человека. От одного человека тезаурус переходит к двум (здесь важными оказываются такие аспекты человеческого существования, как дружба, любовь, спор, вражда, зависть, диалог, общение, отношение «учитель — ученик»). Затем к трем (семья: отец — мать — ребенок) и более (микрогруппа).

  • Осознается ближайшая среда (окружающие вещи, мебель, дом, обозримое природное пространство).

  • Следующие круги тезауруса — свой город или деревня, страна, общество (нация, класс, человечество), общественные отношения и чувства (долг, совесть, свобода, равенство, братство, избранность, отчужденность, одиночество), обучение и воспитание, «свое» и «чужое» (иностранное), человек как микрокосм, вселенная, общие законы мироздания.

Плодотворно использование тезаурусного подхода для осмысления и организации социального проектирования, где тезаурусом мы называем полный систематизированный состав информации (знаний) и установок в той или иной области жизнедеятельности, позволяющий в ней ориентироваться.

Тезаурусный подход дает новые средства для описания и понимания процессов социализации, в том числе и в динамично меняющихся социальных системах.

Тезаурусный подход к социализации позволяет, как представляется, преодолеть некоторые противоречия социализационных теорий.

 Концептуальная сторона тезаурусного подхода:

  • Тезаурус — индивидуальная конфигурация ориентационной информации (знаний, установок), которая складывается под воздействием макро- и микросоциальных факторов и обеспечивает ориентацию человека в различных ситуациях и на различных уровнях социальности.

  • Освоение социальности в конечном счете идет по модели разделения «своего» и «чужого» (при сильном влиянии значимых других) и выработки позиции по отношению к определяемым фрагментам общественной жизни по конструкции апрейзеров

  • Адаптация и интериоризация как этапы социализационного процесса в аспекте формирования тезауруса соответствуют последовательности: (1) отделение (референция) «чужого» и установление дистанции, приемлемой для отношения к нему; (2) переработка «своего» в тезаурусе вплоть до потери осмысленной референции «своего».

  • Передача социального опыта от поколения к поколению, формирование нового социального опыта идут в рамках тезаурусных конфигураций. Эти рамки включают и макросоциальные влияния (структурно-функциональные и ситуативные) и микросоциальные влияния (статусно-ролевые, групповой динамики, ситуативные). Жизненные концепции могут оказывать регулирующую роль в преимуществах тех или иных влияний.

  • Тезаурусы агентов социализационного процесса способны видоизменять как ход (направленность, фазы, скорость) этого процесса, так и его результативность. Результативность социализации оценивается в соответствии с тезаурусной структурой, характерной для данного общества (сообщества).

Луков Вал. А., Луков Вл. А. Тезаурусный подход в гуманитарных науках

 

 

 

Онтологии

 

Онтология (новолат. ontologia от др.-греч.  сущее, то, что существует и учение, наука) — учение о сущем; учение о бытии как таковом; раздел философии, изучающий фундаментальные принципы бытия

Термин «Онтология» был предложен Рудольфом Гоклениусом в 1613 году в его «Философском словаре». В практическом употреблении термин был закреплён Христианом Вольфом, явно разделившим семантику терминов «онтология» и «метафизика».

Основной вопрос онтологии: что существует?

Основные понятия онтологии: бытие, структура, свойства, формы бытия (материальное, идеальное, экзистенциальное), пространство, время, движение.

Иное понимание онтологии даёт американский философ Уиллард Куайн: в его терминах онтология — это содержание некоторой теории, то есть объекты, которые постулируются данной теорией в качестве существующих.

К. Р. Поппер сформулировал концепцию трёх миров: (1) мира физических объектов и состояний, (2) мира психических и ментальных состояний сознания и (3) мира объективного содержания мышления (сюда входят содержание научных гипотез, литературные произведения и другие не зависящие от субъективного восприятия объекты).

Онтология (в информатике):

  • эксплицитная (явная) спецификация концептуализации описания множества объектов и связей между ними,

  • формализованное представление основных понятий и связей между ними,

  • нечто структурирующее хаос.

Онтология — это структурная спецификация некоторой предметной области, ее формализованное представление, которое включает словарь (или имена) указателей на термины предметной области и логические выражения, которые описывают, как они соотносятся друг с другом. Онтологии обеспечивают словарь для представления и обмена знаниями о некоторой предметной области и множество связей, установленных между терминами в этом словаре.

Формально онтология состоит из:

  • понятий терминов, организованных в таксономию,

  • их описаний,

  • правил вывода.

Типы онтологий:

  • Мета-онтологии — описывают наиболее общие понятия, которые не зависят от предметных областей.

  • Онтология предметной области — формальное описание предметной области, обычно применяется для того, чтобы уточнить понятия, определённые в мета-онтологии (если используется), и/или определить общую терминологическую базу предметной области.

  • Онтология конкретной задачи — онтология, определяющая общую терминологическую базу задачи, проблемы.

Сетевые онтологии часто используют для описания конечных результатов действий, выполняемых объектами предметной области или задачи.

Модель онтологии. Формально онтология определяется как O = <X,R,F>, где:

X — конечное множество понятий предметной области,
R — конечное множество отношений между понятиями,
F — конечное множество функций интерпретации.

 

Для описания онтологий существуют различные языки и системы, однако, наиболее перспективным представляется визуальный подход, позволяющий специалистам непосредственно «рисовать» онтологии, что помогает наглядно сформулировать и объяснить природу и структуру явлений.

Визуальные модели (например, графы) обладают особенным познавательным потенциалом.

Проектирование и разработка онтологий (онтологический инжиниринг) требует от разработчиков профессионального владения технологиями инженерии знаний – от методов извлечения знаний до структурирования и формализации.

Онтологический инжиниринг - важнейшее звено процесса структурирования комплексных систем автоматизации (объединяет две основные технологии проектирования больших систем – объектно-ориентированный и структурный анализ).

Онтологическая инженерия находится в процессе становления, есть открытые вопросы как относительно принимаемых моделей знаний, так и относительно используемых инструментов.

 

 

 

Онтологии в терминоведении

 

Онтология (в терминоведении) —  развитое формализованное средство описания терминов предметной области, которое может использоваться в современных интеллектуальных информационных системах. Онтология состоит из набора понятий (концептов) и набора утверждений об этих понятиях: классификация понятий, отношения между понятиями; в частности иерархии понятий по отношениям «общее — частное» и «часть — целое».

 

InTez (http://www.inttez.ru/) —  проект, направленный на создание открытой сетевой среды, поддерживающей работу с онтологией.