Тезаурус Теза́урус (от греч. θησαυρός — сокровище) — собрание сведений (корпус, свод) охватывающее с максимальной полнотой понятия, определения и термины специальной области знаний или сферы деятельности, с примерами их употребления в текстах.Теза́урус (в современной лингвистике) — особая разновидность словарей общей или специальной лексики, в которых указаны семантические отношения (синонимы, антонимы, паронимы, гипонимы, гиперонимы и т. п.) между лексическими единицами. Тезаурусы, особенно в электронном формате, являются одним из действенных инструментов для описания отдельных предметных областей и призваны способствовать пониманию в общении и взаимодействии лиц, связанных одной дисциплиной или профессией. В отличие от толкового словаря, тезаурус позволяет выявить смысл не только с помощью определения, но и посредством соотнесения слова с другими понятиями и их группами, благодаря чему может использоваться для наполнения баз знаний систем искусственного интеллекта. Термин тезаурус употребляется в теории информации для обозначения совокупности всех сведений, которыми обладает субъект. Примеры: (Словарь Амары) — первый и наиболее важный санскритский тезаурус (III—IV век)Тезаурус Роже (XIX век, Англия, около 15 000 синсетов) - первый тезаурус в современном смысле слова. Викисловарь : многоязычный свободно пополняемый словарь и тезаурус (2004-наст.вр., проект фонда Викимедиа, в Русском Викисловаре (дамп — январь 2009) содержится 250 тыс. понятий, 67 тыс. отношений)РуТез — тезаурус русского языка (был создан Центром информационных исследований как инструмент для автоматического индексирования; разрабатывается с 1997 года по настоящее время, 45 тыс. понятий, 107 тыс. слов и выражений, 177 тыс. отношений).Тезаурус английского языка (www.thesaurus.com)
WordNet
http://wordnet.princeton.edu/
Составление тезауруса требует
сограсованного участия
различных специалистов (лингвистов, специалистов по информационной
технологии, специалистов данной отрасли науки и технологии и т.д.).
|
Тезаурус: значения термина
Тезаурус -
словарь с концептуальным
входом и фиксированными
семантическими связями между
его единицами. Для определения тезауруса
существенны оба указанных независимых признака (Никитина С.Е.).
Термин «тезаурус» употребляется по отношению к различным
лингвистическим ресурсам и словарям:
-
особый вид словарей – идеографический,
лексика в которых организуется по тематическому принципу. Первым такого
рода словарем явился знаменитый Тезаурус Роже, созданный в 19 веке.
Основное назначение таких словарей – помощь в подборе синонимов и
близких по смыслу слов при написании текста.
-
информационно-поисковые
тезаурусы, описывающие отношения между терминами предметной области.
Такие словари создаются экспертами в некоторой предметной области и
предназначены для помощи при информационном поиске.
-
лингвистические
ресурсы описывающие отношения между лексическими значениями естественного языка
как иерархическую систему групп синонимов – синсетов. Примеры: WordNet , EuroWordNet.
-
Ассоциативные тезаурусы:
-
словари, описывающие психологические ассоциации между
словами, возникающие у людей. Например, Русский
ассоциативный словарь.
-
собрание ссылок на ресурсы, создаваемые автоматически
на основе обработки текстовых коллекций и показывающие совместную
встречаемость пар слов в документах.
|
Тезаурус WordNet
WordNet — это электронный тезаурус/семантическая
сеть для английского языка, разработанный в Принстонском университете и
выпущенный вместе с сопутствующим программным обеспечением под
некопилефтной свободной лицензией.
WordNet
состоит из 4 сетей для основных знаменательных частей речи:
-
существительных,
-
глаголов,
-
прилагательных,
-
наречий.
Базовой словарной
единицей в WordNet является не отдельное слово,
а
синсеты/
Синсет - синонимический ряд, объединяющий слова со схожим значением и
являющийся узлом сети
WordNet.
Каждый синсет дополнен дефиницией и примерами
употребления слов в контексте (ля
удобства использования человеком).
Слово или словосочетание может появляться
более чем в одном синсете и иметь более одной категории части речи.
Каждый синсет содержит список синонимов или синонимичных словосочетаний
и указатели, описывающие отношения между ним и другими синсетами.
Слова,
имеющие несколько значений, включаются в несколько синсетов и могут быть
причислены к различным синтаксическим и лексическим классам.
Синсеты в WordNet связаны между собой различными семантическими
отношениями:
-
гипероним (breakfast → meal) (завтрак → прием пищи);
-
гипоним (meal → lunch) (прием пищи → обед);
-
has-member (faculty → professor) (факультет → профессор);
-
member-of (pilot → crew) (пилот → экипаж);
-
мероним: has-part (table → leg) (стол → ножка);
-
антоним (leader → follower) (лидер → последователь).
Также, существуют различные другие связи: лексические, антонимические,
контекстные (слово 'x' имеет отношение к слову 'y') и другими. Среди них
особую роль играет гипонимия: она позволяет организовывать синсеты в
виде семантических сетей. Для разных частей речи родовидовые отношения
могут иметь дополнительные характеристики и различаться областью охвата.
WordNet можно свободно использовать в коммерческих и научных целях.
Для
работы с
WordNet существуют различные программы, множество интерфейсов и API,
реализуемых как на большинстве возможных языков, так и с помощью протокола DICT
(программы GoldenDict).
|
Информационно-поисковые тезаурусы
В соответствии с определениями стандартов,
информационно-поисковый
тезаурус – это нормативный словарь, точно указывающий отношения между
терминами и предназначенный для описания содержания документов и
поисковых запросов.
Основные цели разработки
информационно-поисковых тезаурусов:
-
обеспечение перевода документов и запросов пользователей на один и
тот же словарь, используемый для индексирования и поиска. Таким
образом, различия в лексическом составе документа и запроса
пользователя сводятся к одним и тем же единицам тезауруса.
-
обеспечение последовательного использования единиц индексирования.
-
обеспечение отношений между терминами – отношения между единицами
тезауруса позволяют найти оптимальный термин для описания документа
или запроса.
-
использование как поискового средства
при поиске документов.
Информационно-поисковый
тезаурус
(ИПТ) -
словарь лексических единиц информационно-поискового языка, в котором
заданы парадигматические (базисные) смысловые отношения между этими
единицами.
Информационно-поисковый язык
(ИПЯ)
-
формализованный искусственный язык, предназначенный для индексирования
документов, информационных запросов и описания фактов с целью
последующего хранения и поиска.
Информационно-поисковые тезаурусы строятся
для описания лексики дескрипторных ИПЯ, лексическими единицами которых
являются дескрипторы.
Лексическая единица
ИПЯ
- обозначение
отдельного понятия, принятое в информационно-поисковом языке и неделимое
в этой функции.
Лексические единицы могут представлять собой принятые в
естественном языке слова, устойчивые словосочетания, аббревиатуры,
символы, даты, общепринятые сокращения, лексически значимые компоненты
сложных слов, а также эквивалентные им кодовые или символические
обозначения искусственного языка, например коды классов
классификационной системы.
Дескриптор
– это
ключевое слово, выбранное из группы условно эквивалентных ключевых слов
и представляющее данную группу при индексировании и поиске информации. Дескриптор также
описывается как смысловая доминанта, или основное понятие с относящимся
к нему словом, подобно заголовочному слову в толковом словаре.
В
роли дескрипторов выступают термины, обозначающие отдельные понятия
некоторой предметной области и удовлетворяющие принципам
общеупотребительности, распространенности, краткости и терминологической
точности.
Ключевое слово (КС)
– отдельное слово или словосочетание естественного языка, выделяемое из
текста информационного документа и отражающее его основное содержание
при индексировании.
Группа условно эквивалентных КС объединяет
не только те слова и словосочетания, которые признаются синонимами в
естественном языке, но и такие, которые можно считать условно
равнозначными с точки зрения информационного поиска, т. е. в рамках
данного ИПЯ.
Парадигматические отношения (базисные,
аналитические, ассоциативные)выражают
постоянные семантические (смысловые) связи между ЛЕ ИПЯ,
не зависящие от текста. Таковыми признаются отношения «род – вид»,
«целое – часть» и т. п. Они являются стабильными для каждой предметной
области и могут быть зафиксированы в словаре.
Например, судак, лещ,
форель относятся к
семантической категории «Рыбы», т.е.
отношение «род-вид» между дескрипторами рыбы
– судак являются
контекстуально не зависимыми. Это парадигматическое отношение.
В ИПТ обычно фиксируются следующие
парадигматические отношения:
Отношение «род – вид» связывает два
дескриптора, если объем понятия, соответствующий одному из дескрипторов,
включает в себя объем понятия другого дескриптора, например, рыба
– форель, рыболовные снасти – удочка, способы ловли рыбы – спиннинг.
Отношение синонимии означает, что поиск по
одному из условных или истинных синонимов позволит найти в базе данных
автоматизированной информационной системы (АИС) те документы, которым
приписаны в качестве ключевых слов остальные.
Например, рыболовство
= рыбная ловля = рыбный промысел.
Ассоциативные отношения устанавливаются между КС, принадлежащими к одной
и той же или разным смысловым категориям и произвольным уровням
иерархии. Они аналогичны ассоциативным связям в сознании человека, когда
возникающее представление об одном объекте вызывает представления о
других.
Например, при поиске по дескриптору Рыболовство пользователю
АИС можно предложить провести дополнительные поиски по дескрипторам: отрасль
промышленности, сырьевые ресурсы Мирового океана, водохранилища, виды
рыб, млекопитающие, моллюски, способы рыбной ловли, снасти и
т.д.
Ассоциативные связи, как правило, не различают в ИПТ по их семантике.
Распространены
следующие виды ассоциаций:
При разработке
информационно-поисковых тезаурусов первой задачей является отбор
терминов для включения в тезаурус.
Основные
источники терминов для разработки информационно-поисковых тезаурусов:
-
существующие тезаурусы в близких
предметных областях.
-
Термины – кандидаты на внесение
в тезаурус – могут быть предложены экспертами предметной области.
-
термины тезауруса могут быть получены из текстов предметной
области применением автоматизированных методов или ручной обработки
документов. .
Если в списке обнаруживается несколько близких по смыслу терминов, то из
них выделяется наиболее частотный термин, остальные термины могут быть
исключены и переведены в аскрипторы.
Правила
включения терминов в тезаурус:
-
исключаются
слишком частотные термины, поскольку предполагается, что они являются
малоинформативными для различения отдельных документов.
-
термины тезауруса должны представлять
понятия, которые реально упоминаются в литературе, и должны
отбираться из соображений эффективности их использования в поиске
документов.
-
малочастотные термины могут быть удалены из списка или представлены как аскрипторы более
общих или более частотных
понятий.
-
Включение новых терминов в тезаурус должно происходить с учетом уже
включенных тезаурусных терминов. Термины-кандидаты должны
проверяться на предмет соответствия их общности / специфичности к
другим терминам тезауруса. Также должно проверяться, представляет ли
термин-кандидат отдельное понятие, которому нет соответствий среди
существующих терминов тезауруса. Необходимо избегать включения
терминов, чьи значения пересекаются со значениями уже существующих
тезаурусных терминов настолько, что индексаторам и пользователям
будет трудно различать их.
|
Тезаурусный подход
В научной
терминологии нашего времени — в лингвистике, семиотике, информатике,
теории искусственного интеллекта и других областях знания —
тезаурус
обозначает некоторое особым образом оформленное накопление.
В информатике и теории
искусственного интеллекта обращается внимание на систематизацию данных,
составляющих тезаурус, и на их ориентирующий характер.
Именно такая
характеристика тезауруса легла в основу содержания этого понятия в
общегуманитарном тезаурусном подходе:
Тезаурус
— это структурированное
представление и общий образ той части мировой культуры, которую может
освоить субъект.
Характерные особенности
тезауруса:
-
неполнота любого тезауруса по сравнению с реальным развитием культуры,
его фрагментарность, относительная непоследовательность; единство
тезауруса, несмотря на фрагментарность составляющих его элементов,
обеспечивается субъективно (внутренняя логика), в частности, через
единство личности;
-
иерархичность, восприятие мировой культуры сквозь призму ценностного
подхода; выделенные приоритеты составляют определенную подсистему — ядро
тезауруса;
-
творческое пересоздание, переосмысление, вводящее герменевтический
аспект в характеристику тезауруса;
-
ориентирующий характер тезауруса;
-
наличие родственных явлений в других тезаурусах, что ставит вопрос о
генезисе тезаурусов;
-
разнообразие и изменчивость тезаурусов, множественность уровней
освоения культуры, при наличии ядра — отсутствие четких границ;
-
действенность тезауруса, который влияет на поведение, другие
проявления субъекта; воспитывающий (социализирующий) характер.
Тезаурусы лежат в основе
социального конструирования реальности.
Тезаурус строится не от общего к частному, а от своего к чужому. Все новое для того, чтобы
занять определенное место в тезаурусе, должно быть в той или иной мере
освоено (буквально: сделано своим):
-
Мир входит в сознание человека в определенной последовательности,
которую определяет уже сложившаяся структура тезауруса, отбирающая, оценивающая и преобразующая
(перекодирующая, переводящая на понятный «язык») многообразные сигналы
извне.
-
Центральное место занимает образ самого себя (самоосознание) и
другого человека. От одного человека
тезаурус переходит к двум (здесь важными оказываются такие аспекты
человеческого существования, как дружба, любовь, спор, вражда, зависть,
диалог, общение, отношение «учитель — ученик»). Затем к трем (семья:
отец — мать — ребенок) и более (микрогруппа).
-
Осознается ближайшая среда (окружающие вещи, мебель, дом, обозримое
природное пространство).
-
Следующие круги тезауруса — свой город или
деревня, страна, общество (нация, класс, человечество), общественные
отношения и чувства (долг, совесть, свобода, равенство, братство,
избранность, отчужденность, одиночество), обучение и воспитание, «свое»
и «чужое» (иностранное), человек как микрокосм, вселенная, общие законы мироздания.
Плодотворно использование тезаурусного подхода
для осмысления и организации социального проектирования, где тезаурусом
мы называем полный систематизированный состав информации (знаний) и
установок в той или иной области жизнедеятельности, позволяющий в ней
ориентироваться.
Тезаурусный подход
дает новые средства для описания и понимания процессов социализации, в
том числе и в динамично меняющихся социальных системах.
Тезаурусный подход к социализации позволяет, как представляется,
преодолеть некоторые противоречия социализационных теорий.
Концептуальная сторона
тезаурусного подхода:
-
Тезаурус — индивидуальная конфигурация ориентационной информации
(знаний, установок), которая складывается под воздействием макро- и
микросоциальных факторов и обеспечивает ориентацию человека в различных
ситуациях и на различных уровнях социальности.
-
Освоение социальности в конечном счете идет по модели разделения
«своего» и «чужого» (при сильном влиянии значимых других) и выработки
позиции по отношению к определяемым фрагментам общественной жизни по
конструкции апрейзеров
-
Адаптация и интериоризация как этапы социализационного процесса в
аспекте формирования тезауруса соответствуют последовательности: (1)
отделение (референция) «чужого» и установление дистанции, приемлемой для
отношения к нему; (2) переработка «своего» в тезаурусе вплоть до потери
осмысленной референции «своего».
-
Передача социального опыта от поколения к поколению, формирование
нового социального опыта идут в рамках тезаурусных конфигураций. Эти
рамки включают и макросоциальные влияния (структурно-функциональные и
ситуативные) и микросоциальные влияния (статусно-ролевые, групповой
динамики, ситуативные). Жизненные концепции могут оказывать регулирующую
роль в преимуществах тех или иных влияний.
-
Тезаурусы агентов социализационного процесса способны видоизменять
как ход (направленность, фазы, скорость) этого процесса, так и его
результативность. Результативность социализации оценивается в
соответствии с тезаурусной структурой, характерной для данного общества
(сообщества).
Луков Вал. А., Луков Вл. А. Тезаурусный подход в гуманитарных науках |
Онтологии
Онтология
(новолат. ontologia от
др.-греч. сущее, то, что существует и учение, наука) — учение о сущем;
учение о бытии как таковом; раздел философии, изучающий фундаментальные
принципы бытия
Термин
«Онтология» был
предложен Рудольфом Гоклениусом в 1613 году в его «Философском словаре».
В практическом употреблении термин был закреплён Христианом Вольфом,
явно разделившим семантику терминов «онтология» и «метафизика».
Основной вопрос онтологии:
что существует?
Основные
понятия
онтологии: бытие, структура, свойства, формы бытия (материальное,
идеальное, экзистенциальное), пространство, время, движение.
Иное понимание онтологии
даёт американский философ Уиллард Куайн: в его терминах онтология — это
содержание некоторой теории, то есть объекты, которые постулируются
данной теорией в качестве существующих.
К. Р. Поппер сформулировал
концепцию трёх миров: (1) мира физических объектов и состояний, (2) мира
психических и ментальных состояний сознания и (3) мира объективного
содержания мышления (сюда входят содержание научных гипотез,
литературные произведения и другие не зависящие от субъективного
восприятия объекты).
Онтология (в
информатике):
-
эксплицитная
(явная) спецификация концептуализации описания множества объектов и
связей между ними,
-
формализованное
представление основных понятий и связей между ними,
-
нечто структурирующее
хаос.
Онтология — это
структурная спецификация некоторой предметной области, ее
формализованное представление, которое включает словарь (или имена)
указателей на термины предметной области и логические выражения, которые
описывают, как они соотносятся друг с другом. Онтологии обеспечивают
словарь для представления и обмена знаниями о некоторой предметной
области и множество связей, установленных между терминами в этом
словаре.
Формально онтология
состоит из:
Типы онтологий:
-
Мета-онтологии —
описывают наиболее общие понятия, которые не зависят от предметных
областей.
-
Онтология предметной
области — формальное описание предметной области, обычно применяется
для того, чтобы уточнить понятия, определённые в мета-онтологии
(если используется), и/или определить общую терминологическую базу
предметной области.
-
Онтология конкретной
задачи — онтология, определяющая общую терминологическую базу
задачи, проблемы.
Сетевые онтологии часто
используют для описания конечных результатов действий, выполняемых
объектами предметной области или задачи.
Модель онтологии.
Формально онтология
определяется как O = <X,R,F>, где:
X — конечное множество понятий предметной области,
R — конечное множество отношений между понятиями,
F — конечное множество функций интерпретации.
Для описания онтологий
существуют различные языки и системы, однако, наиболее перспективным
представляется визуальный подход, позволяющий специалистам
непосредственно «рисовать» онтологии, что помогает наглядно
сформулировать и объяснить природу и структуру явлений.
Визуальные модели (например, графы) обладают особенным познавательным
потенциалом.
Проектирование и
разработка онтологий (онтологический инжиниринг) требует от разработчиков профессионального
владения технологиями инженерии знаний – от методов извлечения знаний до
структурирования и формализации.
Онтологический инжиниринг -
важнейшее звено процесса
структурирования комплексных систем автоматизации (объединяет
две основные технологии проектирования больших систем –
объектно-ориентированный и структурный анализ).
Онтологическая инженерия находится в процессе становления, есть открытые
вопросы как относительно принимаемых моделей знаний, так и относительно
используемых инструментов. |
Онтологии в терминоведении
Онтология
(в терминоведении) —
развитое формализованное средство описания терминов предметной области,
которое может использоваться в современных интеллектуальных
информационных системах. Онтология состоит из набора
понятий (концептов) и набора утверждений об этих понятиях: классификация
понятий, отношения между понятиями; в частности иерархии понятий по
отношениям «общее — частное» и «часть — целое».
InTez
(http://www.inttez.ru/)
—
проект, направленный на создание открытой
сетевой среды, поддерживающей работу с онтологией.
|
|