Лексические онтологии

 

 

 

Лексические и формальные онтологии

Лексическая онтология   - это сеть языково-специфичных лексических единиц (в отличие от формальных онтологий, которые представляют собой структуру данных с формально определенными понятиями).

Лексическая онтология должна отражать отношения между словами и выражениями языка.

Основные применения лексических онтологий - предсказание той или иной возможной замены лексических единиц в тексте для целей:

  • информационного поиска,

  • генерации текстов,

  • машинного перевода,

  • разрешения лексической многозначности.

Соловьев В.Д. и др. Онтологии и тезаурусы (уч. пособие, Казань, М., 2006)

 

 

 

Тезаурус

 

Теза́урус (от греч. θησαυρός — сокровище) — собрание сведений (корпус, свод) охватывающее с  максимальной полнотой понятия, определения и термины специальной области знаний или сферы деятельности, с примерами их употребления.

Теза́урус:

  • (компьютерная лингвистика)  — лингвистические ресурсы описывающие отношения между лексическими значениями естественного языка как иерархическую систему групп синонимов – синсетов. Пример: WordNet.

  • (лингвистический) — разновидность словаря, в котором указаны семантические отношения (синонимы, антонимы, паронимы, гипонимы, гиперонимы и т. п.) между лексическими единицами.

  • (информационно-поисковый)  — терминологическая база данных, описывающая отношения между терминами предметной области.

  • (ассоциативный)  – словарь, описывающий психологические ассоциации между словами, возникающие у людей. Пример: Русский ассоциативный словарь.

Тезаурус позволяет выявить значение не только с помощью определения, но и посредством соотнесения слова с другими понятиями и их группами (что используется в базах данных систем искусственного интеллекта).

В разных системах тезаурус может выполнять разные функции:

  • источник специальных знаний в узкой или широкой предметной области, способ описания и упорядочения терминологии предметной области;
  • инструмент поиска в информационно-поисковых системах;
  • инструмент ручного или автоматического индексирования текстов
  • инструмент в диалоговых и вопросно-ответных системах.
  • инструмент в системах компьютерного перевода

 

 

 

Тезаурусная модель реальности

 

Тезаурус — это структурированная модель реальности субъекта.

Характерные особенности тезаурусной модели:

  • неполнота и фрагментарность любого тезауруса по сравнению с реальностью

  • единство тезауруса, обеспеченное субъективно (внутренняя логика), через единство личности;

  • иерархичность в контексте ценностного подхода; выделенные приоритеты составляют ядро тезауруса;

  • ориентирующий характер тезауруса, который влияет на поведение, другие проявления субъекта.

Тезаурусы лежат в основе социального конструирования реальности.

Тезаурус  строится не от общего к частному, а от своего к чужому.

Все новое в тезаурусе, должно быть в той или иной мере освоено (сделано своим):

  • Мир входит в сознание человека в определенной последовательности, которую определяет уже сложившаяся структура тезауруса, отбирающая (перекодирующая на понятный «язык») многообразные сигналы извне.

  • Центральное место занимает образ самого себя (самоосознание) и другого человека. От одного человека тезаурус переходит к двум и более (микрогруппа).

  • Осознается ближайшая среда (окружающие вещи, мебель, дом, обозримое природное пространство).

  • Следующие круги тезауруса — свой город или деревня, страна, ... человек как микрокосм, ...  мироздание.

Тезаурусная модель дает новые средства для описания и понимания процессов социализации. 

Луков Вал. А., Луков Вл. А. Тезаурусный подход в гуманитарных науках

 

 

Тезаурусы: модели отношений

 

Основные модели отношений в тезаурусах:

  • синонимия – связь между словами одной части речи, различных по звучанию и написанию, но имеющих одинаковое или очень близкое лексическое значение, например: кавалерия – конница, смелый – храбрый;

  • антонимия – связь между словами одной части речи, различных по звучанию, имеющих прямо противоположные значения: правда – ложь, добрый – злой;

  • меронимия/партонимия – отношение «ЧАСТЬ-ЦЕЛОЕ».
    Внутри этого отношения выделяются отношения «быть элементом» и «быть сделанным из».
    Отношение определено только для существительных;

  • гипонимия/гиперонимия
    Гипероним – слово с более широким значением, выражающее общее, родовое понятие, название класса (множества) предметов (свойств, признаков). 
    Гипоним – слово с более узким значением, называющее предмет (свойство, признак) как элемент класса (множества).
    Эти отношения транзитивны и несимметричны.
    Гипоним наследует все свойства гиперонима.
    Являются центральными отношениями для описания существительных;

  • следствие (это отношение связывает между собой глаголы);

  • причина (также определено для глаголов).

Пример (статья тезауруса):

Изба – деревянный крестьянский дом

  •   [гипероним]: жилое здание

  •   [мероним]: сельский населенный пункт

  •   [синоним]: дом

Все отношения создают иерархическую сеть понятий, и знание о том, где находится понятие в этой сети, является важной частью знания об этом понятии.

Свойства отношений различны при описании различных частей речи.

 

 

 

 

Тезаурус WordNet

 

WordNet (https://wordnet.princeton.edu/):

  • лингвистический ресурс класса лексических онтологий (тезаурус).

  • разрабатывается в Принстонском университете США (с 1984 г.) как модель человеческой памяти.
    Многие описаний слов в нем мотивируются психолингвистическими экспериментами.

  • В 1995 году Появился в свободном доступе в Интернете  в 1995 году

  • вызвал всплеск исследований по его использованию в  приложениях автоматической обработки текстов.

  • открыл эпоху разработки сверхбольших структурированных лингвистических ресурсов

  • вызвал появление большого "ворднетов" для национальных языков.

  • UNL MIR (проект перевода WordNet на языки мира)

WordNet версии 2.1 охватывает приблизительно 155 000 лексем и словосочетаний, организованных в 117 тысяч понятий, или совокупностей синонимов (synset); общее число пар "лексема-значение" насчитывает 200 000.

 

 

 

EuroWordNet и другие...

 

WordNet (для английского языка) вызвал интерес к разработке подобных ресурсов для  других языков.

EuroWordNet  – многоязычный вариант WordNet (создан в 1996-1999 на основе Принстонский WordNet версии 1.5.).

EuroWordNet объединил в себе WordNet-словари английского, датского, испанского, итальянского, немецкого, французского, чешского и эстонского языков.

Для того чтобы установить связи между различными языками, в проекте EuroWordNet синсеты каждого ворднета имеют отсылку на ILI (межязыковой индекс, interlingual index), в качестве которого выбираются синсеты Принстонского WordNet.

BalkaNet (1999-2004) объединил в себе WordNet-словари  греческого, болгарского, турецкого, чешского, французского, румынского и сербского языков.

EuroWordNet и BalkaNet являются закрытыми платными лексическими ресурсами в отличие от свободно распространяемого WordNet.

В качестве бесплатной альтернативы могут выступать OpenThesaurus и BabelNet.

Есть несколько реализаций подобных WordNet лексических онтологий для русского языка:

  • RussNet (разрабатывается с 1999 г. на филологическом факультете СПбГУ) - нет доступа!.

  • RuThes (закрытый коммерческий ресурс УИС «РОССИЯ» МГУ); .  - нет доступа!
    см: http://www.labinform.ru/pub/ruthes/

  • Russian WordNet (использует лингвистические ресурсы компании Руссикон, открытые интернет-ресурсы и XML Oxford Russian Dictionary; New Oxford Dictionary of English, 2nd Edition; New Oxford Thesaurus of English

  • RuWordNet  — тезаурус русского языка на основе автоматизированной трансформации тезауруса RuThes в формат WordNet

 

 

 

WordNet: гипотезы (модели)

 

Джордж Миллер (Основоположник WordNet) о гипотезах, лежащих в основе разработки WordNet:

  • гипотеза отделимости: описание лексического компонента естественного языка может быть отделено и может изучаться отдельно;

  • гипотеза "образца" (patterning hypothesis): существует такое формальное описание слов, которое может быть применено к большинству слов языка;

  • гипотеза о покрытии (comprehensiveness hypothesis): для эффективного использования компьютерного словаря в приложениях автоматической обработки текстов такие словари должны быть очень большой величины.

Предполагалось, что значение слова (и предложения) предложения, может быть представлено на основе набора семантических примитивов. Однако годы исследований не выявили лучшего набора семантических примитивов, пригодного для использования в ресурсах для обработки естественного языка.

В качестве альтернативы был выбран подход так называемой реляционной семантики, когда значения слов представляются некоторым выражением компонентов, а не на основе описания отношений между значениями разных слов.

 

 

 

WordNet: cинсеты

 

WordNet  состоит из 4 сетей для основных знаменательных частей речи:

  • существительных,

  • глаголов,

  • прилагательных,

  • наречий.

Основным отношением в WordNet является отношение синонимии.

Понятие синонимии, используемое в WordNet, не требует заменяемости синонимов во всех контекстах - два выражения являются синонимичными, если замена одного из них на другое в предложении не меняет значения истинности этого высказывания.

Базовой словарной единицей в WordNet является не отдельное слово, а синсеты

Синсет - синонимический ряд, объединяющий слова со схожим значением и являющийся узлом сети WordNet.

Синсет рассматривается как представление лексикализованного понятия (концепта) английского языка.

Каждый синсет дополнен дефиницией и примерами употребления слов в контексте (ля удобства использования человеком).

Слово или словосочетание может появляться более чем в одном синсете и иметь более одной категории части речи.

Каждый синсет содержит список синонимов или синонимичных словосочетаний и указатели, описывающие отношения между ним и другими синсетами.

Слова, имеющие несколько значений, включаются в несколько синсетов и могут быть причислены к различным синтаксическим и лексическим классам.

Синсеты в WordNet связаны между собой различными семантическими отношениями:

  • гипероним (breakfast → meal) (завтрак → прием пищи);

  • гипоним (meal → lunch) (прием пищи → обед);

  • мероним: has-part (table → leg) (стол → ножка);

  • антоним (leader → follower) (лидер → последователь).

Большинство синсетов снабжены толкованием, которое рассматривается как одно для всех синонимов синсета.

 

 

Примеры исторических тезаурусов

 

  • Амара-коша (Словарь Амары) — первый санскритский тезаурус (III—IV век)
    Текст «Амара-коши»(санскрит)

  • Тезаурус Роже (Roget’s Thesaurus, оригинальное название Thesaurus of English Words and

 

 

 

Тезаурусы-онлайн

 

Современные тезаурусы:

  • Викисловарь: многоязычный свободно пополняемый словарь и тезаурус
    (2004-наст.вр., проект фонда Викимедиа)

  • Русский ассоциативный словарь.

  • WordNet (https://wordnet.princeton.edu/)...

  • BabelNet — большая многоязычная лексическая онтология, полученная путём автоматического сочетания WordNet, Википедии и других семантических ресурсов. Материалы BabelNet общедоступны на 271 языке, в том числе русском. Существует библиотека BabelNet.js, позволяющая делать запросы к BabelNet через HTTP.

  • OpenThesaurus - многоязычный свободный открытый волонтерский тезаурус-проект. Использует в приложениях OpenOffice.org, LibreOffice, KWord, LyX и Apple Dictionary.

  • RuWordNet  — тезаурус русского языка на основе автоматизированной трансформации тезауруса RuThes в формат WordNet

  • YARN (Yet Another RussNet) краудсорсинговый открытый электронный тезаурус русского языка. Cоздается в Уральском федеральном университете совместно с Высшей школой экономики с 2013г. Интерфейс позволяет его пользователям самим формировать синсеты.
    см. статью

  • Visuwords онлайновый графический тезаурус английского языка (бесплатный, без регистрации). Достаточно просто ввести интересующее Вас слово в окне поиска, и программа сгенерирует  диаграмму, похожую на нейронную сеть, в которой слово будет представлено в различных  семантических отношениях: синонимы, антонимы, гипонимы, гиперонимы, партонимы, холонимы. Любой участок диаграммы можно увеличить.

  • Graph Words - бесплатный онлайн-тезаурус, который создает карты слов, которые расцветают со связанными словами, разветвляются на синонимы и определения. Позволяет найти значения слов и их ассоциаций.

  • Пробная версия визуального тезауруса (разрешено ограниченное количество запросов).

  • Thesaurus.com  -   интернет-тезаурус английского языка

  • Collocations dictionary — словарь лексической сочетаемости.

  • Oxford Online Collocations Dictionary  (на основе British National Corpus).

  • Wordnik  — словарь и тезаурус английского языка.

Позволяет любому зарегистрированному пользователю  создавать собственные списки избранных слов.

Собственный профиль может быть как открытым для всех пользователей или закрытым.

Можно проматривать открытые списки слов других пользователей, самые комментируемые слова, недавно просмотренные слова, и так далее.

 

 

 

к прочтению