Микроформатная лингвистическая разметка

 

 

Стандартом для семантического описания стал XML (Extensible Markup Language), привносящий в электронную информационную среду метаданные, описывающие структуру, свойства и семантику информационных ресурсов.

Традиционный подход к лингвистической разметке реализуется в рамках проекта TEI (Text Encoding Initiative) и стандарта XCES (Corpus Encoding Standard for XML).

Преимуществами разметки в стандарте TEI являются ее полнота, основанная на тщательно разработанной теории структуры текста и документа, легкость персонализации и адаптации к конкретному материалу за счет модульной организации и механизма спецификации, независимость от конкретной платформы или программного продукта.

Вместе с тем избыточность TEI для решения практических задач создает существенные трудности для разработки программных средств обработки, анализа и публикации текстов, размеченных в этом стандарте.

 

Разметка на основе XML (как и на основе SGML) оказалась слишком сложной и избыточной для решения конкретных задач

 

Глубокую филологическую разметку, учитывающую разночтения и варианты интерпретации фрагментов текста на разных уровнях иерархии языковых структур, очень трудно совместить с использованием инструментов автоматической лингвистической разметки (токенизации, лемматизации, морфологической категоризации и т.п.).

TEI, концептуально разработанная еще в 80-х годах 20 века, настолько же трудна в реальном практическом применении, как и используемый ею для стандартизации обработки электронных источников SGML, от которого произошли HTML и XML.

 

 

 

Schema.org

 

 

В 2011 году создатели крупнейших поисковых систем объединились в проекте Schema.org – инициативе по разработке единой схемы для семантической разметки на основе эффективной структуризации поставляемых информационных ресурсов и их семантической разметки микроформатами.

Метаданные на ресурсах, использующие предлагаемые Schema.org схемы, представляют собой семантическую разметку, предназначенную для поисковых роботов, и могут быть непосредственно проанализированы ими с целью извлечения и обработки информации о содержимом веб-ресурсов.

В качестве основного формата разметки веб-страницы метаданными Schema.org предлагаются microdata (микроданные) – теги и атрибуты для разметки структурированной информации на веб-страницах.

 

См: https://yandex.ru/support/webmaster/schema-org/what-is-schema-org.xml

 

 

 

 

Микроформатная разметка

 

Микроформаты – это сущности поверх HTML, с помощью которых можно описывать любую информацию на Web-страницах. Спецификация микроформатов представляет собой способ разметки содержания для определения таких специальных типов информации, как отзывы, информация о человеке, мероприятии.

Стандарт представляет собой набор классов, описывающих всевозможные сущности и их свойства. Сейчас их уже несколько сотен.

Наиболее обобщенный тип сущности – это Thing (нечто), у которого есть свойства: name (название), description (описание), url (ссылка) и image. Частные типы имеют общие свойства с более универсальными.

Каждый тип информации описывает определенный тип элемента (субъект, событие, отзыв. Например, человек имеет такие свойства, как имя, место жительства, место работы, занимаемая должность и т.д.

Стандарт schema.org предусматривает возможность добавлять свойства и дочерние типы для имеющихся типов сущностей. В настоящее время поисковые системы поддерживают микроформатную разметку веб-страниц в результатах поиска людей, событий, обзоров, товаров, кулинарных рецептов и многжества других онтологий.

Разметка микроформатами не требует создания отдельных экспортных файлов и происходит непосредственно в HTML-коде страниц оборачиванием описания определенного типа в контейнер и указанием схемы разметки отдельных свойств с помощью специальных атрибутов.

Код микроформатов прост для написания в любом текстовом редакторе. Разметку Schema.org можно использовать на веб-страницах на любом языке. Извлечение данных поисковыми роботами из микроформатной разметки осуществляется одновременно с проводимой им индексацией сайта.

Микроформаты рассчитаны на работу с HTML, поэтому их синтаксический анализ, в отличие от XML-парсинга, рассчитан на работу с HTML, для которого не обязательно документ должен быть корректно сформирован (допускается отсутствие закрывающих тегов и т.п.).

Эффективность новой поисковой технологии в автоматическом анализе текстовых ресурсов Интернета на основе их структурно-семантической разметки и ее быстро растущая популярность может и должна быть использована для собственно лингвистической разметки электронных документов. Это возможно благодаря тому, что микроформаты – полностью открытый формат. Данные, размеченные по стандарту семантической разметки schema.org, становятся общедоступными и могут быть извлечены и использованы любыми сервисами.

Существует несколько специализированных сервисов, с помощью которых можно проверить корректность разметки и выявить возможные ошибки.

Для проверки корректности формата данных, размеченных с помощью схем, полезно использовать:

Данные сервисы позволяют не только выяснить, есть ли в коде разметки ошибки, которые могут помешать корректной обработке данных, но и проверить, как поисковые роботы данных систем видят и обрабатывают предложенную семантическую разметку страницы.

 

 

 

 

 

XHTML Linguistic Data

 

Микроформаты применялись исключительно для экстралингвистической разметки, для обозначения неязыковых сведений о данных. Предлагается на основе микроформатов определить новую онтологическую сущность для описания собственно лингвистической составляющей электронного текста.

Таким микроформатом может быть объявлен XLD (XHTML Linguistic Data) – микроформат для пометки лингвистических метаданных. XLD можно использовать как на лингвистических интернет-ресурсах, так и для разметки любого текстового контента/ Необходимо сообщить браузерам и поисковикам что страница поддерживает XLD. Для этого в теге <head> веб-страницы надо добавить атрибут profile:

<head profile="http://gmpg.org/xld/17">

Для каждой гиперссылки на странице нужно добавить атрибут rel.

Пример:

<a href="http://brsu.by" rel="text thesis">...</a>

Значений атрибута rel может быть несколько, в таком случае они перечисляются через пробел.

Далее должен быть приведен список допустимых категорий атрибута rel с указанием их значений. Такие категории могут включать лингвистическую информацию о тексте и его элементах с любой желаемой полнотой.

Например, они могут содержать метаданные различных уровней:

  • морфологического (выделение аффиксов, сложных слов и т.п.);

  • морфолого-синтаксического (выделение основ, определение части речи и признаков грамматических категорий);

  • синтаксического (синтаксические связи, типы и члены предложений и т.п.);

  • семантического (снятие семантической омонимии, разрешение анафоры и кореферентности, фиксирование информационной структуры и т.п.);

  • дискурсивного (реплики, коммуникативные акты и т.п.)

  • лемматизацию (указание для каждой словоформы из текста ее исходной формы),

Расширенные описания веб-страниц: http://support.google.com/webmasters/bin/topic.py?hl=ru&topic
 

 

kmp