Микроформаты
– это сущности поверх HTML, с помощью которых можно описывать любую
информацию на Web-страницах. Спецификация микроформатов представляет
собой способ разметки содержания для определения таких специальных
типов информации, как отзывы, информация о человеке, мероприятии.
Стандарт представляет собой набор
классов, описывающих всевозможные сущности и их свойства. Сейчас их
уже несколько сотен.
Наиболее обобщенный тип сущности – это
Thing (нечто), у которого есть свойства: name (название),
description (описание), url (ссылка) и image. Частные типы имеют
общие свойства с более универсальными.
Каждый тип информации описывает
определенный тип элемента (субъект, событие, отзыв. Например,
человек имеет такие свойства, как имя, место жительства, место
работы, занимаемая должность и т.д.
Стандарт schema.org предусматривает
возможность добавлять свойства и дочерние типы для имеющихся типов
сущностей. В настоящее время поисковые системы поддерживают
микроформатную разметку веб-страниц в результатах поиска людей,
событий, обзоров, товаров, кулинарных рецептов и многжества других
онтологий.
Разметка микроформатами не требует
создания отдельных экспортных файлов и происходит непосредственно в
HTML-коде страниц оборачиванием описания определенного типа в
контейнер и указанием схемы разметки отдельных свойств с помощью
специальных атрибутов.
Код микроформатов прост для написания
в любом текстовом редакторе. Разметку Schema.org можно использовать
на веб-страницах на любом языке. Извлечение данных поисковыми
роботами из микроформатной разметки осуществляется одновременно с
проводимой им индексацией сайта.
Микроформаты рассчитаны на работу с
HTML, поэтому их синтаксический анализ, в отличие от XML-парсинга,
рассчитан на работу с HTML, для которого не обязательно документ
должен быть корректно сформирован (допускается отсутствие
закрывающих тегов и т.п.).
Эффективность новой поисковой
технологии в автоматическом анализе текстовых ресурсов Интернета на
основе их структурно-семантической разметки и ее быстро растущая
популярность может и должна быть использована для собственно
лингвистической разметки электронных документов. Это возможно
благодаря тому, что микроформаты – полностью открытый формат. Данные,
размеченные по стандарту семантической разметки schema.org,
становятся общедоступными и могут быть извлечены и использованы
любыми сервисами.
Существует несколько
специализированных сервисов, с помощью которых можно проверить
корректность разметки и выявить возможные ошибки.
Для проверки корректности формата
данных, размеченных с помощью схем, полезно использовать:
Данные сервисы позволяют
не только выяснить, есть ли в коде разметки ошибки, которые могут
помешать корректной обработке данных, но и проверить, как поисковые
роботы данных систем видят и обрабатывают предложенную семантическую
разметку страницы.
|