Стандарты
лингвистической разметки |
Стандарты представления языковых ресурсов
Рост
числа и разнообразия электронных языковых ресурсо
потребовали стандартизации их представления.
В рамках технической комиссии
ISO
(International Standards Organization)
TC37 (Terminology and Other Language and Content Resources) была
создана подкомиссия SC4
(Language Resources Management:
https://www.iso.org/committee/297592.html).
Существует
несколько популярных
стандартов "кодирования" (индексирования
или разметки)
текстов:
TEI, CES / XCES,
ориентированы на представление первичных данных и разметку
EAGLES и ISLE
направлены на решение
задач NLP (Natural Language Processing) |
Лингвистическая разметка корпуса
Linguistic markup
(лингвистическая разметкой
или аннотация корпуса) -
размещенные в корпусе данные (метаданные), не
являющиеся частью корпусных
текста, но несущие
определенную информацию о нём.
В 80-х годах был принят стандарт разметки электронных текстов
SGML (Standard Generalized Markup Language),
который ввёл концепцию тэгов (tags) — служебных
пометок в
тексте, содержащих информацию о самом тексте.
Язык разметки SGML — это «конструктор» языков,
позволяющий для каждого случая определять собственные тэги, создавая диалекты
SGML.
SGML очень сложен и используется довольно редко.
На базе
SGML были созданы
HTML
и
XML (eXtensible Markup Language), который применяется для хранения любых
структурированных данных — в том числе и текстов в корпусах.
Фактически,
XML - свод синтаксических правил для описания структуры данных.
Специально для разметки текстовых данных (корпусов) на
основе XML разработана система, описывающая, какие именно
параметры текстов нужно размечать. Эта система называется
Text Encoding Initiative Guidelines (TEI Guidelines).
TEI Guidelines
содержит
список различных особенностей текстов, которые вообще можно кодировать,
размечать и индексировать. Например, система перечисляет различные типы
исправлений в тексте, помарок, цитат, иностранных слов и т.д. и т.п.
Разметка (tagging,
annotation) заключается в приписывании текстам и их компонентам
специальных меток (tags):
-
лингвистических, описывающих лексические, грамматические и прочие
характеристики элементов текста.
-
экстралингвистических (сведения
об авторе и сведения о тексте: автор, название, год и место издания,
жанр, тематика; сведения об авторе могут включать не только его имя,
но также возраст, пол, годы жизни и многое другое),
-
структурных
(глава, абзац, предложение, словоформа)
Набор этих метаданных во многом определяет
возможности, предоставляемые корпусами исследователям.
При выборе
этих данных необходимо руководствоваться целями исследования и
потребностями лингвистов, а также возможностями по внесению в текст
тех или иных дополнительных признаков.
По признаку наличия разметки, корпусы бывают
annotated
(аннотированные) и
(простые).
Собрание неаннотированных текстов (raw)
сегодня не может считаться корпусом. |
Лингвистическая разметка корпусных данных
TEI (Text Encoding
Initiative) создана в
1989 году
TEI основана на XML
и предлагает независимую от языка структуру создания
конкретных языков разметки, а также простой способ
организации и структурирования текстовых и других ресурсов, которые
можно обогащать и персонализировать в соответствии со специальными
задачами.
Проект TEI располагает богатой библиотекой готовых
специализированных компонентов и интегрированным комплексом
стандартных стилевых таблиц для создания схем и документации на
разных языках и в разных форматах.
Первоначальная разметка TEI включала:
-
базовые структурные и функциональные компоненты;
-
дипломатическую транскрипцию, изображения, аннотации;
-
ссылки, соответствия, выравнивание;
-
объекты, содержащие особые данные: дата, время, место, лицо, событие
и т.д. (‘распознавание элементов предметной области’);
-
метатекстовую аннотацию (исправления, удаления и т.п.);
-
все уровни лингвистического анализа;
-
контекстные метаданные всех видов.
В 2007 году выпущен TEI P5,
с множеством
новых характеристик, что обеспечило большую
гибкость, но создало определенные трудности для разработки
программных средств обработки, анализа и публикации текстов.
В частности, в глубокой лингвистической
разметке учитываются разночтения и варианты интерпретации фрагментов
текста на разных уровнях иерархии языковых структур, поэтому ее
трудно совместить с использованием инструментов автоматической
лингвистической разметки (токенизации, морфологической категоризации
и т.п.).
|
TEI Lite
Схемы TEI являются модульными, они созданы таким образом, чтобы была
возможность настроить их для конкретных исследований или
производственных сред.
Для этого доступно множество различных
приложений, одним из которых является приложение для настроек
TEI
Lite.
Пособие
Введение в TEI Lite
одного из создателей
Text Encoding
Initiative
Лу
Бернарда
(Lou Burnard)
и С.М. Шперберга - Мак-Куина (C.M. Sperberg-McQueen)
или
здесь
или
здесь |
TEI Lite является специфической настройкой набора тегов
TEI, в который входят элементы, необходимые почти каждому
пользователю.
TEI Lite содержит большую часть набора основных тегов
TEI, которые должны обеспечивать:
-
адекватную обработку достаточно разнообразных текстов с уровнем
детальности, заданным существующей практикой (как демонстрируется,
например, материалами Oxford Text Archieve);
-
создание новых документов и выполнение кодирования существующих.
Любой
пользователь имеет также возможность добавить свой проект с
использованием TEI.
В настоящее время практически все проекты по
созданию языковых корпусов в той или иной мере соответствуют
рекомендациям TEI.
|
Языковые корпуса на TEI
В настоящее время практически все проекты по созданию корпусов стараются в той или иной мере следовать
рекомендациям
TEI, в
том числе:
-
British
National Corpus (http://www.natcorp.ox.ac.uk)
-
Oxford
Text Archive (http://ota.ox.ac.uk/)
-
DeReKo
(http://www1.ids-mannheim.de/kl/projekte/korpora/)
имеет несколько альтернативных названий: Мангеймского корпус
немецкого языка, German Reference Corpus, IDS corpora, COSMAS
corpora. С 2004 года официальное название корпуса — DeReKo (Deutsches
Referenzkorpus).
DeReKo
- самое большое в мире электронное собрание современных
немецкоязычных текстов и речевых записей на немецком языке,
DeReKo содержит основанную на SGML морфосинтаксическую разметку,
разработанную в соответствии с рекомендациями TEI.
-
Corpus
Albaruthenicum (http://grid.bntu.by/corpus/)
- корпус беларускамоўных навуковых тэкстаў
Множество проектов использует TEI для
различных литературоведческих и лингвистических целей, в частности,
для представления корпусов памятников письменной и разговорной речи на
различных языках.
TEI лежит в
основе
Base
de Français Médiéval
(BFM,
корпус средневекового французского языка,
http://bfm.ens-lyon.fr).
Тексты
BFM размечены в формате XML на основе TEI в соответствии со спецификацией, разработанной для
нужд проекта с учетом перспективы лингвистического анализа.
|
Автоматическая разметка текстов
Размечать большие корпусы вручную долго и
дорого.
Поэтому уже в 70-х годах программа TAGGIT смогла корректно
назначить тэги частей речи 77% слов в Брауновском корпусе. Остальные
пришлось размечать вручную в течение 10 лет.
В 80-е годы система CLAWS (Constituent Likelihood Automatic
Word-tagging System), основанная на вероятностном
подходе, правильно разметила уже около 95% Брауновского
корпуса.
В настоящее время для
основных европейских языков уже реализованы как автоматическая разметка
частей речи (морфологический анализ, word-class tagging), так и
автоматическая разметка членов предложения (синтаксический анализ,
parsing).
Программные средства
для создания, аннотирования (разметки) и использования языковых
ресурсов:
Автоматизацией разметки заниматеся рабочая
группа
Автоматическая обработка текста
(http://www.aot.ru),
которой разработаны модули
графематического (определение границ слов), морфологического
(определение частей речи), синтаксического (определение членов
предложения) и семантического (выявление семантических связей между
словами) анализа текстов на русском, немецком и английском языках.
О разметке НКРЯ:
http://ruscorpora.ru/sbornik2005/05savchuk.pdf
О программных средствах разметки НКРЯ:
http://www.ruscorpora.ru/corpora-progr.html
|
Разметка ГИКРЯ
Генеральный
Интернет-корпус Русского Языка (ГИКРЯ) – созданный при помощи
полностью автоматической технологии сбора и разметки текстов из Рунета
и основанный на современных достижениях компьютерной лингвистики
мегакорпус (более 20 000 000 000 слов)
Стандарты
разметки ГИКРЯ:
|
kmp
|