kmp-TEI

Стандарты лингвистической разметки

Стандарты представления языковых ресурсов

Рост числа и разнообразия электронных языковых ресурсо потребовали стандартизации их представления.

В рамках технической комиссии ISO (International Standards Organization) TC37 (Terminology and Other Language and Content Resources) была создана подкомиссия SC4 (Language Resources Management: https://www.iso.org/committee/297592.html).

Существует несколько популярных стандартов "кодирования" (индексирования или разметки) текстов:

Text Encoding Initiative (TEI)
www.tei-c.org,

Corpus Encoding Standard (CES)
https://www.cs.vassar.edu/CES/ или http://www.tei-c.org/Activities/Projects/co02.xml

Corpus Encoding Standard for XML (CESX)
http://www.xces.org/ или http://xml.coverpages.org/xces.html

Expert Advisory Group on Language Engineering Standards (EAGLES)
www.ilc.cnr.it/EAGLES96/home.html,

International Standard for Language Engineering (ISLE)
www.ilc.cnr.it/EAGLES96/isle/ISLE_Home_Page.htm

и др.

TEI, CES / XCES, ориентированы на представление первичных данных и разметку

EAGLES и ISLE направлены на решение задач NLP (Natural Language Processing)

Лингвистическая разметка корпуса

Linguistic markup (лингвистическая разметкой или аннотация корпуса) - размещенные в корпусе данные (метаданные), не являющиеся частью корпусных текста, но несущие определенную информацию о нём.

В 80-х годах был принят стандарт разметки электронных текстов SGML (Standard Generalized Markup Language), который ввёл концепцию тэгов (tags) — служебных пометок в тексте, содержащих информацию о самом тексте.

Язык разметки SGML — это «конструктор» языков, позволяющий для каждого случая определять собственные тэги, создавая диалекты SGML.

SGML очень сложен и используется довольно редко.

На базе SGML были созданы HTML и XML (eXtensible Markup Language), который применяется для хранения любых структурированных данных — в том числе и текстов в корпусах.

Фактически, XML - свод синтаксических правил для описания структуры данных.

Специально для разметки текстовых данных (корпусов) на основе XML разработана система, описывающая, какие именно параметры текстов нужно размечать. Эта система называется Text Encoding Initiative Guidelines (TEI Guidelines).

TEI Guidelines содержит список различных особенностей текстов, которые вообще можно кодировать, размечать и индексировать. Например, система перечисляет различные типы исправлений в тексте, помарок, цитат, иностранных слов и т.д. и т.п.

Разметка (tagging, annotation) заключается в приписывании текстам и их компонентам специальных меток (tags):

лингвистических, описывающих лексические, грамматические и прочие характеристики элементов текста.

экстралингвистических (сведения об авторе и сведения о тексте: автор, название, год и место издания, жанр, тематика; сведения об авторе могут включать не только его имя, но также возраст, пол, годы жизни и многое другое),

структурных (глава, абзац, предложение, словоформа)

Набор этих метаданных во многом определяет возможности, предоставляемые корпусами исследователям.

При выборе этих данных необходимо руководствоваться целями исследования и потребностями лингвистов, а также возможностями по внесению в текст тех или иных дополнительных признаков.

По признаку наличия разметки, корпусы бывают annotated (аннотированные) и (простые).

Собрание неаннотированных текстов (raw) сегодня не может считаться корпусом.

Лингвистическая разметка корпусных данных

TEI (Text Encoding Initiative) создана в 1989 году

TEI основана на XML и предлагает независимую от языка структуру создания конкретных языков разметки, а также простой способ организации и структурирования текстовых и других ресурсов, которые можно обогащать и персонализировать в соответствии со специальными задачами.

Проект TEI располагает богатой библиотекой готовых специализированных компонентов и интегрированным комплексом стандартных стилевых таблиц для создания схем и документации на разных языках и в разных форматах.

Первоначальная разметка TEI включала:

базовые структурные и функциональные компоненты;

дипломатическую транскрипцию, изображения, аннотации;

ссылки, соответствия, выравнивание;

объекты, содержащие особые данные: дата, время, место, лицо, событие и т.д. (‘распознавание элементов предметной области’);

метатекстовую аннотацию (исправления, удаления и т.п.);

все уровни лингвистического анализа;

контекстные метаданные всех видов.

В 2007 году выпущен TEI P5, с множеством новых характеристик, что обеспечило большую гибкость, но создало определенные трудности для разработки программных средств обработки, анализа и публикации текстов.

В частности, в глубокой лингвистической разметке учитываются разночтения и варианты интерпретации фрагментов текста на разных уровнях иерархии языковых структур, поэтому ее трудно совместить с использованием инструментов автоматической лингвистической разметки (токенизации, морфологической категоризации и т.п.).

TEI Lite

Схемы TEI являются модульными, они созданы таким образом, чтобы была возможность настроить их для конкретных исследований или производственных сред.

Для этого доступно множество различных приложений, одним из которых является приложение для настроек TEI Lite.

Пособие Введение в TEI Lite

одного из создателей Text Encoding Initiative

Лу Бернарда (Lou Burnard)

и С.М. Шперберга - Мак-Куина (C.M. Sperberg-McQueen)

или здесь

TEI Lite является специфической настройкой набора тегов TEI, в который входят элементы, необходимые почти каждому пользователю.

TEI Lite содержит большую часть набора основных тегов TEI, которые должны обеспечивать:

адекватную обработку достаточно разнообразных текстов с уровнем детальности, заданным существующей практикой (как демонстрируется, например, материалами Oxford Text Archieve);

создание новых документов и выполнение кодирования существующих.

Любой пользователь имеет также возможность добавить свой проект с использованием TEI.

В настоящее время практически все проекты по созданию языковых корпусов в той или иной мере соответствуют рекомендациям TEI.

Языковые корпуса на TEI

В настоящее время практически все проекты по созданию корпусов стараются в той или иной мере следовать рекомендациям TEI, в том числе:

British National Corpus (http://www.natcorp.ox.ac.uk)
Oxford Text Archive (http://ota.ox.ac.uk/)
DeReKo (http://www1.ids-mannheim.de/kl/projekte/korpora/)
имеет несколько альтернативных названий: Мангеймского корпус немецкого языка, German Reference Corpus, IDS corpora, COSMAS corpora. С 2004 года официальное название корпуса — DeReKo (Deutsches Referenzkorpus).
DeReKo - самое большое в мире электронное собрание современных немецкоязычных текстов и речевых записей на немецком языке, DeReKo содержит основанную на SGML морфосинтаксическую разметку, разработанную в соответствии с рекомендациями TEI.
Corpus Albaruthenicum (http://grid.bntu.by/corpus/) - корпус беларускамоўных навуковых тэкстаў

Множество проектов использует TEI для различных литературоведческих и лингвистических целей, в частности, для представления корпусов памятников письменной и разговорной речи на различных языках.

TEI лежит в основе Base de Français Médiéval (BFM, корпус средневекового французского языка, http://bfm.ens-lyon.fr).

Тексты BFM размечены в формате XML на основе TEI в соответствии со спецификацией, разработанной для нужд проекта с учетом перспективы лингвистического анализа.

Автоматическая разметка текстов

Размечать большие корпусы вручную долго и дорого.

Поэтому уже в 70-х годах программа TAGGIT смогла корректно назначить тэги частей речи 77% слов в Брауновском корпусе. Остальные пришлось размечать вручную в течение 10 лет.

В 80-е годы система CLAWS (Constituent Likelihood Automatic Word-tagging System), основанная на вероятностном подходе, правильно разметила уже около 95% Брауновского корпуса.

В настоящее время для основных европейских языков уже реализованы как автоматическая разметка частей речи (морфологический анализ, word-class tagging), так и автоматическая разметка членов предложения (синтаксический анализ, parsing).

Программные средства для создания, аннотирования (разметки) и использования языковых ресурсов:

MULTEXT (Multilingual Text Tools and Corpora)
www.lpl.univ-aix.fr/projects/multext;

LT XML
www.ltg.ed.ac.uk/software/xml,

NITE (www.dfki.de/nite/main.html) и др.;

GATE (General Architecture for Text Engineering)
http://gate.ac.uk/;

ATLAS (Architecture and Tools for Linguistic Analysis Systems)
www.nist.gov/speech/atlas/

и др.

Автоматизацией разметки заниматеся рабочая группа Автоматическая обработка текста (http://www.aot.ru), которой разработаны модули графематического (определение границ слов), морфологического (определение частей речи), синтаксического (определение членов предложения) и семантического (выявление семантических связей между словами) анализа текстов на русском, немецком и английском языках.

О разметке НКРЯ: http://ruscorpora.ru/sbornik2005/05savchuk.pdf

О программных средствах разметки НКРЯ: http://www.ruscorpora.ru/corpora-progr.html

Разметка ГИКРЯ

Генеральный Интернет-корпус Русского Языка (ГИКРЯ) – созданный при помощи полностью автоматической технологии сбора и разметки текстов из Рунета и основанный на современных достижениях компьютерной лингвистики мегакорпус (более 20 000 000 000 слов)

Стандарты разметки ГИКРЯ:

Серебряный Стандарт ГИКРЯ, версия 1.2

Морфологический стандарт MSD-Ru

Морфологический стандарт MSD-GICR

Серебряный Стандарт ГИКРЯ

kmp