corpus-kmp

КОРПУСНАЯ ЛИНГВИСТИКА

Понятие лингвистического корпуса

Лингвистический корпус

репрезентативная (соответствующая представляемой функционирования языка) совокупность текстов, собранных в соответствии с определёнными принципами (соответствующими задаче), размеченных (снабженных аннотациями), обеспеченных специализированной поисковой системой.

Основные приложения лингвистических корпусов:

Теоретические проблемы корпусной лингвистики

Стандарты в корпусной лингвистике

Инструментарий для разработки и использования корпусов

Методы и технологии создания корпусов

Лингвистическая и экстралингвистическая разметка корпусов

Специализированные корпусы текстов

Параллельные корпусы текстов и машинный перевод

Лингвистические исследования на базе корпусов

Корпусы устных текстов

Корпусы текстов и формальные онтологии, тезаурусы, базы данных

Использование корпусов в образовании и гуманитарных науках

Использование корпусов в разработке автоматизированных систем обработки текста

Ограничения корпусов:

Корпус текстов не является самодостаточным.

Из корпуса текстов невозможно извлечь все возможные лингвистические выводы.

Корпусная лингвистика не отрицает ценности и необходимости исследования речевых данных, не представленных в корпусной форме.

Корпусная лингвистика

Корпусная лингвистика - область лингвистики, связанная с созданием и развитием корпусов текстов (Text corpus), их применением в качестве инструмента лингвистического исследования.

Цель корпусной лингвистики:

описание языка в том виде, как он проявил себя в речи, представленной в виде специально подобранного корпуса текстов.

Плунгян В.А. (доктор филологических наук, член-корреспондент РАН, завсектором Института языкознания РАН, завсектором корпусной лингвистики и лингвистической поэтики Института русского языка РАН, профессор МГУ):

Запомните единственное: теперь для овладения языком человеку нужны не две, а три вещи: словарь, грамматика и корпус текстов данного языка.
Потому что и словарь, и грамматика, в общем-то, бесполезны вне этого живого пространства, где язык, собственно, и функционирует.
Более того, и словари и грамматики теперь нужны не традиционные, а нового поколения, то есть не просто словари и грамматики, а словари такого-то корпуса и грамматики такого-то корпуса, что сразу дает нам возможность их проверить.

История лингвистических корпусов

Корпусы люди составляли и изучали ещё до появления корпусной лингвистики, начиная с XVIII века.

Примеры:

исследования Библии (Cruden и многие другие),

составление словарей (Johnson, Oxford English Dictionary, Webster Dictionary),

преподавание языков (частотный корпус Thorndike'а, 1921),

дескриптивная грамматика (Fries, 1940, Quirk, 1968). Корпус Квирка (Survey of English Usage) включал один миллион словоупотреблений и изначально представлял собой один миллион карточек размером 6 на 4 дюйма, 17 строк текста на каждой. Этот корпус стал последним не электронным. Его составление заняло 25 лет, и к 1989 году, когда он был закончен, технология ушла далеко вперёд. Пришлось срочно переводить корпус в цифровую форму. Теперь этот корпус доступен в Юниверсити Колледж в Лондоне.

Основные вехи создания компьютерных корпусов:

1960-е: Брауновский корпус, (США), 1 млн. слов

1970-е: LOB корпус (Великобритания, Норвегия), 1 млн. слов

1980-е: Машинный Фонд русского языка

Уппсальский корпус русского языка (Швеция), 1 млн. слов

1990-е: British National Corpus, 100 млн. слов, национальные корпуса (венгерский, итальянский, хорватский, чешский, японский) объёмом 100 млн. слов

The Bank of English, Birmingham (Collins Cobuild), 600 млн. слов

7. 2000-е: American National Corpus, 100 млн. слов

Corpus of Contemporary American English, 400 млн. слов

Национальный корпус русского языка, 140 млн. слов

Gigaword corpora: английский, арабский, китайский, 2 млрд. слов

Oxford English corpus, 2 млрд. слов.имеет множество различных дефиниций и определений.

Основные типы корпусов:

Национальные корпуса

Тематические корпуса (газетные, поэтические, авторские)

Диалектологические корпуса

Многоязычные корпуса

Параллельные корпуса

Сравнительные корпуса

Корпусы устной речи

Синтаксические корпуса (глубоко аннотированные)

Акцентологические корпуса

Мультимедийные корпуса

Корпусный подход в сравнении с хомскианской лингвистикой

Согласно Н.А. Хомскому:

основополагающая проблема лингвистики как научной дисциплины состоит в отсутствии парадигм, пригодных для систематизации и объяснения избыточного количества неупорядоченных фактов

цель лингвистики: вычленить из конкретных употреблений фундирующую их систему правил, которой владеет компетентный говорящий/слушающий. Грамматика конкретного языка должна быть дополнена универсальной грамматикой, фиксирующей творческий потенциал языка и его глубинную упорядоченность.

Ноам Хомский:

я не понимаю, зачем нужны корпуса, это абсолютно бесполезное предприятие, нет такой лингвистики, как корпусная лингвистика. Нужно изучать competence, а не performance. Ведь число высказываний («parole» по Ф. де Соссюру) естественного языка бесконечно, поэтому исследовать их бессмысленно.

Noam Chomsky:

Corpus linguistics doesn’t mean anything.
It’s like saying suppose physics and chemistry decide that instead of relying on experiments, what they’re going to do is to take videotapes of things happening in the world and they’ll collect huge videotapes of everything that’s happening and from that maybe they’ll come up with some generalizations or insights.
Well, you know, sciences don’t do this

Ноам Хомский:

Корпусная лингвистика ничего не значит.
Это все равно, что сказать допустим, что физики и химики, вместо того, чтобы полагаться на эксперименты, начнут записывать на видео все, что происходит в мире, соберут большую коллекцию того, что происходит, и на основе этого может быть придут к каким-то обобщениям или озарениям.
Вы же знаете, что в науке так не принято.

Корпусный подход:

Неприятие корпусных методов основывается на убеждении, что лингвист изучает язык как систему, а не его конкретные проявления в речи, а корпус – не что иное, как собрание конкретных употреблений. Соответственно, сторонники изучения речи широко используют корпуса в своих исследованиях.

Задача лингвистики – изучение языка, что невозможно без анализа его реализации в речи. Корпусные методы позволяют сделать выводы о феноменах языка, основываясь на конкретном речевом материале. Корпусная лингвистика не альтернатива традиционной, а дополнение и обогащает ее.

В.А. Плунгян:

Корпус вернул лингвистике ее, может быть, настоящий, полноправный объект. Что такое язык – неизвестно точно. Существует он или нет – неизвестно, может быть существует, но тексты – вот они, их надо изучать. И теперь, благодаря корпусу, это очень легко делать.
Корпус есть и теперь уже нельзя сказать: «Конечно, тексты – это очень хорошо и правильно, но у меня вся жизнь уйдет на то, чтобы выписывать на карточки, как изменялись формы переходных глаголов в этом языке. Давайте, я лучше что-нибудь другое сделаю». Только косность может помешать воспользоваться нам корпусом.
Корпусная лингвистика в узком смысле – это лишь наука о том, как создавать корпуса и как ими пользоваться, но она претендует на гораздо большее, на роль новой идеологии науки о языке. Корпус позволяет нам понять, каков язык на самом деле, а не каким мы хотим, чтоб он был. Мы говорим о более сложном и неудобном объекте изучения, но и более интересном.
Главный идейный противник структурализма, генеративная лингвистика, лингвистика Хомского, в общем-то, так же, как и структуралисты, считает, что во всех головах язык один и тот же, что это такая абстрактная сущность, которая никогда не меняется, не подвержена никакой вариативности, готовые, чеканные правила грамматики, отлитые из бронзы – вот это и есть язык. Такого языка никто не видел, и вряд ли он, конечно, существует. Лингвисты стали слишком много думать о том, чего они наблюдать не могут, и о том, о чем судить они непосредственно не могут, и слишком мало внимания уделяли тому, что у них, так сказать, под ногами. Это привело к тому, что лингвисты мало знали о языке, мало и плохо описывали его свойства.
Лингвисты очень хотели, чтобы был некий идеальный говорящий, и только его и изучать, но такого не получилось.
Хомский до сих пор считает, что надо изучать идеального говорящего, но это невозможно. Это очень глубокое идеологическое разногласие между лингвистикой 60-х, 70-х, 80-х годов, в том числе лингвистикой Хомского, и современной корпусной лингвистикой, ориентированной на текст. Это совершенно разные представления о языке. Раннее, романтическое представление говорило о том, что язык – это такая сверхмощная машина, которая пригодна для всего, любую мысль может выразить и ей совершенно всё равно, какую. Нынешнее представление новой лингвистики немного скромнее оценивает язык. Это, конечно, прекрасный инструмент, но не всемогущий, и у каждого языка есть свои ограничения.
Язык обслуживает не отдельного человека, а говорящее на нем общество в целом, и всем в равной степени угодить нельзя. Язык обслуживает, в первую очередь, те потребности, которые в данном обществе наиболее массовые. На самом деле, язык – это не всемогущий инструмент, а скорее – система клише, шаблонов, которые помогают нам делать то, что каждый из нас много раз делает и делал, это очень хорошо видно с помощью корпусов.
Эта мысль не абсолютно новая, она возникала в науке о языке, но всегда была маргинальной.

Разметка языковых корпусов

Разметка - операция нанесения на объект (текст) метаданных (метаинформации), определяющей способ его обработки.

Текстовый документ, написанный с использованием языка разметки, содержит:

сам текст (последовательность символов)
дополнительную информацию о различных его участках — например, указание на заголовки, выделения, списки, интерактивные элементы и содержание других документов.

Метаязык разметки документов

принадлежат классу компьютерных языков.
не считается языком программирования
неполны по Тьюрингу (как и конечные автоматы, регулярные выражения, контекстно-свободные и регулярные грамматики.

Языки разметки обеспечивают структурирование и форматирование данных для вывода.

Логическая разметка определяет роль фрагмента документа в его общей структуре.

Визуальная разметка задает отображение элемента в вычислительной среде.

XML-разметка синтаксически (без семантики) определяет структуру документа, подлежащего машинной обработке.

Лингвистические приложения XML:

FB2 (FictionBook)

ePub (Electronic Publication)

SVG (Scalable Vector Graphic)

BML (Behavior markup language)

TMX Translation Memory eXchange

SRX (Segmentation Rules eXchange)

TBX (Term Base eXchange)

SRX (Segmentation Rules eXchange)

VoiceXML (Voice eXtensible Markup Language)

Микроразметка (семантическая разметка) - разметка страницы с дополнительными тегами и атрибутами в тегах, которые указывают поисковым роботам на то, о чем написано на странице.

Микроформаты (microdata) – сущности поверх HTML, с помощью которых можно описывать любую информацию на Web-страницах.

Конкорданс

Конкорданс (англ. concordance) в корпусной лингвистике - список найденных примеров (вхождений) нужного токена (лексемы, леммы, морфемы...) в минимальном контексте.

Обычно такой контекст представляет собой фрагмент из нескольких единиц слева (L) и справа (R).

Многие современные корпуса предлагают конкорданс в качестве дополнительной возможности вывода найденной информации на экран, такой формат вывода называется KWIC (читается «квик», англ. key word іп context).

Конкордансер (англ. Concordancer) - программа для автоматического создания конкордансов

См. https://en.wikipedia.org/wiki/Concordancer

Коллокация - словосочетание, имеющее признаки синтаксически и семантически целостной единицы, в котором выбор одного из компонентов осуществляется по смыслу, а выбор второго зависит от выбора первого (например, ставить условия — выбор глагола ставить определяется традицией и зависит от существительного условия, при слове предложение будет другой глагол — вносить).

Коллокация - устойчивые словосочетания, N-граммы.

В отличие от идиом Коллокации, в отличие от идиом, тотальны в языке и необходимы в речи.

Большая часть коллокаций выражает ограниченное количество стандартных смыслов, названных в модели «Смысл — Текст» лексическими функциями.

Различают:

неразрывные коллокации

разрывные коллокации(могут включать второстепенные слова (жизнь кипит и жизнь его кипит, жизнь его постоянно кипит и пр.).

Коллокации выявляются при лексическом анализе текста с использованием статистических методов.

Программы для работы с корпусом

В понятие «корпус текстов» входит система управления текстовыми и лингвистическими данными, которую часто называют корпус-менеджером.

Корпус-менеджер (анг. corpus manager)- специализированная поисковая система для получения квантитативной информации и предоставления пользователю результатов в удобной форме.

На ресурсе NLPub (Дмитрия Усталова) находится материал Сравнение утилит анализа корпусов

Популярными (проприетарными платными и дорогими) утилитами являются WordSmith Tools (в том числе инструментарий построения и анализа конкордансов)

Познакомиться с Энтони Лоуренсом (профессором университета Waseda (Токио, Япония) разработан инструментарий для корпусных исследований (в том числе бесплатная утилита AntConc)

Корпус-менеджер AntConc (разработан Энтони Лоуренсом) предназначен для обработки корпусов первого порядка.

Корпусы первого порядка универсальны, они отражают в себе все многообразие речевой деятельности в собрании текстов, объединенных стилевой и тематической принадлежностью.

Корпусы второго порядка отражают специфические лингвистические феномены и построены ad hoc (для специальной цели). Например, корпус пословиц, корпус политических метафор в газетной речи, терминологический корпус.

AntConc позволяет получить:

получить KWIC- конкорданс (инструмент Concordance);
входы элементов конкорданса в текст (инструмент Concordance Plot
набор ключевых слов текста (инструмент Keyword List
получить основные статистики обрабатываемых текстов (инструмент Word List
списки коллокатов к опорному элементу с доступом функции расчета критерия связности: MI-score, TI-score (инструмент Collocates
кластер с опорным элементом и списки n-грамм (инструмент Clusters) и др...

Для работы с русскоязычными корпусами широко используется программа Mystem 3.0
Познакомиться с документацией по Mystem 3.0 (использование, примеры вызова, расшифровка граммем) можно на сайте

Mystem - консольное приложение — программа, предназначенная для работы в окне DOS в режиме отображения символьной информации

Mystem - не для рядового пользователя эпохи графических интерфейсов, но можно попробовать работать с ней самостоятельно

Для примера, в Windows консоль можно запустить так: Пуск -> Программы -> Стандартные -> Командная строка .... и попробовать ввести команды date и time