КОРПУСНАЯ ЛИНГВИСТИКА

 

 

Понятие лингвистического корпуса

Лингвистический корпус

  • репрезентативная (соответствующая представляемой функционирования языка) совокупность текстов, собранных в соответствии с определёнными принципами (соответствующими задаче), размеченных (снабженных аннотациями), обеспеченных специализированной поисковой системой.

Основные приложения лингвистических корпусов:

  • Теоретические проблемы корпусной лингвистики

  • Стандарты в корпусной лингвистике

  • Инструментарий для разработки и использования корпусов

  • Методы и технологии создания корпусов

  • Лингвистическая и экстралингвистическая разметка корпусов

  • Специализированные корпусы текстов

  • Параллельные корпусы текстов и машинный перевод

  • Лингвистические исследования на базе корпусов

  • Корпусы устных текстов

  • Корпусы текстов и формальные онтологии, тезаурусы, базы данных

  • Использование корпусов в образовании и гуманитарных науках

  • Использование корпусов в разработке автоматизированных систем обработки текста

Ограничения корпусов:

  • Корпус текстов не является самодостаточным.

  • Из корпуса текстов невозможно извлечь все возможные лингвистические выводы.

  • Корпусная лингвистика не отрицает ценности и необходимости исследования речевых данных, не представленных в корпусной форме.

 

 

Корпусная лингвистика

Корпусная лингвистика - область лингвистики, связанная с созданием и развитием корпусов текстов (Text corpus), их применением в качестве инструмента лингвистического исследования.

Цель корпусной лингвистики:

  • описание языка в том виде, как он проявил себя в речи, представленной в виде специально подобранного корпуса текстов.

 

Плунгян В.А. (доктор филологических наук, член-корреспондент РАН, завсектором Института языкознания РАН, завсектором корпусной лингвистики и лингвистической поэтики Института русского языка РАН, профессор МГУ):

  • Запомните единственное: теперь для овладения языком человеку нужны не две, а три вещи: словарь, грамматика и корпус текстов данного языка.

  • Потому что и словарь, и грамматика, в общем-то, бесполезны вне этого живого пространства, где язык, собственно, и функционирует.

  • Более того, и словари и грамматики теперь нужны не традиционные, а нового поколения, то есть не просто словари и грамматики, а словари такого-то корпуса и грамматики такого-то корпуса, что сразу дает нам возможность их проверить.

 

 

 

История корпусного моделирования

Корпусы люди составляли и изучали ещё до появления корпусной лингвистики, начиная с XVIII века.

Примеры:

  • исследования Библии (Cruden и многие другие),

  • составление словарей (Johnson, Oxford English Dictionary, Webster Dictionary),

  • преподавание языков (частотный корпус Thorndike'а, 1921),

  • дескриптивная грамматика (Fries, 1940, Quirk, 1968). Корпус Квирка (Survey of English Usage) включал один миллион словоупотреблений и изначально представлял собой один миллион карточек размером 6 на 4 дюйма, 17 строк текста на каждой. Этот корпус стал последним не электронным. Его составление заняло 25 лет, и к 1989 году, когда он был закончен, технология ушла далеко вперёд. Пришлось срочно переводить корпус в цифровую форму. Теперь этот корпус доступен в Юниверсити Колледж в Лондоне.

Основные вехи создания компьютерных корпусов:

  • 1960-е: Брауновский корпус, (США), 1 млн. слов

  • 1970-е: LOB корпус (Великобритания, Норвегия), 1 млн. слов

  • 1980-е: Машинный Фонд русского языка

  • Уппсальский корпус русского языка (Швеция), 1 млн. слов

  • 1990-е: British National Corpus, 100 млн. слов, национальные корпуса (венгерский, итальянский, хорватский, чешский, японский) объёмом 100 млн. слов

  • The Bank of English, Birmingham (Collins Cobuild), 600 млн. слов

  • 7. 2000-е: American National Corpus, 100 млн. слов

  • Corpus of Contemporary American English, 400 млн. слов

  • Национальный корпус русского языка, 140 млн. слов

  • Gigaword corpora: английский, арабский, китайский, 2 млрд. слов

  • Oxford English corpus, 2 млрд. слов.имеет множество различных дефиниций и определений.

Основные типы корпусов:

  • Национальные корпуса

  • Тематические корпуса (газетные, поэтические, авторские)

  • Диалектологические корпуса

  • Многоязычные корпуса

  • Параллельные корпуса

  • Сравнительные корпуса

  • Корпусы устной речи

  • Синтаксические корпуса (глубоко аннотированные)

  • Акцентологические корпуса

  • Мультимедийные корпуса

Основные типы языковых корпусов отражены в перечне других корпусов на сайте НКРЯ

Google N-Grams Corpus (самый объемный из существующих в настоящий момент корпусов)

 

 

 

Корпусный подход в сравнении с хомскианской лингвистикой

Согласно Н.А. Хомскому:

  • основополагающая проблема лингвистики как научной дисциплины состоит в отсутствии парадигм, пригодных для систематизации и объяснения избыточного количества неупорядоченных фактов

  • цель лингвистики: вычленить из конкретных употреблений фундирующую их систему правил,  которой владеет компетентный говорящий/слушающий. Грамматика конкретного языка должна быть дополнена универсальной грамматикой, фиксирующей творческий потенциал языка и его глубинную упорядоченность.

Ноам Хомский:

  • я не понимаю, зачем нужны корпуса, это абсолютно бесполезное предприятие, нет такой лингвистики, как корпусная лингвистика. Нужно изучать competence, а не performance. Ведь число высказываний («parole» по Ф. де Соссюру) естественного языка бесконечно, поэтому исследовать их бессмысленно.

Noam Chomsky:

  • Corpus linguistics doesn’t mean anything.
    It’s like saying suppose physics and chemistry decide that instead of relying on experiments, what they’re going to do is to take videotapes of things happening in the world and they’ll collect huge videotapes of everything that’s happening and from that maybe they’ll come up with some generalizations or insights.
    Well, you know, sciences don’t do this

Ноам Хомский:

  • Корпусная лингвистика ничего не значит.
    Это все равно, что сказать допустим, что физики и химики, вместо того, чтобы полагаться на эксперименты, начнут записывать на видео все, что происходит в мире, соберут большую коллекцию того, что происходит, и на основе этого может быть придут к каким-то обобщениям или озарениям.
    Вы же знаете, что в науке так не принято.

Корпусный подход:

Неприятие корпусных методов основывается на убеждении, что лингвист изучает язык как систему, а не его конкретные проявления в речи, а корпус – не что иное, как собрание конкретных употреблений. Соответственно, сторонники изучения речи широко используют корпуса в своих исследованиях.

Задача лингвистики – изучение языка, что невозможно без анализа его реализации в речи. Корпусные методы позволяют сделать выводы о феноменах языка, основываясь на конкретном речевом материале. Корпусная лингвистика не альтернатива традиционной, а дополнение и обогащает ее.

В.А. Плунгян:

  • Корпус вернул лингвистике ее, может быть, настоящий, полноправный объект. Что такое язык – неизвестно точно. Существует он или нет – неизвестно, может быть существует, но тексты – вот они, их надо изучать. И теперь, благодаря корпусу, это очень легко делать.

  • Корпус есть и теперь уже нельзя сказать: «Конечно, тексты – это очень хорошо и правильно, но у меня вся жизнь уйдет на то, чтобы выписывать на карточки, как изменялись формы переходных глаголов в этом языке. Давайте, я лучше что-нибудь другое сделаю». Только косность может помешать воспользоваться нам корпусом.

  • Корпусная лингвистика в узком смысле – это лишь наука о том, как создавать корпуса и как ими пользоваться, но она претендует на гораздо большее, на роль новой идеологии науки о языке. Корпус позволяет нам понять, каков язык на самом деле, а не каким мы хотим, чтоб он был. Мы говорим о более сложном и неудобном объекте изучения, но и более интересном.

  • Главный идейный противник структурализма, генеративная лингвистика, лингвистика Хомского, в общем-то, так же, как и структуралисты, считает, что во всех головах язык один и тот же, что это такая абстрактная сущность, которая никогда не меняется, не подвержена никакой вариативности, готовые, чеканные правила грамматики, отлитые из бронзы – вот это и есть язык. Такого языка никто не видел, и вряд ли он, конечно, существует. Лингвисты стали слишком много думать о том, чего они наблюдать не могут, и о том, о чем судить они непосредственно не могут, и слишком мало внимания уделяли тому, что у них, так сказать, под ногами. Это привело к тому, что лингвисты мало знали о языке, мало и плохо описывали его свойства.

  • Лингвисты очень хотели, чтобы был некий идеальный говорящий, и только его и изучать, но такого не получилось.
    Хомский до сих пор считает, что надо изучать идеального говорящего, но это невозможно. Это очень глубокое идеологическое разногласие между лингвистикой 60-х, 70-х, 80-х годов, в том числе лингвистикой Хомского, и современной корпусной лингвистикой, ориентированной на текст. Это совершенно разные представления о языке. Раннее, романтическое представление говорило о том, что язык – это такая сверхмощная машина, которая пригодна для всего, любую мысль может выразить и ей совершенно всё равно, какую. Нынешнее представление новой лингвистики немного скромнее оценивает язык. Это, конечно, прекрасный инструмент, но не всемогущий, и у каждого языка есть свои ограничения.

  • Язык обслуживает не отдельного человека, а говорящее на нем общество в целом, и всем в равной степени угодить нельзя.  Язык обслуживает, в первую очередь, те потребности, которые в данном обществе наиболее массовые. На самом деле, язык – это не всемогущий инструмент, а скорее – система клише, шаблонов, которые помогают нам делать то, что каждый из нас много раз делает и делал, это очень хорошо видно с помощью корпусов.
    Эта мысль не абсолютно новая, она возникала в науке о языке, но всегда была маргинальной. 

 

 

Разметка языковых корпусов

Разметка - операция нанесения на объект (текст) метаданных (метаинформации), определяющей способ его обработки. 

Текстовый документ, написанный с использованием языка разметки, содержит:

  • сам текст (последовательность символов)

  • дополнительную информацию о различных его участках — например, указание на заголовки, выделения, списки, интерактивные элементы и содержание других документов.

Метаязык разметки документов

  • принадлежат классу компьютерных языков.

  • не считается языком программирования

  • неполны по Тьюрингу (как и  конечные автоматы, регулярные выражения, контекстно-свободные и регулярные  грамматики.

Языки разметки обеспечивают структурирование и форматирование данных для вывода.

Логическая разметка определяет роль фрагмента документа в его общей структуре.

Визуальная разметка задает отображение элемента в вычислительной среде.

XML-разметка синтаксически (без семантики) определяет структуру документа, подлежащего машинной обработке.

Лингвистические приложения XML:

  • FB2 (FictionBook)

  • ePub (Electronic Publication)

  • SVG (Scalable Vector Graphic)

  • BML (Behavior markup language)

  • TMX Translation Memory eXchange

  • SRX (Segmentation Rules eXchange)

  • TBX (Term Base eXchange)

  • SRX (Segmentation Rules eXchange)

  • VoiceXML (Voice eXtensible Markup Language)

Микроразметка (семантическая разметка) - разметка страницы с дополнительными тегами и атрибутами в тегах, которые указывают поисковым роботам на то, о чем написано на странице.

Микроформаты (microdata) – сущности поверх HTML, с помощью которых можно описывать любую информацию на Web-страницах.

См. С.О. Савчук Метатекстовая разметка в НКРЯ

 

Лингвистические исследования на базе корпусов

Лингвистические исследования на базе корпуса

 

Методы извлечения информации из корпуса

Типы извлекаемой информации.

Инструкция по осуществлению поиска в основном корпусе НКРЯ (важное значение имеет возможность визуализации распределения вхождений по годам, в т.ч. с табличным вариантом; статистика вхождений по метаданным.

Бесплатный учебный курс по работе с НКРЯ на образовательной платформе «Верные слова»
Сервис разработан сотрудниками и студентами Школы лингвистики ВШЭ
и Института русского языка РАН), под руководством старшего преподавателя Школы лингвистики ВШЭ Анны Иосифовны Левинзон (преподает учебный курс "Корпусная педагогика")

Ресурс основан на принципах корпусного преподавания и демонстрирует живой язык, предлагает ученику (7-13 и даже 113 лет) вывести правило из употребления, дает возможность проследить вариативность. На сайте собраны более тысячи упражнений, составленных  на базе НКРЯ, произведений современной детской литературы, фрагментов устной речи.

На выполнение упражнений мотивируют призы в личном кабинете, аудиозаписи и яркие иллюстрации, сами тексты заданий, составленные по законам рассказов, детективов, блогов и смс. В курсах используются 15 типов упражнений, в том числе на графическое развертывание мысли. Все упражнения проверяются автоматически, система генерирует отчеты об успеваемости. На сайте также представлены игры для старших школьников и студентов, которым предлагается проверить свое знание лексики, сочетаемости и синонимов.

Изучая графики распределения частотности слов с 1800 по 2016 год (полезно посмотреть распределение частотности по разным подкорпусам)

Актуальные проблемы гуманитарных корпусных исследований отражены в:

  • в интервью с Рахилиной Е. В. (обратить внимание на очеловечивание (перемены в особенностях словоупотребления) глаголов "грузить" и "тормозить").
    Рекомендуется для самостоятельного просмотра лекция

  • в докладе на конференции Диалог (обратить внимание на перемены в особенностях словоупотребления) преимущественно субъектного предикатов "нужно" и преимущественно безличного "надо"). 

  • в докладе на конференции Диалог Беликова В.И. (обратить внимание на очеловечивание (перемены в особенностях словоупотребления) глагола "реагировать"). Рекомендуется для самостоятельного просмотра лекция

Поиск в НКРЯ можно вести по словосочетаниям с неснятой омонимией основного корпуса из 2, 3, 4 и 5 слов:

  • биграммам

  • триграммам

  • 4-граммам

  • 5-граммам

Поиск может быть осуществлен:

  • по точным формам и по леммам,

  • с учетом грамматических признаков и пунктуации или без.

см. справка: http://www.ruscorpora.ru/help-ngrams.html

Можно получить частотное распределение популярных словоформ и словосочетаний (основной корпус):

При подсчёте не учитываются знаки препинания и регистр. Приводятся результаты, встречающиеся не менее чемя в 100 документах. 

 

 

Конкорданс

 

Конкорданс (англ. concordance) в корпусной лингвистике - список найденных примеров (вхождений) нужного токена (лексемы, леммы, морфемы...) в минимальном контексте.

Обычно такой контекст представляет собой фрагмент из нескольких единиц слева (L) и справа (R).

Многие современные корпуса предлагают конкорданс в качестве дополнительной возможности вывода найденной информации на экран, такой формат вывода называется KWIC (читается «квик», англ. key word іп context).

Конкордансер (англ. Concordancer) - программа для автоматического создания конкордансов

См. https://en.wikipedia.org/wiki/Concordancer

Коллокация - словосочетание, имеющее признаки синтаксически и семантически целостной единицы, в котором выбор одного из компонентов осуществляется по смыслу, а выбор второго зависит от выбора первого (например, ставить условия — выбор глагола ставить определяется традицией и зависит от существительного условия, при слове предложение будет другой глагол — вносить).

Коллокация -  устойчивые словосочетания, N-граммы.

В отличие от идиом Коллокации, в отличие от идиом, тотальны в языке и необходимы в речи.

Большая часть коллокаций выражает ограниченное количество стандартных смыслов, названных в модели «Смысл — Текст» лексическими функциями.

Различают:

  • неразрывные коллокации

  • разрывные  коллокации(могут включать второстепенные слова (жизнь кипит и жизнь его кипит, жизнь его постоянно кипит и пр.).

Коллокации выявляются при лексическом анализе текста с использованием статистических методов.

 

 

 

Программы для работы с корпусом

В понятие «корпус текстов» входит система управления текстовыми и лингвистическими данными, которую часто называют корпус-менеджером.

Корпус-менеджер (анг. corpus manager)- специализированная поисковая система для получения квантитативной информации и предоставления пользователю результатов в удобной форме.

На ресурсе NLPub (Дмитрия Усталова) находится материал Сравнение утилит анализа корпусов

Популярными (проприетарными платными и дорогими)  утилитами являются WordSmith Tools (в том числе инструментарий построения и анализа конкордансов)

Познакомиться с Энтони Лоуренсом (профессором университета Waseda (Токио, Япония) разработан инструментарий для корпусных исследований (в том числе бесплатная утилита AntConc)

Корпус-менеджер AntConc (разработан Энтони Лоуренсомony)  предназначен для обработки корпусов первого порядка.

Корпусы первого порядка универсальны, они отражают в себе все многообразие речевой деятельности в собрании текстов, объединенных стилевой и тематической принадлежностью.

Корпусы второго порядка отражают специфические лингвистические феномены и построены ad hoc (для специальной цели). Например, корпус пословиц, корпус политических метафор в газетной речи, терминологический корпус.

AntConc  позволяет получить:

  • получить KWIC- конкорданс (инструмент Concordance);

  • входы элементов конкорданса в текст (инструмент Concordance Plot

  • набор ключевых слов текста (инструмент Keyword List

  • получить основные статистики обрабатываемых текстов (инструмент Word List

  • списки коллокатов к опорному элементу с доступом функции расчета критерия связности: MI-score, TI-score (инструмент Collocates

  • кластер с опорным элементом и списки n-грамм (инструмент Clusters) и др...

Для работы с русскоязычными корпусами широко используется программа Mystem 3.0
Познакомиться с документацией по Mystem 3.0 (использование, примеры вызова, расшифровка граммем) можно на сайте
Полезно почитать о принципах работы программы)

Mystem - консольное приложение — программа, предназначенная для работы в окне DOS в режиме отображения символьной информации

Mystem -  не для рядового пользователя эпохи графических интерфейсов, но можно попробовать работать с ней самостоятельно

Для примера, в Windows консоль можно запустить так: Пуск -> Программы -> Стандартные -> Командная строка .... и попробовать ввести команды date и time

 

 

 

Беларускiя корпусныя даследаваннi

Iснуе некалькі корпусных праектаў:

  • Вялікі корпус беларускай мовы (доступен только оффлайн), миллионный корпус, собранный под руководством А. В. Зубовавыкладчыкамі Мінскага дзяржаўнага лінгвістычнага універсітэта сумесна з навуковымі супрацоўнікамі Інстытута мовы і літаратуры імя Якуба Коласа і Янкі Купалы НАН Беларусі,

Александр Васильевич Зубов (здесь и здесь) - завкафедрой информатики и прикладной лингвистики МГЛУ, д. филологических наук, профессор

Cм. публикации Зубова А.В. в электронной библиотеке БГУ, в том числе по корпусной лингвистике:

Cм. дисциплины специализации «КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА» на кафедре ИиПЛ МГЛУ

 

  • Corpus Albaruthenicum  (http://grid.bntu.by/corpus/) - корпус навуковых тэкстаў беларускай мовы, падрыхтаваны спецыялістамі Беларускага нацыя-нальнага тэхнічнага універсітэта разам з навукоўцамі Інстытута мовы і літаратуры імя Якуба Коласа і Янкі Купалы НАН Беларусі.

"У перспектыве дадзеныя корпусы павінны быць аб’яднаны ў адзін, што стане асновай для будучага Нацыянальнага корпусу беларускай мовы"?
 

  • Белорусский библейский корпус (http://biblija.bnkorpus.info/translations.html
    Створаны камандай Беларускага N-корпусу ў якасці падарунка да 500-годдзе беларускага кнігадрукавання. Корпус змяшчае 16 перакладаў Бібліі на беларускую мову, а таксама тэксты на іншых мовах (лаціна, яўрэйская, украінская, польская і інш.) для параўнання. Пры дапамозе Біблійнага корпусу можна супаставіць тэксты перакладаў, знайсці патрэбнае слова і паглядзець варыянты яго перакладу ў розных выданнях.
     

  •  Беларускі N-корпус (http://bnkorpus.info/korpus.html)  - першая спроба (2013) стварэння публічнага агульнага корпусу беларускай мовы.
     

  • Паралельны беларуска-руска-беларускі корпус  (на сайте НКРЯ)
    См. статью Д.В. Сичинава РУССКО-БЕЛОРУССКИЙ ПАРАЛЛЕЛЬНЫЙ КОРПУС: ОПЫТ РАЗРАБОТКИ
     

  • Экспериментальный корпус белорусского языка
    (разработка Оксаны Анатольевны Волчек и Владислава Валерьевича Порицкого, доступен для скачивания)
    См. статью: 
    О. А. Волчек, В. В. Порицкий. Экспериментальный корпус белорусского языка: текущее состояние и перспективы развития // Труды международной конференции «Корпусная лингвистика–2013». – СПб.: СПбГУ, 2013. – С. 231–238.
    См. видео (доклад В. Порицкого об экспериментальном корпусе)
    кстати, в 2010 году В. Порицкий в
    ыиграл Кубок Европы среди студентов (КЕС) по "Своей игре". 
     

  • Параллельный корпус текстов Франциска Скорины и Симеона Полоцкого (icнуе пакуль як iдэя)
     

 

 

 

Corpus Albaruthenicum

 

Corpus Albaruthenicum (http://grid.bntu.by/corpus/створаны ў рамках міжнароднага праекта Еўрапейскага саюзу «ВаlticGrid-II» (www.baltiсgrid.org, 2008-2011, распрацоўка лінгвістычных рэсурсаў для краін Балтыі і Беларусі).

Літва (Вільнюскі універсітэт) і Беларусь (Беларускі нацыянальны тэхнічны універсітэт пры ўдзеле спецыялістаў з Інстытута мовы і літаратуры імя Якуба Коласа і Янкі Купалы НАН Беларусі) распрацоўвалі тэкставыя корпусы навуковай мовы, адпаведна літоўскай і беларускай.

Мэта стварэння Corpus Albaruthenicum (корпуса беларускамоўных навуковых тэкстаў) —  прадастаўленне шырокай аўдыторыі беларускамоўных навуковых рэсурсаў.

Corpus Albaruthenicum дазволяе не толькі атрымаць інфармацыю пра ўласна тэкст (структуру, аўтара і г.д.), але і праводзіць рознаўзроўневы моўны аналіз (статыстычны, марфалагічны, стылістычны, семантычны і г.д.).

Корпус размечаны адпаведна сістэме кадзіравання тэкстаў TEI P5, у аснове якой ляжыць мова XML (www.tei-c.org).

Схема разметкі корпусу ўтрымлівае наступныя характарыстыкі:

  • агульная інфармацыя пра тэкст;

  • базавая структурная анатацыя тэксту: главы, загалоўкі, змест тэксту да ўзроўню асобных слоў;

  • граматычная інфармацыя.

Агульная інфармацыя пра тэкст складаецца з апісання

  • структуры дакумента (апісанне файла, заяўленне загалоўка, выдання і аб’ёму, апісанне крыніцы і інш.),

  • параметраў (паходжанне тэксту, мова, раскладка знакаў і інш.).

Агульная інфармацыя змяшчае ўсе параметры тэксту, якому яна папярэднічае, а таксама выконвае шэраг важных функцый:

  • фарміруе архітэктуру корпусу;

  • дапамагае кантраляваць працэс яго інфармацыйнага напаўнення, ацэньваць прадстаўнічасць і збалансаванасць;

  • забяспечвае магчымасць пошуку і адбору карыстальнікам для складання падкорпусаў з зададзенымі ўласцівасцямі.

Базавая структурная анатацыя ўключае выдзяленне структурных элементаў тэксту і падзяляецца на тры ўзроўні:

  • узровень тэксту (ахоплівае пазначэнне змесціва тэксту, глаў, раздзелаў і абзацаў),

  • узровень абзаца (пазначэнне загалоўкаў),

  • узровень падабзаца (пазначэнне сказаў, слоў, пунктуацыйных знакаў).

Для граматычнай разметкі корпусу выкарыстоўваецца лексіка-граматычная база беларускай мовы (налічвае прыблізна 130 тыс. парадыгм, больш за 2 млн словаформаў), створаная ў Інстытуце мовы і літаратуры імя Якуба Коласа і Янкі Купалы НАН Беларусі.

Марфалагічная разметка складаецца з пачатковай формы словаформы (пазначаецца як lemma) і граматычных прыкмет лексемы (часціна мовы, адушаўлёнасць і род для назоўнікаў, пераходнасць, трыванне для дзеяслова і г.д.), граматычныя прыкметы словаформы (напрыклад, склон, род, лік для назоўнікаў) ігнаруюцца.

Аб’ём корпусу складае каля 400 тыс. слоў са знятай аманіміяй і ўключае тэксты з розных галін мовазнаўства, літаратуразнаўства, эканомікі, фізікі, хіміі, генетыкі, медыцыны і г.д.

Для Albaruthenicum распрацаваны анлайнавы сэрвіс (http://grid.bntu.by/corpus/),  які прадастаўляе выбаркі інфармацыі з Корпусу. Утыліта дазваляе шукаць словы ў іх зыходнай форме (удрукаванай карыстальнікам), словы з іх словаформамі і камбінацыі слоў (уключна з іх словаформамі), выкарыстоўваючы лагічны аператар AND і ўлічваючы адлегласць паміж словамі. Пошук дазваляецца ў межах сказа, абзаца і ўсяго тэксту.

 

 

 

Беларускi N-корпус

 

08.05.2013

Выйшаў рэліз Беларускага N-корпусу - першая спроба стварэння публічнага агульнага корпусу беларускай мовы.

Корпус мае 1945 тэкстаў (~15 млн. словаўжыванняў) мастацкай літаратуры (проза і вершы) з граматычнай разметкай і пашпартызацыяй (аўтар, назва твора і г.д.). Планаваны аб’ём корпусу – 100 млн. словаўжыванняў

10.08.2016

Выйшаў новы рэліз Беларускага N-корпусу.

Аб’ём корпусу вырас на ~65 млн. словаўжыванняў і складае каля 80 млн. словаўжыванняў і 185 097 тэкстаў.

Асноўны корпус дазваляе рабіць пошук па аўтарах, гадах (часткова), жанрах (часткова), граматычных прыкметах, пачатковых і ўскосных формах. Усе параметры пошуку можна камбінаваць.

Пошук слоў і іх формаў ажыццяўляецца на падставе правапісаў 1957 і 2008 гг., іншыя правапісы пакуль не ўлічваюцца (у распрацоўцы), але ёсць магчымасць шукаць кожную асобную форму: напрыклад, нельга знайсці слова "сьнег" з усімі словаформамі, але можна шукаць асобна словаформы "сьнегам", "сьнезе" і г.д.

Дадаткова размешчаны падкорпус неапрацаваных тэкстаў, які ўяўляе сабой збор тэкстаў, што былі распазнаныя ў аўтаматычным рэжыме і не прайшлі вычытку (ёсць праблемы з пераносамі, падзелам на сказы, абзацы і інш.). Падкорпус дазваляе шукаць слова і словаформы, але не мае паўнавартаснай метаразметкі (аўтар, твор, год напісання). Крыніцу тэксту можна паглядзець па спасылцы, якая падаецца пры разгортванні сказа. Аб’ём падкорпусу складае ~174 млн. словаўжыванняў.

Істотна абноўлена Лексіка-граматычная база, даступная на ўмовах ліцэнзіі CC-BY-SA 4.0.

Аб’ём базы складае 124417 парадыгмаў 1 840 835 формаў.

Лексіка-граматычнай базай можна карыстацца ў анлайн-рэжыме.

Дазваляецца выбарка па граматычных прыкметах, па частках слова, па леме (пачатковай форме). Выбраны спіс слоў можна адсартаваць у адваротным парадку.

Аўтары вiтаюць любую дапамогу: прапановы і крытычныя заўвагі, вычытаныя тэксты (з выходнымі звесткамі), дапамога ў зняцці аманіміі і інш.

Па пытаннях дапамогі і супрацоўніцтва звяртацца па адрасе bnkorpus@gmail.com

 

 

kmp