Corpus-BY

Беларускiя корпусныя даследаваннi

Корпус - апрацаваны паводле пэўных правілаў збор тэкстаў у электроннай форме, які можа выкарыстоўвацца як у якасці базы для даследавання мовы, так і ў іншых сферах, што патрабуюць аналізу тэксту.

Лексіка-граматычная база - збор слоў з іх формамі (напр., склон, род. лік і пад.), пры якіх падаюцца граматычныя і іншыя паметы (правапіс, крыніца слова, семантыка і г.д.).

Корпусы і граматычныя базы шырока выкарыстоўваюцца

ў мовазнаўстве

стварэнне электронных (і таксама папяровых) слоўнікаў, анталогій, тэзаўрусаў, якія ў сваю чаргу выкарыстоўваюцца для распрацоўкі далейшых праграмных сродкаў (праграмы праверкі арфаграфіі, перакладу і г.д). Вядучыя выдавецтвы свету ствараюць лексікаграфічныя рэсурсы выключна на падставе корпусаў. Немагчыма ўкласці слоўнік ці граматыку, якія адпавядалі б сучасным стандартам, без выкарыстання корпусу;

аўтаматычны пераклад тэкстаў. ;
навучанне матэматычных мадэлей для стварэння праграм, якія могуць апрацоўваць тэксты (рабіць марфалагічны, сінтаксічны, семантычны аналіз і інш.) і вымаць з іх факты (напрыклад, праграмы пошуку, праграмы выдзялення ключавых слоў і г.д.);

аўтаматычная апрацоўка тэкстаў і выманне фактаў (напрыклад, пошукавыя сістэмы);

аўтаматычнае распазнаванне маўлення;

аўтаматычны сінтэз маўлення;

стварэнне праграм праверкі арфаграфіі;

распрацоўка пытанняў лексікалогіі, лексікаграфіі, пры правядзенні навуковых даследаванняў тэксту і яго рознаўзроўневага моўнага аналізу (статыстычнага, марфалагічнага, стылістычнага, семантычнага і г.д.).

Сфера адукацыі (падбор прыкладаў да заданняў, пры праверцы слоў на прадмет іх адпаведнасці нормам беларускай мовы, пры ўкладанні падручнікаў і вучэбных дапаможнікаў).

Iснуе некалькі корпусных праектаў:

Вялікі корпус беларускай мовы (доступен только оффлайн), миллионный корпус, собранный под руководством А. В. Зубова) выкладчыкамі Мінскага дзяржаўнага лінгвістычнага універсітэта сумесна з навуковымі супрацоўнікамі Інстытута мовы і літаратуры імя Якуба Коласа і Янкі Купалы НАН Беларусі,

Александр Васильевич Зубов (здесь) - д. филологических наук, профессор

Cм. публикации Зубова А.В.:

О ЗАДАЧАХ СОЗДАНИЯ ПОДКОРПУСА ТЕКСТОВ ...

ИСПОЛЬЗОВАНИЕ КОРПУСА ТЕКСТОВ ДЛЯ ИЗУЧЕНИЯ ...

Cм. дисциплины специализации «КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА» на кафедре ИиПЛ МГЛУ

Corpus Albaruthenicum (http://grid.bntu.by/corpus/) - корпус навуковых тэкстаў беларускай мовы, падрыхтаваны спецыялістамі Беларускага нацыя-нальнага тэхнічнага універсітэта разам з навукоўцамі Інстытута мовы і літаратуры імя Якуба Коласа і Янкі Купалы НАН Беларусі.

"У перспектыве дадзеныя корпусы павінны быць аб’яднаны ў адзін, што стане асновай для будучага Нацыянальнага корпусу беларускай мовы"?

Белорусский библейский корпус (http://biblija.bnkorpus.info/translations.html)
Створаны камандай Беларускага N-корпусу ў якасці падарунка да 500-годдзе беларускага кнігадрукавання. Корпус змяшчае 16 перакладаў Бібліі на беларускую мову, а таксама тэксты на іншых мовах (лаціна, яўрэйская, украінская, польская і інш.) для параўнання. Пры дапамозе Біблійнага корпусу можна супаставіць тэксты перакладаў, знайсці патрэбнае слова і паглядзець варыянты яго перакладу ў розных выданнях.

Беларускі N-корпус (http://bnkorpus.info/korpus.html) - першая спроба (2013) стварэння публічнага агульнага корпусу беларускай мовы.
Паралельны беларуска-руска-беларускі корпус (на сайте НКРЯ)
См. статью Д.В. Сичинава РУССКО-БЕЛОРУССКИЙ ПАРАЛЛЕЛЬНЫЙ КОРПУС: ОПЫТ РАЗРАБОТКИ
Экспериментальный корпус белорусского языка
(разработка Оксаны Анатольевны Волчек и Владислава Валерьевича Порицкого, доступен для скачивания)
См. статью: О. А. Волчек, В. В. Порицкий. Экспериментальный корпус белорусского языка: текущее состояние и перспективы развития // Труды международной конференции «Корпусная лингвистика–2013». – СПб.: СПбГУ, 2013. – С. 231–238. + презентация доклада
См. видео (доклад В. Порицкого об экспериментальном корпусе)
кстати, в 2010 году В. Порицкий выиграл Кубок Европы среди студентов (КЕС) по "Своей игре".
Параллельный корпус текстов Франциска Скорины и Симеона Полоцкого (icнуе пакуль як iдэя)

Corpus Albaruthenicum

Corpus Albaruthenicum (http://grid.bntu.by/corpus/) створаны ў рамках міжнароднага праекта Еўрапейскага саюзу «ВаlticGrid-II» (www.baltiсgrid.org, 2008-2011, распрацоўка лінгвістычных рэсурсаў для краін Балтыі і Беларусі).

Літва (Вільнюскі універсітэт) і Беларусь (Беларускі нацыянальны тэхнічны універсітэт пры ўдзеле спецыялістаў з Інстытута мовы і літаратуры імя Якуба Коласа і Янкі Купалы НАН Беларусі) распрацоўвалі тэкставыя корпусы навуковай мовы, адпаведна літоўскай і беларускай.

Мэта стварэння Corpus Albaruthenicum (корпуса беларускамоўных навуковых тэкстаў) — прадастаўленне шырокай аўдыторыі беларускамоўных навуковых рэсурсаў.

Corpus Albaruthenicum дазволяе не толькі атрымаць інфармацыю пра ўласна тэкст (структуру, аўтара і г.д.), але і праводзіць рознаўзроўневы моўны аналіз (статыстычны, марфалагічны, стылістычны, семантычны і г.д.).

Корпус размечаны адпаведна сістэме кадзіравання тэкстаў TEI P5, у аснове якой ляжыць мова XML (www.tei-c.org).

Схема разметкі корпусу ўтрымлівае наступныя характарыстыкі:

агульная інфармацыя пра тэкст;

базавая структурная анатацыя тэксту: главы, загалоўкі, змест тэксту да ўзроўню асобных слоў;

граматычная інфармацыя.

Агульная інфармацыя пра тэкст складаецца з апісання

структуры дакумента (апісанне файла, заяўленне загалоўка, выдання і аб’ёму, апісанне крыніцы і інш.),

параметраў (паходжанне тэксту, мова, раскладка знакаў і інш.).

Агульная інфармацыя змяшчае ўсе параметры тэксту, якому яна папярэднічае, а таксама выконвае шэраг важных функцый:

фарміруе архітэктуру корпусу;

дапамагае кантраляваць працэс яго інфармацыйнага напаўнення, ацэньваць прадстаўнічасць і збалансаванасць;

забяспечвае магчымасць пошуку і адбору карыстальнікам для складання падкорпусаў з зададзенымі ўласцівасцямі.

Базавая структурная анатацыя ўключае выдзяленне структурных элементаў тэксту і падзяляецца на тры ўзроўні:

узровень тэксту (ахоплівае пазначэнне змесціва тэксту, глаў, раздзелаў і абзацаў),

узровень абзаца (пазначэнне загалоўкаў),

узровень падабзаца (пазначэнне сказаў, слоў, пунктуацыйных знакаў).

Для граматычнай разметкі корпусу выкарыстоўваецца лексіка-граматычная база беларускай мовы (налічвае прыблізна 130 тыс. парадыгм, больш за 2 млн словаформаў), створаная ў Інстытуце мовы і літаратуры імя Якуба Коласа і Янкі Купалы НАН Беларусі.

Марфалагічная разметка складаецца з пачатковай формы словаформы (пазначаецца як lemma) і граматычных прыкмет лексемы (часціна мовы, адушаўлёнасць і род для назоўнікаў, пераходнасць, трыванне для дзеяслова і г.д.), граматычныя прыкметы словаформы (напрыклад, склон, род, лік для назоўнікаў) ігнаруюцца.

Аб’ём корпусу складае каля 400 тыс. слоў са знятай аманіміяй і ўключае тэксты з розных галін мовазнаўства, літаратуразнаўства, эканомікі, фізікі, хіміі, генетыкі, медыцыны і г.д.

Для Albaruthenicum распрацаваны анлайнавы сэрвіс (http://grid.bntu.by/corpus/), які прадастаўляе выбаркі інфармацыі з Корпусу. Утыліта дазваляе шукаць словы ў іх зыходнай форме (удрукаванай карыстальнікам), словы з іх словаформамі і камбінацыі слоў (уключна з іх словаформамі), выкарыстоўваючы лагічны аператар AND і ўлічваючы адлегласць паміж словамі. Пошук дазваляецца ў межах сказа, абзаца і ўсяго тэксту.

Беларускi N-корпус

08.05.2013

Выйшаў рэліз Беларускага N-корпусу - першая спроба стварэння публічнага агульнага корпусу беларускай мовы.

Корпус мае 1945 тэкстаў (~15 млн. словаўжыванняў) мастацкай літаратуры (проза і вершы) з граматычнай разметкай і пашпартызацыяй (аўтар, назва твора і г.д.). Планаваны аб’ём корпусу – 100 млн. словаўжыванняў

10.08.2016

Выйшаў новы рэліз Беларускага N-корпусу.

Аб’ём корпусу вырас на ~65 млн. словаўжыванняў і складае каля 80 млн. словаўжыванняў і 185 097 тэкстаў.
Асноўны корпус дазваляе рабіць пошук па аўтарах, гадах (часткова), жанрах (часткова), граматычных прыкметах, пачатковых і ўскосных формах. Усе параметры пошуку можна камбінаваць.
Пошук слоў і іх формаў ажыццяўляецца на падставе правапісаў 1957 і 2008 гг., іншыя правапісы пакуль не ўлічваюцца (у распрацоўцы), але ёсць магчымасць шукаць кожную асобную форму: напрыклад, нельга знайсці слова "сьнег" з усімі словаформамі, але можна шукаць асобна словаформы "сьнегам", "сьнезе" і г.д.
Дадаткова размешчаны падкорпус неапрацаваных тэкстаў, які ўяўляе сабой збор тэкстаў, што былі распазнаныя ў аўтаматычным рэжыме і не прайшлі вычытку (ёсць праблемы з пераносамі, падзелам на сказы, абзацы і інш.). Падкорпус дазваляе шукаць слова і словаформы, але не мае паўнавартаснай метаразметкі (аўтар, твор, год напісання). Крыніцу тэксту можна паглядзець па спасылцы, якая падаецца пры разгортванні сказа. Аб’ём падкорпусу складае ~174 млн. словаўжыванняў.
Істотна абноўлена Лексіка-граматычная база, даступная на ўмовах ліцэнзіі CC-BY-SA 4.0.
Аб’ём базы складае 124417 парадыгмаў 1 840 835 формаў.
Лексіка-граматычнай базай можна карыстацца ў анлайн-рэжыме.
Дазваляецца выбарка па граматычных прыкметах, па частках слова, па леме (пачатковай форме). Выбраны спіс слоў можна адсартаваць у адваротным парадку.

Аўтары вiтаюць любую дапамогу: прапановы і крытычныя заўвагі, вычытаныя тэксты (з выходнымі звесткамі), дапамога ў зняцці аманіміі і інш.

Па пытаннях дапамогі і супрацоўніцтва звяртацца па адрасе bnkorpus@gmail.com

09.09.2019

Дадалося ~5000 тэкстаў аб'ёмам ~12 млн. словаўжыванняў.
Аб'ём Асноўнага корпусу складае ~163 млн. словаўжыванняў.
Аб'ём усяго корпусу (разам з неразабранымі тэкстамі) - ~337 млн. словаўжыванняў.

04.11.2021

Значна папоўнены корпус тэкстаў, дададзены новыя падкорпусы, істотна абноўлены інтэрфейс корпусу.
Аб'ём корпусу ~177 млн. словаўжыванняў, разам з неразабранымі тэкстамі ~1.07 млрд. словаўжыванняў.
Абноўлены інтэрфейс граматычнай базы, дадзена інфармацыя пра крыніцы слова.
Дадаўся раздзел анлайн-праверкі беларускага правапісу, а таксама модулі праверкі для розных праграм і аперацыйных сістэм.
Дадаўся фанетычны канвертар (тэставая версія), які дазваляе канвертаваць тэксты ў транскрыпцыю.
Дадаліся праекты ў распрацоўцы, створаныя на падставе граматычнай базы (тэставая версія).

Корпусные исследования

Публикации Рычковой Людмилы Васильевны (см. по ссылке здесь) и на сайте НКРЯ

Интервью с Копыловым Игорем Леоновичем (к. фил. н., дир. Филиала «Институт языкознания им. Якуба Коласа» Центра исследований белорусской культуры, языка и литературы Национальной академии наук Беларуси (Минск, Беларусь) о проекте создания корпуса* текстов Франциска Скорины и Симеона Полоцкого.
https://www.postkomsg.com/interview/214331/

На какой стадии находится создание корпуса текстов Франциска Скорины и Симеона Полоцкого?

Пока это только идея. Её еще надо реализовать!

Реализация будет идти на базе Академии наук Беларуси?

Да, я думаю, что на базе нашего Института. У нас сейчас активно развивается корпусная лингвистика. Без нее невозможно проводить исследования. У России есть национальный корпус русского языка. Мы тоже создали национальный корпус белорусского языка. В этом году осенью будем проводить презентацию. Создание корпуса национального языка открывает возможности и для дальнейшего развития корпусной лингвистики. Наша мечта – создать подкорпус старобелорусского языка, ведь у нас есть огромная база: наш Институт издал 37 томов исторического словаря белорусского языка, который насчитывает приблизительно 40 тысяч слов старобелорусского ! В рамках этого же подкорпуса хорошо, если мы создадим такой параллельный корпус текстов Франциска Скорины и Симеона Полоцкого. Тут не надо объяснять, насколько это будет уникальное издание, насколько уникальны сами тексты Скорины в языковом плане.

Язык текстов Скорины - что это за язык?

В Беларуси еще идут дискуссии, был ли это церковнославянский с элементами старобелорусского, или все-таки старобелорусский язык. К единому мнению не пришли. Я буквально позавчера беседовал с коллегами, которые утверждают, что это был всё-таки старобелорусский. Переводы на старобелорусский язык не только Скорины, но и его последователей появлялись и в России, они тоже проходили обработку своего рода. И имели влияние на того же Симеона Полоцкого, который внес большой вклад в развитие русского языка и литературы. Симеон Полоцкий писал свои вирши на польском, латинском, русском и так называемом славянско-российском и старобелорусском языках. И заложил в России основы силлабического стихосложения и русской поэзии. Именно благодаря Симеону Полоцкому в России начали изучать латинский язык государственные служащие – подьячие Приказа тайных дел, которые осуществляли дипломатическую работу в Европе. Если политики не договаривались в те времена, то дипломатия слова, дипломатия культуры, дипломатия науки делали свое дело. Посмотрите, какая география. XVI век – это и Полоцк, это и Вильно, это и чешская Прага, итальянская Падуя, Венеция, я думаю, что Скорина там побывал. Потому что он же переводил венецианский вариант чешской Библии на старобелорусский язык. Это и Пруссия…. Идея корпуса текстов Скорины потребует поддержки и реализации. А силы и специалисты у нас есть. И по старобелорусскому языку, и по Симеону Полоцкому, и по корпусной лингвистике.

Корпус белорусского языка находится в открытом доступе?

Он доступен. Он называется «N-корпус». Мы его создали, а сейчас должны пройти официальную процедуру регистрации, чтобы зарегистрировать его как объект интеллектуальной собственности. Тогда мы ему дадим официальное название – Национальный корпус белорусского языка. В России на это поставлены такие силы! Не просто Институт русского языка им. Виноградова, так еще и Яндекс, и издательства обеспечивают текстами. У нас силы маленькие, но, тем не менее, мы создали корпус. К этой работе подключался и Лингвистический университет. Также мы создали параллельный корпус белорусско-русских и русско-белорусских текстов. Для переводчика сегодня это уникальная вещь.

kmp