Беларускiя корпусныя даследаваннi

 

 

 

Корпус - апрацаваны паводле пэўных правілаў збор тэкстаў у электроннай форме, які можа выкарыстоўвацца як у якасці базы для даследавання мовы, так і ў іншых сферах, што патрабуюць аналізу тэксту.

Лексіка-граматычная база - збор слоў з іх формамі (напр., склон, род. лік і пад.), пры якіх падаюцца граматычныя і іншыя паметы (правапіс, крыніца слова, семантыка і г.д.).

Корпусы і граматычныя базы шырока выкарыстоўваюцца

  1. ў мовазнаўстве

  • стварэнне электронных (і таксама папяровых) слоўнікаў, анталогій, тэзаўрусаў, якія ў сваю чаргу выкарыстоўваюцца для распрацоўкі далейшых праграмных сродкаў (праграмы праверкі арфаграфіі, перакладу і г.д). Вядучыя выдавецтвы свету ствараюць лексікаграфічныя рэсурсы выключна на падставе корпусаў. Немагчыма ўкласці слоўнік ці граматыку, якія адпавядалі б сучасным стандартам, без выкарыстання корпусу;

  • аўтаматычны пераклад тэкстаў. ;
    навучанне матэматычных мадэлей для стварэння праграм, якія могуць апрацоўваць тэксты (рабіць марфалагічны, сінтаксічны, семантычны аналіз і інш.) і вымаць з іх факты (напрыклад, праграмы пошуку, праграмы выдзялення ключавых слоў і г.д.);

  • аўтаматычная апрацоўка тэкстаў і выманне фактаў (напрыклад, пошукавыя сістэмы);

  • аўтаматычнае распазнаванне маўлення;

  • аўтаматычны сінтэз маўлення;

  • стварэнне праграм праверкі арфаграфіі;

  • распрацоўка пытанняў лексікалогіі, лексікаграфіі, пры правядзенні навуковых даследаванняў тэксту і яго рознаўзроўневага моўнага аналізу (статыстычнага, марфалагічнага, стылістычнага, семантычнага і г.д.).

  1. Сфера адукацыі (падбор прыкладаў да заданняў, пры праверцы слоў на прадмет іх адпаведнасці нормам беларускай мовы, пры ўкладанні падручнікаў і вучэбных дапаможнікаў).

 

 

 

Iснуе некалькі корпусных праектаў:

  • Вялікі корпус беларускай мовы (доступен только оффлайн), миллионный корпус, собранный под руководством А. В. Зубова) выкладчыкамі Мінскага дзяржаўнага лінгвістычнага універсітэта сумесна з навуковымі супрацоўнікамі Інстытута мовы і літаратуры імя Якуба Коласа і Янкі Купалы НАН Беларусі,

Александр Васильевич Зубов (здесь) - д. филологических наук, профессор

Cм. публикации Зубова А.В.:

Cм. дисциплины специализации «КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА» на кафедре ИиПЛ МГЛУ

 

  • Corpus Albaruthenicum  (http://grid.bntu.by/corpus/) - корпус навуковых тэкстаў беларускай мовы, падрыхтаваны спецыялістамі Беларускага нацыя-нальнага тэхнічнага універсітэта разам з навукоўцамі Інстытута мовы і літаратуры імя Якуба Коласа і Янкі Купалы НАН Беларусі.

"У перспектыве дадзеныя корпусы павінны быць аб’яднаны ў адзін, што стане асновай для будучага Нацыянальнага корпусу беларускай мовы"?
 

  • Белорусский библейский корпус (http://biblija.bnkorpus.info/translations.html)
    Створаны камандай Беларускага
    N-корпусу ў якасці падарунка да 500-годдзе беларускага кнігадрукавання. Корпус змяшчае 16 перакладаў Бібліі на беларускую мову, а таксама тэксты на іншых мовах (лаціна, яўрэйская, украінская, польская і інш.) для параўнання. Пры дапамозе Біблійнага корпусу можна супаставіць тэксты перакладаў, знайсці патрэбнае слова і паглядзець варыянты яго перакладу ў розных выданнях.
     

  • Беларускі N-корпус (http://bnkorpus.info/korpus.html)  - першая спроба (2013) стварэння публічнага агульнага корпусу беларускай мовы.
     

  • Паралельны беларуска-руска-беларускі корпус  (на сайте НКРЯ)
    См. статью Д.В. Сичинава РУССКО-БЕЛОРУССКИЙ ПАРАЛЛЕЛЬНЫЙ КОРПУС: ОПЫТ РАЗРАБОТКИ
     

  • Экспериментальный корпус белорусского языка
    (разработка Оксаны Анатольевны Волчек и Владислава Валерьевича Порицкого, доступен для скачивания)
    См. статью:
    О. А. Волчек, В. В. Порицкий. Экспериментальный корпус белорусского языка: текущее состояние и перспективы развития // Труды международной конференции «Корпусная лингвистика–2013». – СПб.: СПбГУ, 2013. – С. 231–238.   + презентация доклада
    См. видео (доклад В. Порицкого об экспериментальном корпусе)
    кстати, в 2010 году В. Порицкий в
    ыиграл Кубок Европы среди студентов (КЕС) по "Своей игре". 
     

  • Параллельный корпус текстов Франциска Скорины и Симеона Полоцкого (icнуе пакуль як iдэя)

 

 

 

Corpus Albaruthenicum

 

Corpus Albaruthenicum (http://grid.bntu.by/corpus/) створаны ў рамках міжнароднага праекта Еўрапейскага саюзу «ВаlticGrid-II» (www.baltiсgrid.org, 2008-2011, распрацоўка лінгвістычных рэсурсаў для краін Балтыі і Беларусі).

Літва (Вільнюскі універсітэт) і Беларусь (Беларускі нацыянальны тэхнічны універсітэт пры ўдзеле спецыялістаў з Інстытута мовы і літаратуры імя Якуба Коласа і Янкі Купалы НАН Беларусі) распрацоўвалі тэкставыя корпусы навуковай мовы, адпаведна літоўскай і беларускай.

Мэта стварэння Corpus Albaruthenicum (корпуса беларускамоўных навуковых тэкстаў) —  прадастаўленне шырокай аўдыторыі беларускамоўных навуковых рэсурсаў.

Corpus Albaruthenicum дазволяе не толькі атрымаць інфармацыю пра ўласна тэкст (структуру, аўтара і г.д.), але і праводзіць рознаўзроўневы моўны аналіз (статыстычны, марфалагічны, стылістычны, семантычны і г.д.).

Корпус размечаны адпаведна сістэме кадзіравання тэкстаў TEI P5, у аснове якой ляжыць мова XML (www.tei-c.org).

Схема разметкі корпусу ўтрымлівае наступныя характарыстыкі:

  • агульная інфармацыя пра тэкст;

  • базавая структурная анатацыя тэксту: главы, загалоўкі, змест тэксту да ўзроўню асобных слоў;

  • граматычная інфармацыя.

Агульная інфармацыя пра тэкст складаецца з апісання

  • структуры дакумента (апісанне файла, заяўленне загалоўка, выдання і аб’ёму, апісанне крыніцы і інш.),

  • параметраў (паходжанне тэксту, мова, раскладка знакаў і інш.).

Агульная інфармацыя змяшчае ўсе параметры тэксту, якому яна папярэднічае, а таксама выконвае шэраг важных функцый:

  • фарміруе архітэктуру корпусу;

  • дапамагае кантраляваць працэс яго інфармацыйнага напаўнення, ацэньваць прадстаўнічасць і збалансаванасць;

  • забяспечвае магчымасць пошуку і адбору карыстальнікам для складання падкорпусаў з зададзенымі ўласцівасцямі.

Базавая структурная анатацыя ўключае выдзяленне структурных элементаў тэксту і падзяляецца на тры ўзроўні:

  • узровень тэксту (ахоплівае пазначэнне змесціва тэксту, глаў, раздзелаў і абзацаў),

  • узровень абзаца (пазначэнне загалоўкаў),

  • узровень падабзаца (пазначэнне сказаў, слоў, пунктуацыйных знакаў).

Для граматычнай разметкі корпусу выкарыстоўваецца лексіка-граматычная база беларускай мовы (налічвае прыблізна 130 тыс. парадыгм, больш за 2 млн словаформаў), створаная ў Інстытуце мовы і літаратуры імя Якуба Коласа і Янкі Купалы НАН Беларусі.

Марфалагічная разметка складаецца з пачатковай формы словаформы (пазначаецца як lemma) і граматычных прыкмет лексемы (часціна мовы, адушаўлёнасць і род для назоўнікаў, пераходнасць, трыванне для дзеяслова і г.д.), граматычныя прыкметы словаформы (напрыклад, склон, род, лік для назоўнікаў) ігнаруюцца.

Аб’ём корпусу складае каля 400 тыс. слоў са знятай аманіміяй і ўключае тэксты з розных галін мовазнаўства, літаратуразнаўства, эканомікі, фізікі, хіміі, генетыкі, медыцыны і г.д.

Для Albaruthenicum распрацаваны анлайнавы сэрвіс (http://grid.bntu.by/corpus/),  які прадастаўляе выбаркі інфармацыі з Корпусу. Утыліта дазваляе шукаць словы ў іх зыходнай форме (удрукаванай карыстальнікам), словы з іх словаформамі і камбінацыі слоў (уключна з іх словаформамі), выкарыстоўваючы лагічны аператар AND і ўлічваючы адлегласць паміж словамі. Пошук дазваляецца ў межах сказа, абзаца і ўсяго тэксту.

 

 

 

Беларускi N-корпус

 

08.05.2013

Выйшаў рэліз Беларускага N-корпусу - першая спроба стварэння публічнага агульнага корпусу беларускай мовы.

Корпус мае 1945 тэкстаў (~15 млн. словаўжыванняў) мастацкай літаратуры (проза і вершы) з граматычнай разметкай і пашпартызацыяй (аўтар, назва твора і г.д.). Планаваны аб’ём корпусу – 100 млн. словаўжыванняў

10.08.2016

Выйшаў новы рэліз Беларускага N-корпусу.

  • Аб’ём корпусу вырас на ~65 млн. словаўжыванняў і складае каля 80 млн. словаўжыванняў і 185 097 тэкстаў.

  • Асноўны корпус дазваляе рабіць пошук па аўтарах, гадах (часткова), жанрах (часткова), граматычных прыкметах, пачатковых і ўскосных формах. Усе параметры пошуку можна камбінаваць.

  • Пошук слоў і іх формаў ажыццяўляецца на падставе правапісаў 1957 і 2008 гг., іншыя правапісы пакуль не ўлічваюцца (у распрацоўцы), але ёсць магчымасць шукаць кожную асобную форму: напрыклад, нельга знайсці слова "сьнег" з усімі словаформамі, але можна шукаць асобна словаформы "сьнегам", "сьнезе" і г.д.

  • Дадаткова размешчаны падкорпус неапрацаваных тэкстаў, які ўяўляе сабой збор тэкстаў, што былі распазнаныя ў аўтаматычным рэжыме і не прайшлі вычытку (ёсць праблемы з пераносамі, падзелам на сказы, абзацы і інш.). Падкорпус дазваляе шукаць слова і словаформы, але не мае паўнавартаснай метаразметкі (аўтар, твор, год напісання). Крыніцу тэксту можна паглядзець па спасылцы, якая падаецца пры разгортванні сказа. Аб’ём падкорпусу складае ~174 млн. словаўжыванняў.

  • Істотна абноўлена Лексіка-граматычная база, даступная на ўмовах ліцэнзіі CC-BY-SA 4.0.

  • Аб’ём базы складае 124417 парадыгмаў 1 840 835 формаў.

  • Лексіка-граматычнай базай можна карыстацца ў анлайн-рэжыме.

  • Дазваляецца выбарка па граматычных прыкметах, па частках слова, па леме (пачатковай форме). Выбраны спіс слоў можна адсартаваць у адваротным парадку.

Аўтары вiтаюць любую дапамогу: прапановы і крытычныя заўвагі, вычытаныя тэксты (з выходнымі звесткамі), дапамога ў зняцці аманіміі і інш.

Па пытаннях дапамогі і супрацоўніцтва звяртацца па адрасе bnkorpus@gmail.com

09.09.2019

  • Дадалося ~5000 тэкстаў аб'ёмам ~12 млн. словаўжыванняў.

  • Аб'ём Асноўнага корпусу складае ~163 млн. словаўжыванняў.

  • Аб'ём усяго корпусу (разам з неразабранымі тэкстамі) - ~337 млн. словаўжыванняў.

04.11.2021

  • Значна папоўнены корпус тэкстаў, дададзены новыя падкорпусы, істотна абноўлены інтэрфейс корпусу.

  • Аб'ём корпусу ~177 млн. словаўжыванняў, разам з неразабранымі тэкстамі ~1.07 млрд. словаўжыванняў.

  • Абноўлены інтэрфейс граматычнай базы, дадзена інфармацыя пра крыніцы слова.

  • Дадаўся раздзел анлайн-праверкі беларускага правапісу, а таксама модулі праверкі для розных праграм і аперацыйных сістэм.

  • Дадаўся фанетычны канвертар (тэставая версія), які дазваляе канвертаваць тэксты ў транскрыпцыю.

  • Дадаліся праекты ў распрацоўцы, створаныя на падставе граматычнай базы (тэставая версія).

 

 

Корпусные исследования

 

Публикации Рычковой Людмилы Васильевны (см. по ссылке здесь) и на сайте НКРЯ

 


 

Интервью с Копыловым Игорем Леоновичем (к. фил. н., дир. Филиала «Институт языкознания им. Якуба Коласа» Центра исследований белорусской культуры, языка и литературы Национальной академии наук Беларуси (Минск, Беларусь) о проекте создания корпуса* текстов Франциска Скорины и Симеона Полоцкого.
https://www.postkomsg.com/interview/214331/

  • На какой стадии находится создание корпуса текстов Франциска Скорины и Симеона Полоцкого?

Пока это только идея. Её еще надо реализовать!

  • Реализация будет идти на базе Академии наук Беларуси?

Да, я думаю, что на базе нашего Института. У нас сейчас активно развивается корпусная лингвистика. Без нее невозможно проводить исследования. У России есть национальный корпус русского языка. Мы тоже создали национальный корпус белорусского языка. В этом году осенью будем проводить презентацию. Создание корпуса национального языка открывает возможности и для дальнейшего развития корпусной лингвистики. Наша мечта – создать подкорпус старобелорусского языка, ведь у нас есть огромная база: наш Институт издал 37 томов исторического словаря белорусского языка, который насчитывает приблизительно 40 тысяч слов старобелорусского ! В рамках этого же подкорпуса хорошо, если мы создадим такой параллельный корпус текстов Франциска Скорины и Симеона Полоцкого. Тут не надо объяснять, насколько это будет уникальное издание, насколько уникальны сами тексты Скорины в языковом плане.

  • Язык текстов Скорины - что это за язык?

В Беларуси еще идут дискуссии, был ли это церковнославянский с элементами старобелорусского, или все-таки старобелорусский язык. К единому мнению не пришли. Я буквально позавчера беседовал с коллегами, которые утверждают, что это был всё-таки старобелорусский. Переводы на старобелорусский язык не только Скорины, но и его последователей появлялись и в России, они тоже проходили обработку своего рода. И имели влияние на того же Симеона Полоцкого, который внес большой вклад в развитие русского языка и литературы. Симеон Полоцкий писал свои вирши на польском, латинском,  русском и так называемом славянско-российском и старобелорусском языках. И заложил в России основы силлабического стихосложения и русской поэзии. Именно благодаря Симеону Полоцкому в России начали изучать латинский язык государственные служащие – подьячие Приказа тайных дел, которые осуществляли дипломатическую работу в Европе. Если политики не договаривались в те времена, то дипломатия слова, дипломатия культуры, дипломатия науки делали свое дело. Посмотрите, какая география.  XVI век – это и Полоцк, это и Вильно, это и чешская Прага, итальянская Падуя, Венеция, я думаю, что Скорина там побывал. Потому что он же переводил венецианский вариант чешской Библии на старобелорусский язык. Это и Пруссия…. Идея корпуса текстов Скорины потребует поддержки и реализации. А силы и специалисты у нас есть. И по старобелорусскому языку, и по Симеону Полоцкому, и по корпусной лингвистике.

  • Корпус белорусского языка находится в открытом доступе?

Он доступен. Он называется «N-корпус». Мы его создали, а сейчас должны пройти официальную процедуру регистрации, чтобы зарегистрировать его как объект интеллектуальной собственности. Тогда мы ему дадим официальное название – Национальный корпус белорусского языка. В России на это поставлены такие силы! Не просто Институт русского языка им. Виноградова, так еще и Яндекс, и издательства обеспечивают текстами. У нас силы маленькие, но, тем не менее, мы создали корпус. К этой работе подключался и Лингвистический университет. Также мы создали параллельный корпус белорусско-русских и русско-белорусских текстов. Для переводчика сегодня это уникальная вещь.

 

kmp