Беларускiя
корпусныя даследаваннi |
Корпус
- апрацаваны паводле пэўных правілаў збор тэкстаў у электроннай
форме, які можа выкарыстоўвацца як у якасці базы для даследавання
мовы, так і ў іншых сферах, што патрабуюць аналізу тэксту.
Лексіка-граматычная база - збор слоў з іх формамі (напр., склон,
род. лік і пад.), пры якіх падаюцца граматычныя і іншыя паметы (правапіс,
крыніца слова, семантыка і г.д.).
Корпусы і граматычныя базы шырока выкарыстоўваюцца
-
ў мовазнаўстве
-
стварэнне электронных (і таксама папяровых) слоўнікаў,
анталогій, тэзаўрусаў, якія ў сваю чаргу выкарыстоўваюцца
для распрацоўкі далейшых праграмных сродкаў (праграмы
праверкі арфаграфіі, перакладу і г.д). Вядучыя выдавецтвы
свету ствараюць лексікаграфічныя рэсурсы выключна на
падставе корпусаў. Немагчыма ўкласці слоўнік ці граматыку,
якія адпавядалі б сучасным стандартам, без выкарыстання
корпусу;
-
аўтаматычны пераклад тэкстаў. ; навучанне матэматычных мадэлей для стварэння праграм, якія
могуць апрацоўваць тэксты (рабіць марфалагічны, сінтаксічны,
семантычны аналіз і інш.) і вымаць з іх факты (напрыклад,
праграмы пошуку, праграмы выдзялення ключавых слоў і г.д.);
-
аўтаматычная апрацоўка тэкстаў і выманне фактаў (напрыклад,
пошукавыя сістэмы);
-
аўтаматычнае распазнаванне маўлення;
-
аўтаматычны сінтэз маўлення;
-
стварэнне праграм праверкі арфаграфіі;
-
распрацоўка пытанняў лексікалогіі, лексікаграфіі, пры
правядзенні навуковых даследаванняў тэксту і яго
рознаўзроўневага моўнага аналізу (статыстычнага,
марфалагічнага, стылістычнага, семантычнага і г.д.).
-
Сфера адукацыі (падбор
прыкладаў да заданняў, пры праверцы слоў на прадмет іх
адпаведнасці нормам беларускай мовы, пры ўкладанні падручнікаў і
вучэбных дапаможнікаў).
|
Iснуе
некалькі корпусных праектаў:
(доступен только оффлайн),
миллионный корпус, собранный под руководством А. В. Зубова)
выкладчыкамі Мінскага дзяржаўнага
лінгвістычнага універсітэта сумесна з навуковымі супрацоўнікамі
Інстытута мовы і літаратуры імя Якуба Коласа і Янкі Купалы НАН
Беларусі,
(http://grid.bntu.by/corpus/)
- корпус навуковых тэкстаў беларускай мовы, падрыхтаваны
спецыялістамі Беларускага нацыя-нальнага тэхнічнага універсітэта
разам з навукоўцамі
Інстытута мовы і літаратуры імя Якуба Коласа і Янкі Купалы НАН
Беларусі.
"У перспектыве дадзеныя корпусы павінны быць аб’яднаны ў
адзін, што стане асновай для будучага Нацыянальнага корпусу
беларускай мовы "?
-
Белорусский библейский корпус
(http://biblija.bnkorpus.info/translations.html)
Створаны камандай Беларускага
N-корпусу ў якасці падарунка да
500-годдзе беларускага
кнігадрукавання. Корпус змяшчае 16 перакладаў Бібліі на
беларускую мову, а таксама тэксты на іншых мовах (лаціна,
яўрэйская, украінская, польская і інш.) для параўнання. Пры
дапамозе Біблійнага корпусу можна супаставіць тэксты перакладаў,
знайсці патрэбнае слова і паглядзець варыянты яго перакладу ў
розных выданнях.
Беларускі N-корпус (http://bnkorpus.info/korpus.html)
- першая спроба (2013) стварэння публічнага агульнага корпусу
беларускай мовы.
Паралельны беларуска-руска-беларускі корпус (на сайте НКРЯ) См.
статью Д.В. Сичинава РУССКО-БЕЛОРУССКИЙ ПАРАЛЛЕЛЬНЫЙ КОРПУС:
ОПЫТ РАЗРАБОТКИ
Экспериментальный корпус
белорусского языка
(разработка Оксаны Анатольевны
Волчек и Владислава Валерьевича Порицкого, доступен для
скачивания) См.
статью:
О. А. Волчек, В. В. Порицкий. Экспериментальный
корпус белорусского языка: текущее состояние и перспективы
развития // Труды международной конференции «Корпусная
лингвистика–2013». – СПб.: СПбГУ, 2013. – С. 231–238.
+
презентация доклада См.
видео (доклад В. Порицкого об экспериментальном корпусе) кстати, в 2010 году В. Порицкий выиграл Кубок Европы
среди студентов (КЕС) по "Своей игре".
Параллельный
корпус текстов Франциска Скорины и Симеона Полоцкого
(icнуе пакуль як
iдэя)
|
Corpus Albaruthenicum
Corpus Albaruthenicum
(http://grid.bntu.by/corpus/)
створаны
ў рамках
міжнароднага праекта Еўрапейскага саюзу «ВаlticGrid-II»
(www.baltiсgrid.org,
2008-2011, распрацоўка лінгвістычных рэсурсаў для краін
Балтыі і Беларусі).
Літва (Вільнюскі універсітэт) і Беларусь (Беларускі
нацыянальны тэхнічны універсітэт пры ўдзеле спецыялістаў з
Інстытута мовы і літаратуры імя Якуба Коласа і Янкі Купалы НАН
Беларусі) распрацоўвалі тэкставыя корпусы навуковай мовы,
адпаведна літоўскай і беларускай.
Мэта стварэння
Corpus Albaruthenicum (корпуса
беларускамоўных навуковых тэкстаў) — прадастаўленне
шырокай аўдыторыі беларускамоўных навуковых рэсурсаў.
Corpus Albaruthenicum дазволяе не
толькі атрымаць інфармацыю пра ўласна тэкст (структуру, аўтара і
г.д.), але і праводзіць рознаўзроўневы моўны аналіз (статыстычны,
марфалагічны, стылістычны, семантычны і г.д.).
Корпус размечаны адпаведна сістэме
кадзіравання тэкстаў TEI P5, у аснове якой ляжыць мова XML (www.tei-c.org).
Схема разметкі корпусу ўтрымлівае
наступныя характарыстыкі:
-
агульная інфармацыя пра тэкст;
-
базавая структурная анатацыя тэксту: главы,
загалоўкі, змест тэксту да ўзроўню асобных слоў;
-
граматычная інфармацыя.
Агульная інфармацыя пра тэкст складаецца з
апісання
-
структуры дакумента (апісанне файла, заяўленне
загалоўка, выдання і аб’ёму, апісанне крыніцы і інш.),
-
параметраў (паходжанне тэксту, мова, раскладка
знакаў і інш.).
Агульная інфармацыя змяшчае ўсе параметры
тэксту, якому яна папярэднічае, а таксама выконвае шэраг важных
функцый:
-
фарміруе архітэктуру корпусу;
-
дапамагае кантраляваць працэс яго інфармацыйнага
напаўнення, ацэньваць прадстаўнічасць і збалансаванасць;
-
забяспечвае магчымасць пошуку і адбору
карыстальнікам для складання падкорпусаў з зададзенымі ўласцівасцямі.
Базавая структурная анатацыя ўключае
выдзяленне структурных элементаў тэксту і падзяляецца на тры
ўзроўні:
-
узровень тэксту (ахоплівае
пазначэнне змесціва тэксту, глаў, раздзелаў і абзацаў),
-
узровень абзаца (пазначэнне
загалоўкаў),
-
узровень падабзаца (пазначэнне
сказаў, слоў, пунктуацыйных знакаў).
Для граматычнай разметкі корпусу
выкарыстоўваецца лексіка-граматычная база беларускай мовы (налічвае
прыблізна 130 тыс. парадыгм, больш за 2 млн словаформаў),
створаная ў Інстытуце мовы і літаратуры імя Якуба Коласа і Янкі
Купалы НАН Беларусі.
Марфалагічная разметка складаецца з
пачатковай формы словаформы (пазначаецца як lemma) і граматычных
прыкмет лексемы (часціна мовы, адушаўлёнасць і род для
назоўнікаў, пераходнасць, трыванне для дзеяслова і г.д.),
граматычныя прыкметы словаформы (напрыклад, склон, род, лік для
назоўнікаў) ігнаруюцца.
Аб’ём корпусу складае каля 400 тыс. слоў
са знятай аманіміяй і ўключае тэксты з розных галін мовазнаўства,
літаратуразнаўства, эканомікі, фізікі, хіміі, генетыкі, медыцыны
і г.д.
Для
Albaruthenicum распрацаваны анлайнавы сэрвіс (http://grid.bntu.by/corpus/),
які прадастаўляе выбаркі інфармацыі з Корпусу. Утыліта дазваляе
шукаць словы ў іх зыходнай форме (удрукаванай карыстальнікам),
словы з іх словаформамі і камбінацыі слоў (уключна з іх
словаформамі), выкарыстоўваючы лагічны аператар AND і ўлічваючы
адлегласць паміж словамі. Пошук дазваляецца ў межах сказа,
абзаца і ўсяго тэксту.
|
Беларускi N-корпус
08 .05.2013
Выйшаў рэліз Беларускага N-корпусу
- першая спроба стварэння публічнага агульнага корпусу
беларускай мовы.
Корпус
мае 1945 тэкстаў (~15 млн. словаўжыванняў) мастацкай літаратуры
(проза і вершы) з граматычнай разметкай і пашпартызацыяй (аўтар,
назва твора і г.д.). Планаваны аб’ём корпусу – 100 млн.
словаўжыванняў
10.08.2016
Выйшаў новы рэліз Беларускага N-корпусу.
-
Аб’ём корпусу вырас на ~65 млн.
словаўжыванняў і складае каля 80 млн. словаўжыванняў і 185 097
тэкстаў.
-
Асноўны корпус дазваляе рабіць пошук па
аўтарах, гадах (часткова), жанрах (часткова), граматычных
прыкметах, пачатковых і ўскосных формах. Усе параметры пошуку
можна камбінаваць.
-
Пошук слоў і іх формаў ажыццяўляецца на
падставе правапісаў 1957 і 2008 гг., іншыя правапісы пакуль не
ўлічваюцца (у распрацоўцы), але ёсць магчымасць шукаць кожную
асобную форму: напрыклад, нельга знайсці слова "сьнег" з усімі
словаформамі, але можна шукаць асобна словаформы "сьнегам", "сьнезе"
і г.д.
-
Дадаткова размешчаны падкорпус
неапрацаваных тэкстаў, які ўяўляе сабой збор тэкстаў, што былі
распазнаныя ў аўтаматычным рэжыме і не прайшлі вычытку (ёсць
праблемы з пераносамі, падзелам на сказы, абзацы і інш.).
Падкорпус дазваляе шукаць слова і словаформы, але не мае
паўнавартаснай метаразметкі (аўтар, твор, год напісання).
Крыніцу тэксту можна паглядзець па спасылцы, якая падаецца пры
разгортванні сказа. Аб’ём падкорпусу складае ~174 млн.
словаўжыванняў.
-
Істотна абноўлена Лексіка-граматычная
база, даступная на ўмовах ліцэнзіі CC-BY-SA 4.0.
-
Аб’ём базы
складае 124417 парадыгмаў 1 840
835 формаў.
-
Лексіка-граматычнай
базай можна карыстацца ў анлайн-рэжыме.
-
Дазваляецца выбарка па
граматычных прыкметах, па частках слова, па леме (пачатковай
форме). Выбраны спіс слоў можна адсартаваць у адваротным парадку.
Аўтары
вiтаюць
любую дапамогу: прапановы і крытычныя заўвагі, вычытаныя тэксты
(з выходнымі звесткамі), дапамога ў зняцці аманіміі і інш.
Па пытаннях дапамогі і супрацоўніцтва
звяртацца па адрасе
bnkorpus@gmail.com
09.09.2019
-
Дадалося ~5000 тэкстаў аб'ёмам ~12 млн. словаўжыванняў.
-
Аб'ём Асноўнага корпусу складае ~163 млн. словаўжыванняў.
-
Аб'ём усяго корпусу (разам з неразабранымі тэкстамі) - ~337 млн.
словаўжыванняў.
04.11.2021
-
Значна папоўнены корпус тэкстаў, дададзены новыя падкорпусы, істотна
абноўлены інтэрфейс корпусу.
-
Аб'ём корпусу ~177 млн. словаўжыванняў, разам з неразабранымі тэкстамі ~1.07
млрд. словаўжыванняў.
-
Абноўлены інтэрфейс граматычнай базы, дадзена інфармацыя пра крыніцы слова.
-
Дадаўся раздзел анлайн-праверкі беларускага правапісу, а таксама модулі
праверкі для розных праграм і аперацыйных сістэм.
-
Дадаўся фанетычны канвертар (тэставая версія), які дазваляе канвертаваць
тэксты ў транскрыпцыю.
-
Дадаліся праекты ў распрацоўцы, створаныя на падставе граматычнай базы (тэставая
версія).
|
Корпусные исследования
Публикации
Рычковой Людмилы Васильевны
(см. по ссылке
здесь) и на сайте
НКРЯ
Интервью с
Копыловым Игорем Леоновичем
(к. фил. н., дир. Филиала «Институт языкознания им. Якуба
Коласа» Центра исследований белорусской культуры, языка и
литературы Национальной академии наук Беларуси (Минск, Беларусь)
о проекте создания корпуса* текстов Франциска Скорины и Симеона
Полоцкого.
https://www.postkomsg.com/interview/214331/
Пока это только идея. Её еще надо реализовать!
Да, я думаю, что на базе нашего Института. У нас сейчас активно
развивается корпусная лингвистика. Без нее невозможно проводить
исследования. У России есть национальный
корпус русского языка. Мы тоже создали национальный
корпус белорусского языка. В этом году осенью будем проводить
презентацию. Создание корпуса национального языка открывает
возможности и для дальнейшего развития корпусной лингвистики. Наша
мечта – создать подкорпус старобелорусского языка, ведь у нас есть
огромная база: наш Институт издал 37 томов исторического словаря
белорусского языка, который насчитывает приблизительно 40 тысяч слов
старобелорусского ! В рамках этого же подкорпуса хорошо, если мы
создадим такой параллельный корпус текстов Франциска Скорины и
Симеона Полоцкого. Тут не надо объяснять, насколько это будет
уникальное издание, насколько уникальны сами тексты Скорины в
языковом плане.
В Беларуси еще идут дискуссии, был ли это церковнославянский с
элементами старобелорусского, или все-таки старобелорусский язык. К
единому мнению не пришли. Я буквально позавчера беседовал с
коллегами, которые утверждают, что это был всё-таки
старобелорусский. Переводы на старобелорусский язык не только
Скорины, но и его последователей появлялись и в России, они тоже
проходили обработку своего рода. И имели влияние на того же Симеона
Полоцкого, который внес большой вклад в развитие русского языка и
литературы. Симеон Полоцкий писал свои вирши на польском, латинском,
русском и так называемом славянско-российском и старобелорусском
языках. И заложил в России основы силлабического стихосложения и
русской поэзии. Именно благодаря Симеону Полоцкому в России начали
изучать латинский язык государственные служащие – подьячие Приказа
тайных дел, которые осуществляли дипломатическую работу в Европе.
Если политики не договаривались в те времена, то дипломатия слова,
дипломатия культуры, дипломатия науки делали свое дело. Посмотрите,
какая география. XVI век – это и Полоцк, это и Вильно, это и
чешская Прага, итальянская Падуя, Венеция, я думаю, что Скорина там
побывал. Потому что он же переводил венецианский вариант чешской
Библии на старобелорусский язык. Это и Пруссия…. Идея корпуса
текстов Скорины потребует поддержки и реализации. А силы и
специалисты у нас есть. И по старобелорусскому языку, и по Симеону
Полоцкому, и по корпусной лингвистике.
Он доступен. Он называется «N-корпус».
Мы его создали, а сейчас должны пройти официальную процедуру регистрации,
чтобы зарегистрировать его как объект интеллектуальной собственности. Тогда
мы ему дадим официальное название – Национальный корпус белорусского языка.
В России на это поставлены такие силы! Не просто Институт русского языка им.
Виноградова, так еще и Яндекс, и издательства обеспечивают текстами. У нас
силы маленькие, но, тем не менее, мы создали корпус. К этой работе
подключался и Лингвистический университет. Также мы создали параллельный
корпус белорусско-русских и русско-белорусских текстов. Для переводчика
сегодня это уникальная вещь.
|
kmp
|