Национальный корпус русского яхыка

 

 

 

НКРЯ

 

мых).

 

 

 

Сенмантическая разметка в НКРЯ

 

Одним из видов разметки НКРЯ является семантическая разметка.

Семантические признаки – семантические классы, к которым относятся слова разных частей речи.

Например:

У   конкретных   существительных   («предметные  имена»)  выделяются  классы:

  • «лица»,  

  • «растения»,

  • «животные»,

  • «вещества и материалы»,

  • «инструменты»,

  • «одежда» и др.,

У глаголов –  выделяются классы

  • «движение»,

  • «физическое воздействие»,

  • «существование»,

  • «восприятие»,

  • «речь» и др.,

у прилагательных – выделяются классы

  • «качества человека»,

  • «место»,

  • «время»,

  • «размер»,

  • «цвет»,

  • «скорость»,

  • «запах» и др.

Семантические признаки можно использовать для ограничения выдачи.

Например, если сделать запрос на форму инфинитива глагола, выдача составит более 4-х млн. примеров, если же добавить признак «ментальная сфера» (т.е. глаголы   «умственных»  действий   и  состояний   –   думать,  предположить, узнать, выбрать, решить, понять, забыть и под.), то выдача составит чуть более 262 000

Если слово многозначно, у разных значений могут быть разные семантические классы (и разные пометы). Это порождает «шум» при поиске (семантическая помета может не соответствовать значению слова в выданном предложении) и требует самостоятельной работы пользователя по выбору нужных примеров и отсеиванию ненужных.

Наличие трех параметров поиска и нескольких строк позволяет формулировать сложные запросы и искать примеры не только на отдельные слова  и  грамматические  формы,  но  и  на  целые  конструкции  с  заданными грамматическими и семантическими признаками.

 

 

 

Обучающий корпус

 

Кроме основного Корпуса существует также обучающий корпус, специально созданный для занятий со школьниками и имеющий соответствующие особенности. В обучающий корпус включены, в основном, произведения из школьной программы (или их фрагменты, если речь идет о романах Гончарова, Достоевского, Толстого), поэтому его объем существенно меньше, чем у большого Корпуса.

Здесь нет семантической разметки, зато, по сравнению с основным Корпусом, увеличено количество признаков в грамматической разметке – добавлены: склонение имен; спряжение глаголов; лексико-грамматические разряды существительных (конкретные, отвлеченные, вещественные, собирательные); разряды местоимений (личные, возвратные, отрицательные и т.д.).

Примеры из поэтических текстов можно искать по поэтическому  корпусу  (пока  он  не  велик  по  объему,  но  постоянно пополняется).

 

 

kmp