kmp-job

Корпусные движки и репозитарии

Лингвистический корпус

репрезентативная (соответствующая представляемой функционирования языка) совокупность текстов, собранных в соответствии с определёнными принципами (соответствующими задаче), размеченных (снабженных аннотациями), обеспеченных специализированной поисковой системой.

Развитие специализированных корпусных поисковых систем, обогатило их дополнительными возможностиями и функциональностью, превратив в полноценные корпусные менеджеры (corpus managers), или, в друой терминологии: корпусные движки (corpus engines), возможности которых стали одним из определяющих факторов любого корпусного исследования (наряду с умением использовать эти возможности, способностью к заданию эффективных запросов к корпусу и продуктивной интерпретацией получаемых результатов.

часто корпусами именуют также репозитарии (собрания) размеченных (в разной степени и по разному) текстов

Повторить дефиницию лингвистического корпуса на странице, выделить его основные структурные компоненты и зафиксировать их в документе ФамилияEn
Познакомиться с корпусным движком "Беларускага N-корпуса" (автор: Aleś Bułojčyk) и особенностями его лицензии
Рухавік даступны на ўмовах ліцэнзіі GPLv3 (понятно и по русски о GPLv3)
Познакомиться:
- с материалом о проблеме разработки и открытости корпусного движка НКРЯ: Я/МЫ НКРЯ: что происходит с национальным корпусом и в документе ФамилияEn выразить и обосновать свою точку зрения на поднятую проблему.
- с сайтом Яндекс.Учебника (руководитель направления словесность которого Булгакова Анна Игоревна, представитель Яндекса в НКРЯ) и в документе ФамилияEn отметить, какая его функциональность связана с корпусными технологиями
- с перечнем публикаций Светланы Юрьевна Бочавер (представитель Яндекса в НКРЯ). Осуществить поиск по маске "корпус" в одном из номеров издаваемого Институтом языкознания РАН научного журнала «Лингвистика и методика преподавания иностранных языков». Результаты поиска зафиксировать документе ФамилияEn
в документе ФамилияEn выразить и обосновать свою точку зрения на поднятую в публикации Я/МЫ НКР проблему.
Познакомиться со статьей и сайтом (обязательно с руководством пользователя) лучшего (из находящихся в открытом и (почти) свободном доступе) корпусного менеджера (движка) предоставляющего возможность исследований на материалах сотен корпусных коллекций (более 500) на 90+ языках. Познакомиться с возможностями работы с текстами на белорусском языке и beTenTen и описать их (на русском) в документе ФамилияEn
Приняв во внимание заявление Милоша Якубичека (генерального директора Lexical Computing): I decided to cut off the Russian and Belarusian internet address space from Sketch Engine (and related services) .... и отложив использование Sketch Engine до лучших времен ... выбрать в глоссарии 5 (пять!) важнейших (на ваш взгляд) терминов по корпусной лингвистике и в документе ФамилияEn заполнить таблицу вида

№	термин	толкование	перевод на русский Фамилия
1
2
3
4
5

Познакомиться со статьей и сайтом WordSmith, можно посмотреть видео... но... всё платно)
Познакомиться со статьей и сайтом WMatrix, , можно посмотреть видео... )
Вспомнить работу с AntConс (версия 3.5)
Посетить сайт программы и познакомиться с историей развития программы и её новыми возможностями). В документе ФамилияEn описать 5 важнейших новых возможностей актуальной версии в сравнении с версией 3.5.
Скачать архив с программой (или новую версию с сайта), распаковать и запустить.
Выбрать текст для анализа на одном из репозитариев, например:
- Oxford Text Archive
  https://ota.bodleian.ox.ac.uk/repository/xmlui/
- Deutsches Textarchiv
  https://www.deutschestextarchiv.de/
- Репозиторий открытых данных по русской литературе и фольклору ИРЛ РАН
  https://dataverse.pushdom.ru/dataverse/corpora
- Corus
  https://natasha.github.io/corus/
Можно взять произведение c Europeana (или https://www.europeana.eu/de), Digital Public Library of America, Project Gutenberg, Флибусты, Журнального зала или даже Прозы.ру )

В документе ФамилияEn описать источник и сделать прямую ссылку на текст

Использовав основные инструменты программы, провести анализ избранного вами текста на основе 2 (двух) избранных из текста лексем (исключая лексему "все)). Лексемы подобрать из числа наиболее частотных лемм, существительных, прилагательных или глаголов, которые пишутся с той же буквы, что и Ваша Фамилия (если таких не окажется, то получить лексемы для исследования от своего преподавателя)
Результаты анализа подтвердить подписанными Вашей Фамилией скринами, которые вставить в ФамилияEn) :

построить частотный словарь теста и скрин (см образец скрина) вставить в ФамилияEn

построить конкорданс для избранных лексем и скрин (см образец скрина) вставить в ФамилияEn

просмотреть полный контекст последней записи и скрин (см образец скрина) вставить в ФамилияEn

построить конкордансы для для морфемы (сегмента слова) и скрин (см образец скрина) вставить в ФамилияEn

найти все 3-граммы и скрин (см образец скрина) вставить в ФамилияEn

найти все n-граммы (n от 2 до 5) и скрин (см образец скрина) вставить в ФамилияEn

найти коллокации (для лексемы , такие, чтобы в его входили слова с частотностью не ниже 2 в контекстах на расстоянии по 7 слов справа и слева от выбранной лексемы (см образец скрина) вставить в ФамилияEn.

просмотреть распределение лексемы "все" в тексте (не нужно подтверждать скрином)

Keyword List – инструмент для выявления высокочастотных слов в по сравнению с эталонным для цели исследования справочным корпусом. Можно испытать самостоятельно...

Отослать преподавателю письмо с pdf-документом ФамилияEn

kmp