Корпусные движки и репозитарии

 

Лингвистический корпус

  • репрезентативная (соответствующая представляемой функционирования языка) совокупность текстов, собранных в соответствии с определёнными принципами (соответствующими задаче), размеченных (снабженных аннотациями), обеспеченных специализированной поисковой системой.

Развитие специализированных корпусных поисковых систем, обогатило их дополнительными возможностиями и функциональностью, превратив в полноценные корпусные менеджеры (corpus managers), или, в друой терминологии: корпусные движки (corpus engines), возможности которых стали одним из определяющих факторов любого корпусного исследования (наряду с умением использовать эти возможности, способностью к заданию эффективных запросов к корпусу и продуктивной интерпретацией получаемых результатов.

  • часто корпусами именуют также репозитарии (собрания) размеченных (в разной степени и по разному) текстов

 

 
  1. Повторить дефиницию лингвистического корпуса на странице, выделить его основные структурные компоненты и зафиксировать их в документе ФамилияEn

  2. Познакомиться с корпусным движком "Беларускага N-корпуса" (автор: Aleś Bułojčyk) и особенностями его лицензии
    Рухавік даступны на ўмовах ліцэнзіі GPLv3 (понятно и по русски о GPLv3)

  3. Познакомиться:

    •  с материалом о проблеме разработки и открытости корпусного движка НКРЯ: Я/МЫ НКРЯ: что происходит с национальным корпусом и в документе  ФамилияEn выразить и обосновать свою точку зрения на поднятую проблему.

    • с сайтом Яндекс.Учебника (руководитель направления словесность которого Булгакова Анна Игоревна, представитель Яндекса в НКРЯ) и в документе  ФамилияEn отметить, какая его функциональность связана с корпусными технологиями

    • с перечнем публикаций Светланы Юрьевна Бочавер (представитель Яндекса в НКРЯ). Осуществить поиск по маске "корпус" в одном из номеров издаваемого Институтом языкознания РАН научного журнала «Лингвистика и методика преподавания иностранных языков». Результаты поиска зафиксировать документе  ФамилияEn

     в документе  ФамилияEn выразить и обосновать свою точку зрения на поднятую в публикации Я/МЫ НКР проблему.

  4. Познакомиться со статьей и сайтом (обязательно с руководством пользователя) лучшего (из находящихся в открытом и (почти) свободном доступе) корпусного менеджера (движка) предоставляющего возможность исследований на материалах сотен корпусных коллекций (более 500) на 90+ языках. Познакомиться с возможностями работы с текстами на белорусском языке  и beTenTen и описать их (на русском) в документе  ФамилияEn

  5. Приняв во внимание заявление Милоша Якубичека (генерального директора Lexical Computing): I decided to cut off the Russian and Belarusian internet address space from Sketch Engine (and related services) ....  и отложив использование Sketch Engine до лучших времен ... выбрать в глоссарии 5 (пять!) важнейших (на ваш взгляд) терминов по корпусной лингвистике и в документе  ФамилияEn заполнить таблицу вида

термин толкование перевод на русский Фамилия
1      
2      
3      
4      
5      
  1. Познакомиться со статьей и сайтом WordSmith, можно посмотреть видео... но...  всё платно)

  2. Познакомиться со статьей и сайтом WMatrix, , можно посмотреть видео... )

  3. Вспомнить работу с AntConс (версия 3.5)

  4. Посетить сайт программы и познакомиться с историей развития программы и её новыми возможностями). В документе ФамилияEn описать 5 важнейших новых возможностей актуальной версии в сравнении с версией 3.5.

  5. Скачать архив с программой  (или новую версию с сайта), распаковать и запустить.

  6. Выбрать текст для анализа на одном из репозитариев, например:

    Можно взять произведение c Europeana (или https://www.europeana.eu/de), Digital Public Library of America, Project Gutenberg, Флибусты, Журнального зала или даже Прозы.ру )

    В документе ФамилияEn описать источник и сделать прямую ссылку на текст

  1. Использовав основные инструменты программы, провести анализ избранного вами текста на основе 2 (двух) избранных из текста лексем (исключая лексему "все)). Лексемы подобрать из числа наиболее частотных лемм, существительных, прилагательных или глаголов, которые пишутся с той же буквы, что и Ваша Фамилия (если таких не окажется, то получить лексемы для исследования от своего преподавателя)
    Результаты анализа подтвердить подписанными Вашей Фамилией скринами, которые вставить в
    ФамилияEn)  :

  • построить частотный словарь теста и скрин (см образец скрина) вставить в ФамилияEn

  • построить конкорданс для избранных лексем и скрин (см образец скрина) вставить в ФамилияEn

  • просмотреть полный контекст последней записи  и скрин (см образец скрина) вставить в ФамилияEn

  • построить конкордансы для для морфемы (сегмента слова) и скрин (см образец скрина) вставить в ФамилияEn

  • найти все 3-граммы  и скрин (см образец скрина) вставить в ФамилияEn

  • найти все n-граммы (n от 2 до 5) и скрин (см образец скрина) вставить в ФамилияEn

  • найти коллокации (для лексемы , такие, чтобы в его входили слова с частотностью не ниже 2 в контекстах на расстоянии по 7 слов справа и слева от выбранной лексемы (см образец скрина) вставить в ФамилияEn.

  • просмотреть распределение лексемы "все" в тексте (не нужно подтверждать скрином)

Keyword List – инструмент для выявления высокочастотных слов в по сравнению с эталонным для цели исследования справочным корпусом. Можно испытать самостоятельно...

  1. Отослать преподавателю письмо с pdf-документом ФамилияEn

 

kmp