Корпусные
движки и репозитарии |
Лингвистический корпус
-
репрезентативная (соответствующая
представляемой функционирования языка) совокупность текстов, собранных в
соответствии с определёнными принципами (соответствующими задаче),
размеченных (снабженных аннотациями),
обеспеченных специализированной поисковой системой.
Развитие
специализированных корпусных поисковых
систем, обогатило их дополнительными возможностиями и
функциональностью, превратив в полноценные
корпусные менеджеры (corpus
managers),
или, в друой терминологии:
корпусные движки (corpus engines),
возможности которых стали одним из определяющих факторов любого
корпусного исследования (наряду с умением использовать эти
возможности, способностью к заданию эффективных запросов к корпусу и
продуктивной интерпретацией получаемых результатов.
|
-
Повторить дефиницию лингвистического корпуса на странице,
выделить его основные структурные компоненты и зафиксировать их
в документе
ФамилияEn
-
Познакомиться с
корпусным движком "Беларускага N-корпуса"
(автор: Aleś Bułojčyk)
и
особенностями его лицензии
Рухавік даступны
на ўмовах ліцэнзіі GPLv3
(понятно и по русски о
GPLv3)
-
Познакомиться:
-
с
материалом о проблеме разработки и открытости корпусного
движка НКРЯ:
Я/МЫ НКРЯ: что происходит с национальным корпусом и
в
документе ФамилияEn
выразить и обосновать свою точку зрения на поднятую
проблему.
-
с
сайтом
Яндекс.Учебника
(руководитель направления
словесность которого Булгакова Анна Игоревна,
представитель Яндекса в НКРЯ) и в документе
ФамилияEn
отметить,
какая его
функциональность связана с корпусными технологиями
-
с перечнем
публикаций
Светланы Юрьевна Бочавер (представитель
Яндекса в НКРЯ). Осуществить поиск по маске "корпус" в
одном из номеров издаваемого Институтом языкознания РАН
научного журнала «Лингвистика
и методика преподавания иностранных языков».
Результаты поиска зафиксировать документе ФамилияEn
в документе
ФамилияEn
выразить и обосновать свою точку зрения на поднятую в публикации
Я/МЫ НКР проблему.
-
Познакомиться со
статьей и
сайтом
(обязательно с
руководством пользователя) лучшего (из находящихся в
открытом и (почти) свободном доступе) корпусного менеджера
(движка) предоставляющего возможность
исследований на материалах сотен корпусных коллекций (более 500)
на 90+ языках. Познакомиться с
возможностями работы с текстами на белорусском языке и
beTenTen и описать их (на русском)
в документе
ФамилияEn
-
Приняв во внимание заявление Милоша
Якубичека (генерального директора Lexical Computing): I decided
to cut off the Russian and Belarusian internet address space
from Sketch Engine (and related services) .... и отложив
использование Sketch Engine до лучших времен ... выбрать в
глоссарии 5 (пять!) важнейших (на ваш взгляд) терминов по
корпусной лингвистике и
в документе
ФамилияEn
заполнить таблицу вида
№ |
термин |
толкование |
перевод на русский Фамилия |
1 |
|
|
|
2 |
|
|
|
3 |
|
|
|
4 |
|
|
|
5 |
|
|
|
-
Познакомиться со
статьей и
сайтом
WordSmith,
можно посмотреть
видео... но...
всё платно)
-
Познакомиться со
статьей и
сайтом
WMatrix, , можно посмотреть
видео... )
-
Вспомнить
работу с
AntConс (версия 3.5)
-
Посетить
сайт программы и познакомиться с
историей развития программы и её новыми возможностями). В
документе ФамилияEn
описать 5
важнейших новых возможностей актуальной версии в сравнении с
версией 3.5.
-
Скачать
архив с программой (или
новую версию с сайта), распаковать и запустить.
-
Выбрать
текст для анализа на одном из репозитариев, например:
Можно
взять произведение c
Europeana (или
https://www.europeana.eu/de),
Digital Public
Library of America,
Project
Gutenberg,
Флибусты,
Журнального зала или даже
Прозы.ру
)
В
документе ФамилияEn
описать источник и сделать прямую ссылку на текст
-
Использовав основные инструменты программы,
провести анализ избранного вами текста на основе 2 (двух)
избранных из текста лексем (исключая лексему
"все)). Лексемы подобрать из числа наиболее частотных
лемм,
существительных,
прилагательных или
глаголов, которые пишутся с той же буквы, что и Ваша Фамилия
(если таких не окажется, то получить лексемы для исследования от
своего преподавателя)
Результаты анализа подтвердить подписанными Вашей Фамилией скринами, которые вставить в
ФамилияEn)
:
-
построить частотный словарь теста
и скрин (см образец
скрина)
вставить в
ФамилияEn
-
построить конкорданс для
избранных лексем и скрин (см образец
скрина)
вставить в
ФамилияEn
-
просмотреть полный контекст последней записи
и скрин
(см образец
скрина)
вставить в
ФамилияEn
-
построить конкордансы для
для морфемы (сегмента слова)
и скрин
(см образец
скрина)
вставить в
ФамилияEn
-
найти
все 3-граммы
и скрин
(см образец
скрина)
вставить в
ФамилияEn
-
найти все
n-граммы
(n от 2 до 5)
и скрин
(см образец
скрина)
вставить в
ФамилияEn
-
найти коллокации
(для
лексемы , такие, чтобы в его входили слова с частотностью не ниже 2 в контекстах на расстоянии по 7 слов справа и слева от выбранной лексемы (см образец
скрина)
вставить в
ФамилияEn.
-
просмотреть распределение лексемы
"все" в тексте (не нужно подтверждать скрином)
Keyword List – инструмент для выявления высокочастотных слов в по сравнению с эталонным для цели исследования справочным корпусом. Можно испытать самостоятельно...
-
Отослать преподавателю
письмо с pdf-документом
ФамилияEn
|
kmp
|