OpenCorpora:
семантическая разметка |
К
сожалению, мы пока не можем выполнить работу по грамматической
разметке |
-
Создать документ под именем
ФамилияОС22
-
К сожалению, мы пока не сможем выполнить
работу по лингвистической разметке OC, поэтому:
-
Познакомиться с
материалом
и
статьей, по данным
материалам выполнить
тест (и подписанный Фамилией подтверждающий скрин
вставить в ФамилияОС22
-
На вкладке "О проекте"
перейти к разделу Участники, к пункту -
Благодарности и, далее, по ссылке
всем. Найти команду
БрГУ имени А.С. Пушкина и, опечалившись высокому
проценту допущенных студентами ошибок, ощутить
ответственность и понадеяться на скорую возможность
продвижения нашей команды в рейтинге...
-
Познакомиться со
статьей и
заполнить в документе ФамилияОС22
Таблицу:
Вопрос |
Ответ |
Фамилия Имя
Отчество |
Ваши
собственные |
как связана
разметка сущностей с конференцией по компьютерной лингвистике Диалог |
Правильный
ответ |
в чем
состоит выделение именованных сущностей
|
Правильный ответ |
что будет
следующими этапами разметки коллекции текстов для factRuEval |
-
первый этап
-
второй этап
-
третий этап
|
Вы примите участие в разметке сущностей? |
:) |
Ваш умный вопрос по
разметке Открытого Корпуса |
|
-
Познакомиться с
ресурсом (внимание разделу:
Инструкция по определению именованных сущностей) и выполнить
и отправить
тест,
подтвердив его выполнение скрином в ФамилияОС22
ПРОПУСКАЕМ ЗАДАНИЯ 5-6-7
-
Осознать всю полноту ответственности за
свою работу в команде УО "Брестский государственный университет
имени А.С. Пушкина", представляющей и Брест, и Беларусь.
-
Выбрать в разделе Разметка
подраздел Сущности,
выбрать проблемное поле и
конкретный текст (Размечать),
еще раз просмотреть инструкцию (открыв ссылку в новой вкладке) и
аккуратно осуществить разметку.
Примечание:
если никаких заданий по разметке сущностей не предлагается (к
сожалению, такое случается), то, в качестве исключения, можно
произвести еще одну разметку морфологии и сделать подписанный
Фамилией подтверждающий скрин) + сделать подписанный Фамилией
скрин окна с отсутствием заданий.
-
Сделать (с помощью Ножниц) скрин одного из
размеченных абзацев, рукописно подписать его своей Фамилией (образец
для Орловой) и вставить в ФамилияОС22
-
В разделе Скачать познакомиться с
материалами вкладок Скачать и
Форматы экспорта
-
Скач ать
Подкорпус со снятой омонимией без UNKN, XML .zip и
Распаковать его. Открыть находившийся в архиве файл
annot.opcorpora.no_ambig_strict
поочередно
с помощью 1) Блокнота и 2) программы
XML_Notepad (ее также нужно
предварительно распаковать, файл открывать через программу
- File \ Open) 3)
Visual Studio Code (должна быть установлена на
компьютере в 18-й)
В
XML_Notepad
для текста, который
соответствует Вашему номеру в зачетной таблице открыть все
вложенные каталоги, изучить полученную структуру и содержание и
сделав скрин (с помощью Ножниц) подписать его своим номером в
зачетной таблице, Фамилией и Именем (образец
для Орловой Евы под номером 15)
и вставить в ФамилияОС2
Познакомиться со
статьей об очень важном формате в компьютерной лингвистике и
машинном переводе и его официальной
спецификацией
Установив в подразделе
Частотные списки
(меню Скачать в Открытом Корпусе)
параметр
"все" для
1) типа n-грамм, 2) учета регистра, 3) токенов
и скачать zip-архив списка,
который соответствует Вашему номеру в зачетной таблице (списков,
после ваших установок всего
должно быть 16) и распаковать его и переименовать файл дополнив
его имя своей Фамилией (например, Орлова-trigrams
- для случая Орловой и файла
trigrams)
Поочередно открыть
находящийся в архиве файл в Блокноте (для файла значительного
информационного объема может открываться долгое время), Excel
(соглашаясь со всеми предлагаемыми программой установками и, при
необходимости,
чтобы была читаемая кодировка - используя функцию импорта (Данные
... из текста)),
Word (соглашаясь с предлагаемой
конвертацией в UFT-8), браузере
(просто перетянув значок файла в адресную строку программы).. каждый раз делая
подписанные Вашей Фамилией скрины фрагментов (образец
для
Блокнота, образец
для
Chrome,
образец
для Excel,
образец
для
Word
- в имени файла Должна
присутствовать Ваша Фамилия!)
вставить их в ФамилияОС2
Внимание! В Excel
должна быть читаемая кодировка! - используйте функцию импорта (Данные
... из текста)...
см.
здесь и
здесь
Познакомиться с
материалом и
статьей (статьей
и
статьей - подумать о том, чтобы дополнить русскоязычную
статью Википедии :)
Просмотреть в подразделе
Частотные списки
(меню Скачать в Открытом Корпусе)
файлы в колонке с
top100 и в
ФамилияОС2 заполнить Таблицу2:
Вопрос |
Ответ |
Фамилия Имя
Отчество |
Ваши
собственные |
самый частотный знак
пунктуации |
Правильный
ответ на основе всех четырех файлов униграмм |
самое частотное слово |
Правильный
ответ на основе файлов униграмм |
самое частотное
словосочетание |
Правильный
ответ на основе всех файлов биграмм |
самая частотная триграмма из слов |
Правильный
ответ на основе всех файлов триграмм |
-
Сохранить
ФамилияОС2
в виде pdf-документа.
-
Отослать преподавателю письмо с
отзывом,
подтверждением выполнения
теста и
ФамилияОС2
-
Самостоятельно познакомиться с
Taiga Сorpus (и здесь) и его "хозяйкой":
Татьяной Шавриной
|
kmp
|