OpenCorpora: семантическая разметка

 

 К сожалению, мы пока не можем выполнить работу по грамматической разметке

 

 

 
  1. Создать документ под именем ФамилияОС22

  2. К сожалению, мы пока не сможем выполнить работу по лингвистической разметке OC, поэтому:

  • Познакомиться с материалом и статьей,  по данным материалам выполнить тест (и подписанный Фамилией подтверждающий скрин вставить в ФамилияОС22

  • На вкладке "О проекте" перейти к разделу Участники, к пункту - Благодарности и, далее, по ссылке всем. Найти команду БрГУ имени А.С. Пушкина и, опечалившись высокому проценту допущенных студентами ошибок, ощутить ответственность и понадеяться на скорую возможность  продвижения нашей команды в рейтинге...

  1. Познакомиться со статьей и заполнить в документе ФамилияОС22 Таблицу:

Вопрос

Ответ

Фамилия Имя Отчество

Ваши собственные

как связана разметка сущностей с конференцией по компьютерной лингвистике Диалог

Правильный ответ

в чем состоит выделение именованных сущностей

Правильный ответ

что будет следующими этапами разметки коллекции текстов для factRuEval

  • первый этап

  • второй этап

  • третий этап

Вы примите участие в разметке сущностей?

:)

Ваш умный вопрос по разметке Открытого Корпуса

 

 

  1. Познакомиться с ресурсом (внимание разделу: Инструкция по определению именованных сущностей) и выполнить и отправить тест, подтвердив его выполнение скрином в ФамилияОС22

    ПРОПУСКАЕМ ЗАДАНИЯ 5-6-7

  2. Осознать всю полноту ответственности за свою работу в команде УО "Брестский государственный университет имени А.С. Пушкина", представляющей и Брест, и Беларусь.

  3. Выбрать в разделе Разметка подраздел Сущности, выбрать проблемное поле и конкретный текст (Размечать), еще раз просмотреть инструкцию (открыв ссылку в новой вкладке) и аккуратно осуществить разметку.

    Примечание: если никаких заданий по разметке сущностей не предлагается (к сожалению, такое случается), то, в качестве исключения, можно произвести еще одну разметку морфологии и сделать подписанный Фамилией подтверждающий скрин) + сделать подписанный Фамилией скрин окна с отсутствием заданий.

  4. Сделать (с помощью Ножниц) скрин одного из размеченных абзацев, рукописно подписать его своей Фамилией (образец для Орловой)  и вставить в ФамилияОС22

  5. В разделе Скачать познакомиться с материалами вкладок Скачать и Форматы экспорта

  6. Скачать Подкорпус со снятой омонимией без UNKN, XML  .zip и Распаковать его. Открыть находившийся в архиве файл annot.opcorpora.no_ambig_strict поочередно с помощью 1) Блокнота и 2) программы XML_Notepad (ее также нужно предварительно распаковать, файл открывать через программу  - File \ Open) 3) Visual Studio Code (должна быть установлена на компьютере в 18-й)

  7. В XML_Notepad для текста, который соответствует Вашему номеру в зачетной таблице открыть все вложенные каталоги, изучить полученную структуру и содержание и сделав скрин (с помощью Ножниц) подписать его своим номером в зачетной таблице, Фамилией и Именем (образец для Орловой Евы под номером 15) и вставить в ФамилияОС2

  8. Познакомиться со статьей об очень важном формате в компьютерной лингвистике и машинном переводе и его официальной спецификацией

  9. Установив в подразделе Частотные списки (меню Скачать в Открытом Корпусе) параметр "все" для 1) типа n-грамм, 2) учета регистра, 3) токенов и скачать zip-архив списка, который соответствует Вашему номеру в зачетной таблице (списков, после ваших установок всего должно быть 16) и распаковать его и переименовать файл дополнив его имя своей Фамилией (например, Орлова-trigrams - для случая Орловой и файла trigrams)

  10. Поочередно открыть находящийся в архиве файл в Блокноте (для файла значительного информационного объема может открываться долгое время), Excel (соглашаясь со всеми предлагаемыми программой установками и, при необходимости, чтобы была читаемая кодировка - используя функцию импорта (Данные ... из текста)), Word (соглашаясь с предлагаемой конвертацией в UFT-8), браузере (просто перетянув значок файла в адресную строку программы).. каждый раз делая подписанные Вашей Фамилией скрины фрагментов (образец для Блокнота, образец для Chrome, образец для Excel, образец для Word   - в имени файла Должна присутствовать Ваша Фамилия!) вставить их в ФамилияОС2
    Внимание! В Excel должна быть читаемая кодировка! - используйте функцию импорта (Данные ... из текста)... см. здесь и здесь

  11. Познакомиться с материалом и статьей (статьей и статьей - подумать о том, чтобы дополнить русскоязычную статью Википедии :)

  12. Просмотреть  в подразделе Частотные списки (меню Скачать в Открытом Корпусе) файлы в колонке с top100 и в ФамилияОС2 заполнить Таблицу2:

Вопрос

Ответ

Фамилия Имя Отчество

Ваши собственные

самый частотный знак пунктуации

Правильный ответ на основе всех четырех файлов униграмм

самое частотное слово

Правильный ответ на основе файлов униграмм

самое частотное словосочетание

Правильный ответ на основе всех файлов биграмм

самая частотная триграмма из слов

Правильный ответ на основе всех файлов триграмм

 

  1. Сохранить  ФамилияОС2 в виде pdf-документа.

  2. Отослать преподавателю письмо с отзывом, подтверждением выполнения теста и ФамилияОС2

  3. Самостоятельно познакомиться с Taiga Сorpus (и здесь) и его "хозяйкой": Татьяной Шавриной

 

 

kmp