ОСНОВЫ КОМПЬЮТЕРНОЙ ЛИНГВИСТИКИ

материалы к государственному экзамену

ВОПРОСЫ
предварительная версия

 

Для выполнения практических заданий НУЖНО взять свои ноутбуки
 (несколько на группу, лучше - больше, желательно с исправными аккумуляторами)

На ваших ноутбуках должны быть все материалы и софт для выполнения заданий ))

 

 

  1. Технологии компьютерного лингвистического моделирования (математические модели текста, квантитативные модели текста, модели лингвистической разметки, Большие языковые модели ++)

  2. Квантитативные методы лингвистических исследований (квантитативные модели, квантитативная лингвистика, приложения квантитативных моделей, частотные словари, словари-индексы, машинные фонды лексики, конкордансы, квантитативные закономерности, ограниченность квантитативных методов исследования языка).

  3. Лингвистические корпусы (понятие, приложения и ограничения лингвистических корпусов, корпусная лингвистика, история корпусного моделирования, корпусный подход в сравнении с хомскианской лингвистикой, разметка языковых корпусов, лингвистические исследования на базе корпусов, белорусские корпусные исследования)

  4. Natural Language Processing (Понятие автоматической обработки текста,  статистические методы NLP NLP-метаразметка, символьное моделирование + Большие языковые модели)

  5. Neural-based machine translation (основные технологии машинного перевода, Neural-based machine translation, системы перевода на основе NBMT в Google и Microsoft, Google Neural Machine Translation, проект OpenNMT, возможности NBMT на основе Tensor Processing Unit и FPGА + LLM в переводе)

  6. Natural Language Understanding (понимание в Computer Science, Дефиниция NLU, Бенчмаркинг, GLUE, SuperGLUE, NLU в стеке технологий NLP, NLU как AI-полная задача, области применения NLU, лингвистические проблемы NLU, достижения NLU, современные модели и технологии NLU)

  7. Natural Language Generation (синтез речи, синтезатор речи, голосовой движок, Модели (алгоритмы) синтеза речи : конкатенативный (компилятивный) синтез; параметрический синтез; формантный синтез (по правилам); предметно-ориентированный синтез. Синтез речи с помощью нейронной сети. Модель синтеза речи с помощью нейронной сети. Языковая инфраструктура синтеза речи + Большие языковые модели )

  8. Языковые модели (лингвистические понимания LM, математическая дефиниция LM, дефиниция LM, N-граммные языковые модели, LM как языковая машина, нейросетевые языковые модели, представление данных в нейростеевых LM, нейросетевые технологии LM, оценка нейросетевых языковых моделей, Benchmarking, Perplexity)

  9. Большие языковые модели   (языковая модель, дефиниция Large Language Mode (LLM), технологические предпосылки LLM, LLM и BigData, современные LLM, приминение LLM, достижения LLM, ограничения LLM, проблемы LLM, LLM-cервисы, Prompt engineering, LLM в образовании, гуманитарное значение LLM)

  10. Модели лингвистической разметки (стандарты представления языковых ресурсов, лингвистическая разметка языковых корпусов, проект TEI, TEI Lite, автоматическая лингвистическая разметка корпусных данных )

 

ПРАКТИЧЕСКИЕ ЗАДАНИЯ
для всех групп

S1

S2

S3

S4

S5

S6 S7
  1. Разработать действующую модель контекстного переводчика связного текста, интегрированного в веб-страницу (см. здесь задание 7)

  2. Разработать действующую модель контекстного словаря, интегрированного в веб-страницу (см. здесь задание 7)

  3. Разработать интерактивный мультиязычный диктант со сбором статистики ошибок  (см. здесь задания 4-10)

  4. Разработать проверочный двуязычный интерактивный тест учебных достижений на установление соответствия между элементами двух множеств (см. здесь задания 2-7)

  5. Разработать проверочный двуязычный интерактивный тест учебных достижений с проверочными заданиями закрытой формы (выбор ответа из перечня вариантов)  (выбор ответа из перечня вариантов. см. здесь задания 3-5 )

  6. Разработать проверочный двуязычный интерактивный тест учебных достижений с проверочными заданиями открытой формы (ввод собственного ответа в поле формы) (ввод собственного ответа в поле формы см. здесь задания 6-8)

  7. Разработать словарный двуязычный диалоговый бот  (см. здесь Chat2004)

  8. Создать на веб странице сервис двуязычного синтеза речи по тексту (см. TTS)

  9. Определить оптимальную архитектуру нейронной сети и обучить её распознаванию рукописных символов алфавита  (см. здесь задания 6-11)

  10. Построить в приложении AntConc и проанализировать частотный словарь предложенного текста и конкорданс заданных лексем  (см. здесь  задания 9-16)

 

 

Учреждение образования
"Бр
естский государственный университет имени А.С. Пушкина"
20
23