Natural Language Understanding (NLU) |
-
Понимание в гуманитарных
дисциплинах
-
Лингвистическое
понимание понимания
-
Понимание в точных
науках
-
Понимание в
Computer Science
-
Дефиниция NLU
-
Бенчмаркинг
-
General
Language Understanding Evaluation
-
SuperGLUE
-
NLU
в стеке технологий NLP
-
NLU
как AI-полная
задача
-
Области применения NLU
-
Лингвистические проблемы NLU
-
Достижения
NLU
-
Современные
модели и технологии
NLU
-
Рекомендуемые материалы
по NLU
|
Понимание в гуманитарных дисциплинах
В гуманитарных науках множество несовместимых между
собой пониманий понимания.
Доминирует мешанина разных подходов, концепций,
взглядов и субъективных мнений...
Можно выделить три подхода к
пониманию феномена понимания:
При этом знание,
значение и смысл не определены по понимаются различно
В когнитивном подходе
можно выделить три направления:
-
интенциональное
(понимание как процесс и результат логического
осмысления)
-
рефлексивное
(понимание как процесс и результат
осмысления логического осмысления)
-
интуитивное
(понимание как прозрение, инсайт, схватываение сути..)
- Как я вас понимаю...
- Вам меня не понять, никто
меня
не понимает...
- Пролетарское
понимание в корне отличается от буржуазного
Е.В. Косилова
Понимание как переживание
-
Что такое понимание?
Наверное, невозможно дать однозначное определение этому понятию.
Понимание (понимания?)
— это всегда риск.
Понимание — долгая дорога, на которой непонимание — это мотор, а
проблески догадок — путеводная нить.
Невозможно понять, как
гуманитарии понимают понимание
(не будучи гуманитарием ))
|
Лингвистическое понимание
понимания
Лингвистическая
дефиниция:
С емиотика
= синтактика +
семантика + прагматика
-
Синтактика - отношения
между знаками, порождающие тексты.
-
Семантика -
отношения знаков к тому, что они обозначают
(уровень распознавания значений)
Прагматика -
отношения знак-субъект (уровень понимания смыслов)
С мысл
зависит от намерений и целей коммуникантов,
их коммуникативных интенций в ситуативно изменяющихся отношенях
субъект– знак (человек-знак) или актор-знак (машина-знак).
|
Понимание в точных науках
В
точных науках (математике) нет категории понимания (как элемента
терминологических систем)
Традиционно, понимание связывалось с гуманитарным познанием, а с
естественно-научным - объяснение.
Объяснение - упорядоченная
последовательность утверждений, для выявления и описания набора
элементов, операций и отношений некоторого множества (модели,
системы)
Все
программы обоснования математики (логицизм, формализм, интуиционизм,
конструктивизм) основаны на категории объяснения.
|
Понимание в Computer Science (CS)
В CS понимание используется в узком строго определенном смысле как
метрика (измеримая характеристика, параметр) программных систем (NLP-моделей)
В данном
контексте понимание, определяется как способность NLP-модели
адекватно реагировать на текстовое событие, т.е. в ответ на цепочку
символов, выстраивать другую цепочку символов, в соответствии с
ожиданиями пользователя (конструктора, заказчика, владельца).
Понимание -
свойство NLP-модели в ответ на цепочку символов,
выстраивать другую цепочку символов, в соответствии с
заданными ожиданиями |
Понимание
как способность (свойство) NLP-модели в ответ на цепочку символов,
выстраивать другую цепочку символов, в соответствии с заданными
ожиданиями
изменяется в результате бенчмаркинга.
|
Дефиниция
NLU
Natural-language understanding
(NLU)
- технологии "понимания" текстов на естественном
языке, оцениваемая процедурами бенчмаркинга (сопоставительного
анализа результатов работы информационной системы на основе
эталонных показателей).
|
Бенчмаркинг
Benchmarking
(бенчмаркинг,
эталонное оценивание) — сопоставительного анализ результатов работы
информационной системы на основе эталонных показателей
по итогам
выполнения стандартизованных наборов задач
https://ru.wikipedia.org/wiki/Бенчмаркинг
https://en.wikipedia.org/wiki/Benchmarking
Бенчмаркинг включает:
-
создание эталона (стандарта);
-
исследование (измерение) на соответствие эталону;
-
сравнение систем по результатам исследований;
-
применение самых удачных решений.
Обычно за
образец принимают «лучший» результат работы,
который является лишь ориентиром.
Benchmarking
играет
ключевую роль в развитии современной автоматической обработки
текстов
Актуальные системы бенчмаркина для направлений
NLP:
-
понимание естественного языка (GLUE,
SuperGLUE,
RUSSIAN
SUPERGLUE),
-
генерация текста на естественном языке (GEM),
-
перенос обучения между языками (XGLUE, XTREME),
-
диагностическое тестирование и интерпретация языковых
моделей (LINSPECTOR, SentEval),
-
определение ненависти и стереотипов в текстах (HateCheck,
StereoSet, HONEST)
-
устойчивость к атакам (RobustnessGym, AdvGLUE).
|
General
Language Understanding Evaluation
General Language Understanding Evaluation (GLUE) -
набор ресурсов для обучения, оценки и анализа систем понимания
естественного языка.
https://gluebenchmark.com/
Разработан
GLUE
в апреле 2018 года исследователями из Нью-Йоркского университета,
Университета Вашингтона и компанией DeepMind
с целях стимуляции исследований
в области разработки общих и надежных систем понимания естественного
языка.
Структура GLUE:
-
Контрольный набор из девяти заданий на понимание естественного
языка, составленных на основе данных, отобранных с учетом
различного объема, жанров текста и степеней сложности,включая:
-
задания из одного предложения CoLA и SST-2,
-
задачи на сходство и перефразирование MRPC, STS-B и QQP,
-
задачи на логический вывод на естественном языке MNLI, QNLI,
RTE и WNLI.на понимание языка из предложений или пар
предложений
-
Диагностический набор данных, предназначенный для оценки и
анализа производительности модели в отношении широкого спектра
лингвистических явлений, встречающихся в естественном языке
-
Общедоступная таблица лидеров для отслеживания
производительности в тесте и панель мониторинга для визуализации
производительности моделей в диагностическом наборе.
Формат контрольного показателя GLUE не зависит от модели,
поэтому он может протестировать любую систему, способную
обрабатывать предложения и пары предложений и выдавать
соответствующие прогнозы.
GLUE:
A MULTI-TASK BENCHMARK AND ANALYSIS PLATFORM FOR NATURAL LANGUAGE
UNDERSTANDING
https://arxiv.org/pdf/1804.07461v3.pdf
|
SuperGLUE
SuperGLUE - самый современный набор ресурсов для
обучения, оценки и анализа систем понимания естественного языка и
речи.
https://super.gluebenchmark.com/
Разработн
в августе 2019 года Facebook совместно с Google
DeepMind, Вашингтонским университетом и Нью-Йоркским университетом,
после того, как модели MT-DNN от Microsoft, XLNet от Google и
RoBERTa от Facebook, показали на
GLUE
производительность выше среднего базового уровня человека.
SuperGLUE создан на основе
нейронной сети Google BERT.
SuperGLUE на порядок
сложнее GLUE и предназначен для стимуляции
создания моделей, способных воспринимать
более тонкие речевые нюансы.
SuperGLUE
включает в себя восемь задач для проверки способности системы
следовать за мыслью, распознавать причину и следствие и проработать
подробные ответы на открытые вопросы.
https://super.gluebenchmark.com/tasks/
SuperGLUE: A Stickier Benchmark for
General-Purpose Language Understanding Systems
https://arxiv.org/abs/1905.00537
Первый (и пока единственный)
полный тест для русского языка, аналогичный англоязычному бенчмарку.:
RUSSIAN
SUPERGLUE (https://russiansuperglue.com/ru/)
Обучение Russian SuperGLUE моделей с помощью библиотеки
DeepPavlov
https://habr.com/ru/post/703334/
|
NLU в стеке
технологий КЛ
Natural-language understanding (NLU)
- область NLP,
связанная с пониманием текста.
https://en.wikipedia.org/wiki/Natural-language_understanding
Natural Language Processing
(NLP) — общее направление искусственного интеллекта и компьютерной
лингвистики, изучающее все проблемы компьютерного моделирования (анализа и синтеза)
текстов на естественных языках.
Упрощенно можно представить: NLP
=
ASR
+
NLU
+ NLG
-
ASR
(Automatic Speech Recognition) — технологии
автоматического распознавания речи
-
NLU (Natural-language
understanding) - технологии понимания текстов на
естественном языке
-
NLG (Natural
Language Generation) - технологии генерации
текстов на естественном языке
Текстов - связных, осмысленных, произвольных (по заданным
тематикам)
|
NLU как AI-полная
задача
NLU
является важнейшей проблемой AI (Artificial
intelligence, ИИ, искусственного
интеллекта)
NLU
(понимание естественного языка) считается AI-полной задачей
AI-полная задача (AI-complete)
— проблема, решение которой предполагает создание «сильного AI»
(«действительно мыслящего» агента).
Термин «сильный ИИ» введён в 1980 году Джоном Сёрлом («Китайская
комната»):
-
The appropriately
programmed computer really is a mind, in the sense that
computers given the right programs can be literally said
to understand and have other cognitive states.
-
Соответствующим образом
запрограммированный компьютер с нужными входами и
выходами и будет разумом, в том смысле, в котором
человеческий разум — это разум.
Само определение
смысла слова «понимать» — одна из главных задач AI |
AI-полная задачи:
-
не могут быть
решены алгоритмически.
-
легко решаются
человеком в контексте сложнейшей
системы отношений человеческих поняти
-
требуют огромных знаний системы об
окружающем мире и возможности с ним взаимодействовать, в т.ч. неявных
(не осознаваемых) и неформализуемых.
|
Области
применения
NLU
NLU является необходимым
элементом множества областей лингвистического компьютерного
моделирования:
-
систем
поддержания диалога,
-
автогенерации связного осмысленного текста,
сервисов автоматизированного рассуждения,
рекомендательных
сервисов,
машинного перевода,
сантимент-анализа (анализа тональности, эмоциональной окраски),
суммаризации (автореферирования),
вопросно-ответных систем,
агрегации
(автоматического сбора) новостей,
категоризации текста,
активации
голоса,
контент-анализа
.....
|
Лингвистические (и не только) проблемы
NLU
Примеры лингвистических проблем
для машинного понимания:
анафор (распознавание, что имеется в виду при
использовании местоимений):
Предложения «Мы отдали бананы обезьянам,
потому что они были голодные» и «Мы отдали бананы обезьянам, потому что
они были перезрелые» похожи по синтаксической структуре. В одном из них
местоимение они относится к обезьянам, а в другом — к бананам.
Правильное понимание зависит от знаний компьютера, какими могут быть
бананы и обезьяны.
«Бытие определяет сознание» — что определяет что?
«Серый волк в глухом
лесу встретил рыжую
лису» выделенные слова слышатся
одинаково, и без знания, кто глухой, а кто рыжий, не обойтись (лиса и лес
могут быть глухими и
рыжими).
-
Импликатура —
небуквальная часть значения текста, когда информация присутствует в
тексте в скрытом виде, но при этом явно не выражается (адресат
делает вывод сам), то, что «имелось в виду» (в противоположность
тому, что было сказано)
https://ru.wikipedia.org/wiki/Импликатура
-
Пресуппозиции —
необходимые семантические компоненты, обеспечивающие наличие смысла
в утверждении (как компонент смысла текста, являющийся
предварительным знанием, без которого нельзя адекватно воспринять
текст).
https://ru.wikipedia.org/wiki/Пресуппозиция
См:
СЕМАНТИЧЕСКАЯ БЕЗДНА )) |
Достижения NLU ))
Современные модели и технологии NLU
Современные модели
NLU построены на
глубоком обучении нейронных
сетей ML NN)
на основе использования
механизмов "эмбеддинга" и "внимания"
Вчерашние герои:
Актуальная (на 3 апреля
2023) модель:
О
технологических основах NLU
смотри
здесь
модули:
|
Рекомендуемые материалы
NLU в
преподавании ...
Осмысленный ответ на вопрос
о применении
NLU
(NLG,
NLP, AI,
чего угодно из компьютерной лингвистики) в преподавании
иностранных языков требует учитывать контексты (социальный,
культурный, исторический, ....).
Следует различать
применение:
-
в будущем
мире говорящих вещей, где непосредственная коммуникации
человека с человеком... все реже, все меньше, роскошь ...
для
немногих ценителей
-
в настоящем
(таком разном... в Москве и Бресте ))
-
в прошлом
(в котором продолжает жить (и учить прошлой жизни) до 70%
населения ...
рождаясь, проживая и умирая не приходя в сознание
((
Сладких снов
)))
|
Самая суть
Образование - обретение
способности без подготовки эффективно решать любые
неожиданные проблемы с пользой для семьи, страны,
человечества и без вреда для окружающей среды ))
|
|