Natural Language Understanding (NLU)

 

 

 

  • Понимание в гуманитарных дисциплинах

  • Лингвистическое понимание понимания

  • Понимание в точных науках

  • Понимание в Computer Science

  • Дефиниция NLU

  • Бенчмаркинг

  • General Language Understanding Evaluation

  • SuperGLUE

  • NLU в стеке технологий NLP

  • NLU как AI-полная задача

  • Области применения NLU

  • Лингвистические проблемы NLU

  • Достижения NLU

  • Современные модели и технологии NLU

  • Рекомендуемые материалы по NLU


  • NLU в преподавании иностранных языков (не только в СШ №7 ))

  • Самая суть

 

Понимание в гуманитарных дисциплинах

 

В гуманитарных науках множество несовместимых между собой пониманий понимания.

Доминирует мешанина разных подходов, концепций, взглядов и субъективных мнений...

Можно выделить три подхода к пониманию феномена понимания:

  • когнитивный - понимание как знание (значения и смысла)

При этом знание, значение и смысл не определены по понимаются различно

В когнитивном подходе можно выделить три направления:

  • интенциональное (понимание как процесс и результат логического осмысления)

  • рефлексивное (понимание как процесс и результат осмысления логического осмысления)

  • интуитивное (понимание как прозрение, инсайт, схватываение сути..)

  • эмпативный - понимание как (со-)переживание

- Как я вас понимаю...
- Вам меня не понять, никто
меня не понимает...

  • позиционный - понимание как точка зрения, интерпретация, толкование, объяснение)

- Пролетарское понимание в корне отличается от буржуазного


 

Е.В. Косилова Понимание как переживание

  • Что такое понимание? Наверное, невозможно дать однозначное определение этому понятию.
    Понимание (
    понимания?) — это всегда риск.
    Понимание — долгая дорога, на которой непонимание — это мотор, а проблески догадок — путеводная нить.

Невозможно понять, как гуманитарии понимают понимание (не будучи гуманитарием ))

 

 

Лингвистическое понимание понимания

Лингвистическая дефиниция:

  • Понимание (текста) - извлечение прагматически значимой информации.

Семиотика = синтактика + семантика + прагматика

  • Синтактика - отношения между знаками, порождающие тексты.

  • Семантика - отношения знаков к тому, что они обозначают (уровень распознавания значений)

  • Прагматика - отношения знак-субъект (уровень понимания смыслов)

Смысл зависит от намерений и целей коммуникантов, их коммуникативных интенций в ситуативно изменяющихся отношенях субъект– знак (человек-знак) или актор-знак (машина-знак).

 

 

Понимание в точных науках

 

В точных науках (математике) нет категории понимания (как элемента терминологических систем)

Традиционно, понимание связывалось с гуманитарным познанием, а с естественно-научным - объяснение.

Объяснение - упорядоченная последовательность утверждений, для выявления и описания набора элементов, операций и отношений некоторого множества (модели, системы)

Все программы обоснования математики (логицизм, формализм, интуиционизм, конструктивизм) основаны на категории объяснения.

 

 

Понимание в Computer Science (CS)

 

В CS понимание используется в узком строго определенном смысле как метрика (измеримая характеристика, параметр) программных систем (NLP-моделей)

В данном контексте понимание, определяется как способность NLP-модели адекватно реагировать на текстовое событие, т.е. в ответ на цепочку символов, выстраивать другую цепочку символов, в соответствии с ожиданиями пользователя (конструктора, заказчика, владельца).

 

Понимание - свойство NLP-модели в ответ на цепочку символов, выстраивать другую цепочку символов, в соответствии с заданными ожиданиями

 

Понимание как способность (свойство) NLP-модели в ответ на цепочку символов, выстраивать другую цепочку символов, в соответствии с заданными ожиданиями изменяется в результате бенчмаркинга.

 

Дефиниция NLU

Natural-language understanding (NLU)  - технологии "понимания" текстов на естественном языке, оцениваемая процедурами бенчмаркинга (сопоставительного анализа результатов работы информационной системы на основе эталонных показателей).

 

Бенчмаркинг

 

Benchmarking (бенчмаркинг, эталонное оценивание) — сопоставительного анализ результатов работы информационной системы на основе эталонных показателей по итогам выполнения стандартизованных наборов задач

https://ru.wikipedia.org/wiki/Бенчмаркинг

https://en.wikipedia.org/wiki/Benchmarking

Бенчмаркинг включает:

  • создание эталона (стандарта);

  • исследование (измерение) на соответствие эталону;

  • сравнение систем по результатам исследований;

  • применение самых удачных решений.

Обычно за образец принимают «лучший» результат работы, который является лишь ориентиром.

Benchmarking  играет ключевую роль в развитии современной автоматической обработки текстов

 Актуальные системы бенчмаркина для направлений NLP:

  • понимание естественного языка (GLUE, SuperGLUE, RUSSIAN SUPERGLUE),

  • генерация текста на естественном языке (GEM),

  • перенос обучения между языками (XGLUE, XTREME),

  • диагностическое тестирование и интерпретация языковых моделей (LINSPECTOR, SentEval),

  • определение ненависти и стереотипов в текстах (HateCheck, StereoSet, HONEST)

  • устойчивость к атакам (RobustnessGym, AdvGLUE).  

 

 

General Language Understanding Evaluation

 

General Language Understanding Evaluation (GLUE)  - набор ресурсов для обучения, оценки и анализа систем понимания естественного языка.

https://gluebenchmark.com/

Разработан GLUE в апреле 2018 года исследователями из Нью-Йоркского университета, Университета Вашингтона и компанией DeepMind с целях стимуляции исследований в области разработки общих и надежных систем понимания естественного языка.

Структура GLUE:

  • Контрольный набор из девяти заданий на понимание естественного языка, составленных на основе данных, отобранных с учетом различного объема, жанров текста и степеней сложности,включая:

    • задания из одного предложения CoLA и SST-2,

    • задачи на сходство и перефразирование MRPC, STS-B и QQP,

    • задачи на логический вывод на естественном языке MNLI, QNLI, RTE и WNLI.на понимание языка из предложений или пар предложений

  • Диагностический набор данных, предназначенный для оценки и анализа производительности модели в отношении широкого спектра лингвистических явлений, встречающихся в естественном языке

  • Общедоступная таблица лидеров для отслеживания производительности в тесте и панель мониторинга для визуализации производительности моделей в диагностическом наборе.
    Формат контрольного показателя GLUE не зависит от модели, поэтому он может протестировать любую систему, способную обрабатывать предложения и пары предложений и выдавать соответствующие прогнозы.


 

GLUE: A MULTI-TASK BENCHMARK AND ANALYSIS PLATFORM FOR NATURAL LANGUAGE UNDERSTANDING
https://arxiv.org/pdf/1804.07461v3.pdf

 

 

SuperGLUE

 

SuperGLUE  - самый современный набор ресурсов для обучения, оценки и анализа систем понимания естественного языка и речи.

https://super.gluebenchmark.com/

 

Разработн в августе 2019 года  Facebook совместно с Google DeepMind, Вашингтонским университетом и Нью-Йоркским университетом, после того, как модели MT-DNN от Microsoft, XLNet от Google и RoBERTa от Facebook, показали на GLUE производительность выше среднего базового уровня человека.

SuperGLUE создан на основе нейронной сети Google BERT.

SuperGLUE на порядок сложнее GLUE и предназначен для стимуляции создания моделей, способных воспринимать более тонкие речевые нюансы.

SuperGLUE включает в себя восемь задач для проверки способности системы следовать за мыслью, распознавать причину и следствие и проработать подробные ответы на открытые вопросы.


https://super.gluebenchmark.com/tasks/

 


 

SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems
https://arxiv.org/abs/1905.00537

 


 

Первый (и пока единственный) полный тест для русского языка, аналогичный англоязычному бенчмарку.: RUSSIAN SUPERGLUE (https://russiansuperglue.com/ru/)

 

 

NLU в стеке технологий КЛ

 

Natural-language understanding (NLU) - область NLP, связанная с пониманием текста.

https://en.wikipedia.org/wiki/Natural-language_understanding

Natural Language Processing (NLP) — общее направление искусственного интеллекта и компьютерной лингвистики, изучающее все проблемы компьютерного моделирования (анализа и синтеза) текстов на естественных языках.

Упрощенно можно представить: NLP = ASR + NLU + NLG

  • ASR (Automatic Speech Recognition) — технологии автоматического распознавания речи

  • NLU (Natural-language understanding) - технологии понимания текстов на естественном языке

  • NLG (Natural Language Generation) - технологии генерации текстов на естественном языке
    Текстов - связных, осмысленных, произвольных (по заданным тематикам)
     

 

 

NLU как AI-полная задача

NLU является важнейшей проблемой AI (Artificial intelligence, ИИ, искусственного интеллекта)

NLU (понимание естественного языка) считается AI-полной задачей

AI-полная задача (AI-complete) — проблема, решение которой предполагает создание «сильного AI» («действительно мыслящего» агента).

Термин «сильный ИИ» введён в 1980 году Джоном Сёрлом («Китайская комната»):

  • The appropriately programmed computer really is a mind, in the sense that computers given the right programs can be literally said to understand and have other cognitive states.

  • Соответствующим образом запрограммированный компьютер с нужными входами и выходами и будет разумом, в том смысле, в котором человеческий разум — это разум.

Само определение смысла слова «понимать» — одна из главных задач AI

AI-полная задачи:

  • не могут быть решены алгоритмически.

  • легко решаются человеком в контексте сложнейшей системы отношений человеческих поняти

  • требуют огромных знаний системы об окружающем мире и возможности с ним взаимодействовать, в т.ч. неявных (не осознаваемых) и неформализуемых.

 

 

Области применения NLU

 

NLU является необходимым элементом множества областей лингвистического компьютерного моделирования:

  • систем поддержания диалога,

  • автогенерации связного осмысленного текста,

  • сервисов автоматизированного рассуждения,

  • рекомендательных сервисов,

  • машинного перевода,

  • сантимент-анализа (анализа тональности, эмоциональной окраски),

  • суммаризации (автореферирования),

  • вопросно-ответных систем,

  • агрегации (автоматического сбора) новостей,

  • категоризации текста,

  • активации голоса,

  • контент-анализа

  • .....

 

 

Лингвистические (и не только) проблемы NLU

Примеры лингвистических проблем для машинного понимания:

  • Раскрытие анафор (распознавание, что имеется в виду при использовании местоимений):

Предложения «Мы отдали бананы обезьянам, потому что они были голодные» и «Мы отдали бананы обезьянам, потому что они были перезрелые» похожи по синтаксической структуре. В одном из них местоимение они относится к обезьянам, а в другом — к бананам. Правильное понимание зависит от знаний компьютера, какими могут быть бананы и обезьяны.

  • Свободный порядок слов может привести к совершенно иному толкованию фразы

«Бытие определяет сознание» — что определяет что?

  • Омонимия (в т.ч. фонетическая)

«Серый волк в глухом лесу встретил рыжую лису» выделенные слова слышатся одинаково, и без знания, кто глухой, а кто рыжий, не обойтись (лиса и лес могут быть глухими и рыжими).

  • Импликатура — небуквальная часть значения текста, когда информация присутствует в тексте в скрытом виде, но при этом явно не выражается (адресат делает вывод сам), то, что «имелось в виду» (в противоположность тому, что было сказано)

https://ru.wikipedia.org/wiki/Импликатура

  • Пресуппозиции — необходимые семантические компоненты, обеспечивающие наличие смысла в утверждении (как компонент смысла текста, являющийся предварительным знанием, без которого нельзя адекватно воспринять текст).

https://ru.wikipedia.org/wiki/Пресуппозиция

  • Ошибки (оговорки, описки) в тексте (логические, грамматические, фонетические)....

См: СЕМАНТИЧЕСКАЯ БЕЗДНА ))

 

 

Достижения NLU ))

ЯНВАРЬ  2021

NLU превзошЛИ человеческие возможности в тесте SuperGLUE

  • Модель Microsoft  DeBERTa занимает первое место в рейтинге с показателем в 90,3

  • Модель Google T5 + Meena  занимает второе место в рейтинге с показателем в 90,1

  • Среднее значение человеческих возможностей составляет 89,8 баллов.

Тестирование моделей DeBERTa и T5 + Meena проводились только на английском языке.

ИИ-модель Microsoft превзошла результат человека в тесте на понимание естественного языка SuperGLUE

 

SuperGLUE

  • создан оценки способности ИИ-моделей понимать естественный язык (дать правильный ответ на вопрос на базе прочитанного, определить, правильность используется многозначных слов в контексте и т.д.),

  • разработан в 2019 году (тогда человек опережал лучшую моделью на 20 баллов).

А в это время... теденции в понимании прочитанного у человечества... не радуют ((   См. PISA

 

 

Современные модели и технологии NLU

 

Современные модели NLU построены на глубоком обучении нейронных сетей  ML NN) на основе использования механизмов "эмбеддинга" и "внимания"

 

Вчерашние герои:

  • BERT,

  • SMITH

  • Text-To-Text Transfer Transformer (T5)

  • Meena

  • DeBERTa

  • Megatron-Turing NLG

  • Gopher

  • Chinchilla

  • PaLM

  • LLaMa

  • GPT-3

Актуальная (на 3 апреля 2023) модель:

  • GPT-4 (Generative Pre-trained Transformer 4) — мультимодальная большая языковая модель, ограниченно доступная для пользователей ChatGPT и Bing

О технологических основах NLU смотри здесь модули:

  • Embedding

  • Трансформер

 

 

 

Рекомендуемые материалы

 

 

NLU в преподавании ...

 

Осмысленный ответ на вопрос о применении NLU (NLG, NLP, AI, чего угодно из компьютерной лингвистики) в преподавании иностранных языков требует учитывать контексты (социальный, культурный, исторический, ....).

Следует различать применение:

  • в будущем мире говорящих вещей, где непосредственная коммуникации человека с человеком... все реже, все меньше, роскошь  ... для немногих ценителей

  • в настоящем (таком разном... в Москве и Бресте ))

  • в прошлом (в котором продолжает жить (и учить прошлой жизни) до 70% населения ...
    рождаясь, проживая и умирая не приходя в сознание
    ((

Сладких снов )))
 

 

 

Самая суть

Образование - обретение способности без подготовки эффективно решать любые неожиданные проблемы с пользой для семьи, страны, человечества и без вреда для окружающей среды ))

 

 

 

kmp