Natural Language Understanding (NLU)

 

 

 

  • Дефиниция NLU

  • Понимание понимания в компьютерной лингвистике

  • NLU в стеке технологий NLP

  • NLU как AI-полная задача

  • Области применения NLU

  • Лингвистические проблемы NLU

  • Достижения NLU

  • Современные модели и технологии NLU

  • Рекомендуемые материалы по NLU


  • NLU в преподавании иностранных языков (не только в СШ №7 ))

  • Самая суть

 

 

Дефиниция NLU

Natural-language understanding (NLU)  - технологии понимания текстов на естественном языке

В данном контексте:

  • текст понимается семиотически (максимально широко)

  • понимание (текста) = извлечение прагматически значимой информации.

 

 

Понимание понимания в КЛ

Технологическая дефиниция:

  • Понимание (текста) - извлечение прагматически значимой информации.

Ганегедара Т. (Обработка естественного языка с TensorFlow / М.: ДМК Пресс, 2020. – 382 с.):

  • Понимание текста заключается в том, чтобы интерпретировать его как последовательность символов (С. 33.)

Васильев Юлий Обработка естественного языка. Python и spaCy на практике. — СПб.: Питер, 2021. — 256 с.

  • Текстовое содержимое — это группа символов, составляющих токен (слово, n-грамму, терм)

Семиотика = синтактика + семантика + прагматика

  • Синтактика - отношения между знаками, порождающие тексты.

  • Семантика - отношения знаков к тому, что они обозначают (уровень распознавания значений)

  • Прагматика - отношения знак-субъект (уровень понимания смыслов).

Смысл зависит от намерений и целей коммуникантов, их коммуникативных интенций в ситуативно изменяющихся отношенях субъект– знак (человек-знак) или актор-знак (машина-знак).

 

 

NLU в стеке технологий ИИ

 

Natural-language understanding (NLU) - область NLP (Natural-language processing), с пониманием текста.

https://en.wikipedia.org/wiki/Natural-language_understanding

Natural Language Processing (NLP) — общее направление искусственного интеллекта и компьютерной лингвистики, изучающее все проблемы компьютерного моделирования (анализа и синтеза) текстов на естественных языках.

Упрощенно можно представить: NLP = ASR + NLU + NLG +  NLI

  • ASR (Automatic Speech Recognition) — технологии автоматического распознавания речи

  • NLU (Natural-language understanding) - технологии понимания текстов на естественном языке

  • NLG (Natural Language Generation) - технологии генерации текстов на естественном языке
    Текстов - связных, осмысленных, произвольных (по заданным тематикам)

  • NLI (Natural Language Inference) – технологии автоматического определения логической связи между текстами.

 

 

NLU как AI-полная задача

NLU является важнейшей проблемой AI (Artificial intelligence, ИИ, искусственного интеллекта)

NLU (понимание естественного языка) считается AI-полной задачей

AI-полная задача (AI-complete) — проблема, решение которой предполагает создание «сильного AI» («действительно мыслящего» агента).

Термин «сильный ИИ» введён в 1980 году Джоном Сёрлом («Китайская комната»):

  • The appropriately programmed computer really is a mind, in the sense that computers given the right programs can be literally said to understand and have other cognitive states.

  • Соответствующим образом запрограммированный компьютер с нужными входами и выходами и будет разумом, в том смысле, в котором человеческий разум — это разум.

Само определение смысла слова «понимать» — одна из главных задач AI

AI-полная задачи:

  • не могут быть решены алгоритмически.

  • легко решаются человеком в контексте сложнейшей системы отношений человеческих поняти

  • требуют огромных знаний системы об окружающем мире и возможности с ним взаимодействовать, в т.ч. неявных (не осознаваемых) и неформализуемых.

 

 

Области применения NLU

 

NLU является необходимым элементом множества областей лингвистического компьютерного моделирования:

  • систем поддержания диалога,

  • автогенерации связного осмысленного текста,

  • сервисов автоматизированного рассуждения,

  • рекомендательных сервисов,

  • машинного перевода,

  • сантимент-анализа (анализа тональности, эмоциональной окраски),

  • суммаризации (автореферирования),

  • вопросно-ответных систем,

  • агрегации (автоматического сбора) новостей,

  • категоризации текста,

  • активации голоса,

  • контент-анализа

  • .....

 

 

Лингвистические (и не только) проблемы NLU

Примеры лингвистических проблем для машинного понимания:

  • Раскрытие анафор (распознавание, что имеется в виду при использовании местоимений):

Предложения «Мы отдали бананы обезьянам, потому что они были голодные» и «Мы отдали бананы обезьянам, потому что они были перезрелые» похожи по синтаксической структуре. В одном из них местоимение они относится к обезьянам, а в другом — к бананам. Правильное понимание зависит от знаний компьютера, какими могут быть бананы и обезьяны.

  • Свободный порядок слов может привести к совершенно иному толкованию фразы

«Бытие определяет сознание» — что определяет что?

  • Омонимия (в т.ч. фонетическая)

«Серый волк в глухом лесу встретил рыжую лису» выделенные слова слышатся одинаково, и без знания, кто глухой, а кто рыжий, не обойтись (лиса и лес могут быть глухими и рыжими).

  • Импликатура — небуквальная часть значения текста, когда информация присутствует в тексте в скрытом виде, но при этом явно не выражается (адресат делает вывод сам), то, что «имелось в виду» (в противоположность тому, что было сказано)

https://ru.wikipedia.org/wiki/Импликатура

  • Пресуппозиции — необходимые семантические компоненты, обеспечивающие наличие смысла в утверждении (как компонент смысла текста, являющийся предварительным знанием, без которого нельзя адекватно воспринять текст).

https://ru.wikipedia.org/wiki/Пресуппозиция

  • Ошибки (оговорки, описки) в тексте (логические, грамматические, фонетические)....

См: СЕМАНТИЧЕСКАЯ БЕЗДНА ))

 

 

Достижения NLU ))

ЯНВАРЬ  2021

NLU превзошЛИ человеческие возможности в тесте SuperGLUE

  • Модель Microsoft  DeBERTa занимает первое место в рейтинге с показателем в 90,3

  • Модель Google T5 + Meena  занимает второе место в рейтинге с показателем в 90,1

  • Среднее значение человеческих возможностей составляет 89,8 баллов.

Тестирование моделей DeBERTa и T5 + Meena проводились только на английском языке.

ИИ-модель Microsoft превзошла результат человека в тесте на понимание естественного языка SuperGLUE

 

SuperGLUE

  • создан оценки способности ИИ-моделей понимать естественный язык (дать правильный ответ на вопрос на базе прочитанного, определить, правильность используется многозначных слов в контексте и т.д.),

  • разработан в 2019 году (тогда человек опережал лучшую моделью на 20 баллов).

А в это время... теденции в понимании прочитанного у человечества... не радуют ((   См. PISA

 

 

Современные модели и технологии NLU

 

Современные модели NLU построены на глубоком обучении не1ронных сетей  ML NN) на основе использования механизмов "эмбеддинга" и "внимания"

 

О моделях NLU смотри здесь модули:

  • BERT, SMITH

  • Text-To-Text Transfer Transformer (T5)

  • Meena

  • DeBERTa

О технологических основах NLU смотри здесь модули:

  • Embedding

  • Трансформер

 

 

 

Рекомендуемые материалы

 

 

  • Android: как подружить ваше приложение с Google Ассистентом?
    Когда пользователь что-то говорит, Google Ассистент понимает это с помощью natural language understanding (NLU). NLU преобразует человеческую речь в специальную структуру данных, которую уже можно обработать.

  • Мелани Митчелл: что для ИИ значит понимать?
    https://habr.com/ru/company/skillfactory/blog/597253/
    Автор оригинала: Melanie Mitchell What Does It Mean for AI to Understand?
    https://www.quantamagazine.org/what-does-it-mean-for-ai-to-understand-20211216/

    • Помните суперкомпьютер IBM Watson, победителя телешоу Jeopardy!?!

      В анонсе 2010 года говорилось: «Watson понимает естественный язык со всей его неоднозначностью и сложностью».

      Но, когда Watson потерпел грандиозную неудачу, пытаясь «с помощью ИИ совершить революцию в медицине», стало очевидно: внешние лингвистические возможности не дают настоящего понимания человеческого языка.

      Понимание естественного языка давно стало главной целью исследований ИИ. Сначала учёные пытались вручную запрограммировать всё необходимое, чтобы машина понимала новостные сообщения, художественную литературу и всё, что могут написать люди.

      Такой подход, как показал Watson, бесполезен — записать все факты, правила и предположения, необходимые для понимания текста, невозможно. Совсем недавно появился новый подход: не закладывать в машины знания, а давать им самим учиться понимать язык, поглощая огромное количество написанного текста и предсказывая слова.

      В результате получается то, что учёные называют языковой моделью. Основанные на больших нейронных сетях типа GPT-3 от OpenAI такие модели могут генерировать прозу (и поэзию!), удивительно похожую на человеческую, и даже делать сложные лингвистические умозаключения.

      Но превзошла ли GPT-3, обученная на текстах с тысяч сайтов, книг и энциклопедий, Watson с его внешними лингвистическими возможностями? Действительно ли она понимает и даже рассуждает на генерируемом ею языке?

      Это тема серьёзных разногласий в сообществе исследователей ИИ. Раньше такие дискуссии были прерогативой философов, но в последнее десятилетие ИИ вырвался из академического пузыря в реальный мир. И его непонимание этого мира может иметь реальные, а подчас разрушительные последствия.

      В одном исследовании обнаружено, что компьютер IBM Watson предлагает «много примеров небезопасных и неправильных рекомендаций по лечению». В другом исследовании показывалось, что система машинного перевода Google допускала существенные ошибки при переводе медицинских инструкций для неанглоязычных пациентов.

      Как определить на практике, может ли машина понимать? В 1950 году пионер вычислительной науки Алан Тьюринг попытался ответить на этот вопрос с помощью своей знаменитой «имитационной игры», которая теперь называется тестом Тьюринга: судья-человек на основе только беседы, не видя, кто перед ним, пытается определить, с машиной он говорит или с человеком. Если судья не смог определить, кто человек, то, как утверждал Тьюринг, мы должны считать, что машина мыслит, а значит — понимает.

      Но Тьюринг не учёл, что машины могут вводить людей в заблуждение. Даже простые чат-боты 1960-х годов, такие как психотерапевт Элиза Джозефа Вайценбаума, убеждали людей, что они разговаривают с понимающим существом, даже когда люди знали, что их собеседник — машина.

      В работе 2012 года учёные Эктор Левеск, Эрнест Дэвис и Леора Моргенштерн предложили более объективный тест — схему Винограда.

      Этот тест принят в языковом сообществе ИИ как один из способов оценить понимание машин (возможно, лучший способ, хотя, как мы увидим, неидеальный). Схема Винограда, названная так в честь исследователя языка Терри Винограда, состоит из пары предложений, которые отличаются ровно одним словом. За каждым из предложений следует вопрос. Вот два примера:

      Предложение 1. Я наливал воду из бутылки в чашку, пока она не наполнилась.

      Вопрос. Что наполнилось, бутылка или чашка?

      Предложение 2. Я наливал воду из бутылки в чашку, пока она не стала пустой.

      Вопрос. Стала пустой бутылка или чашка?

      Предложение 1. Дядя Джо ещё может обыграть его в теннис, хотя он на 30 лет старше.

      Вопрос. Кто старше, Джо или дядя Джо?

      Предложение 2. Дядя Джо ещё может обыграть его в теннис, хотя он на 30 лет моложе.

      Вопрос. Кто моложе, Джо или дядя Джо?

     

 

 

 

 

NLU в преподавании ...

 

Осмысленный ответ на вопрос о применении NLU (NLG, NLP, AI, чего угодно из компьютерной лингвистики) в преподавании иностранных языков требует учитывать контексты (социальный, культурный, исторический, ....).

Следует различать применение:

  • в будущем мире говорящих вещей, где непосредственная коммуникации человека с человеком... все реже, все меньше, роскошь  ... для немногих ценителей

  • в настоящем (таком разном... в Москве и Бресте ))

  • в прошлом (в котором продолжает жить (и учить прошлой жизни) до 70% населения ...
    рождаясь, проживая и умирая не приходя в сознание
    ((

Сладких снов )))
 

 

 

NLU в преподавании ...

 

Тест: способны ли вы понимать тексты
https://iq.hse.ru/news/517500620.html

 

 

 

Самая суть

Образование - обретение способности без подготовки эффективно решать любые неожиданные проблемы с пользой для семьи, страны, человечества и без вреда для окружающей среды ))

 

 

 

kmp