Natural Language Understanding (NLU) |
-
Дефиниция NLU
-
Понимание понимания
в компьютерной лингвистике
-
NLU
в стеке технологий NLP
-
NLU
как AI-полная
задача
-
Области применения NLU
-
Лингвистические проблемы NLU
-
Достижения
NLU
-
Современные
модели и технологии
NLU
-
Рекомендуемые материалы
по NLU
|
Дефиниция
NLU
Natural-language understanding
(NLU)
- технологии понимания текстов на естественном
языке
В данном контексте:
|
Понимание
понимания в КЛ
Технологическая дефиниция:
Ганегедара Т.
(Обработка естественного
языка с TensorFlow / М.: ДМК Пресс,
2020. – 382 с.):
Васильев Юлий
Обработка естественного языка. Python и spaCy на практике. — СПб.:
Питер, 2021. — 256 с.
|
С емиотика
= синтактика +
семантика + прагматика
-
Синтактика - отношения
между знаками, порождающие тексты.
-
Семантика -
отношения знаков к тому, что они обозначают
(уровень распознавания значений)
Прагматика -
отношения знак-субъект (уровень понимания смыслов).
С мысл
зависит от намерений и целей коммуникантов,
их коммуникативных интенций в ситуативно изменяющихся отношенях
субъект– знак (человек-знак) или актор-знак (машина-знак).
|
NLU в стеке
технологий ИИ
Natural-language understanding (NLU)
- область NLP (Natural-language processing),
с пониманием текста.
https://en.wikipedia.org/wiki/Natural-language_understanding
Natural Language Processing
(NLP) — общее направление искусственного интеллекта и компьютерной
лингвистики, изучающее все проблемы компьютерного моделирования (анализа и синтеза)
текстов на естественных языках.
Упрощенно можно представить: NLP
=
ASR
+
NLU
+ NLG +
NLI
-
ASR
(Automatic Speech Recognition) — технологии
автоматического распознавания речи
-
NLU (Natural-language
understanding) - технологии понимания текстов на
естественном языке
-
NLG (Natural
Language Generation) - технологии генерации
текстов на естественном языке
Текстов - связных, осмысленных, произвольных (по заданным
тематикам)
-
NLI
(Natural
Language Inference)
–
технологии автоматического определения логической связи между
текстами.
|
NLU как AI-полная
задача
NLU
является важнейшей проблемой AI (Artificial
intelligence, ИИ, искусственного
интеллекта)
NLU
(понимание естественного языка) считается AI-полной задачей
AI-полная задача (AI-complete)
— проблема, решение которой предполагает создание «сильного AI»
(«действительно мыслящего» агента).
Термин «сильный ИИ» введён в 1980 году Джоном Сёрлом («Китайская
комната»):
-
The appropriately
programmed computer really is a mind, in the sense that
computers given the right programs can be literally said
to understand and have other cognitive states.
-
Соответствующим образом
запрограммированный компьютер с нужными входами и
выходами и будет разумом, в том смысле, в котором
человеческий разум — это разум.
Само определение
смысла слова «понимать» — одна из главных задач AI |
AI-полная задачи:
-
не могут быть
решены алгоритмически.
-
легко решаются
человеком в контексте сложнейшей
системы отношений человеческих поняти
-
требуют огромных знаний системы об
окружающем мире и возможности с ним взаимодействовать, в т.ч. неявных
(не осознаваемых) и неформализуемых.
|
Области
применения
NLU
NLU является необходимым
элементом множества областей лингвистического компьютерного
моделирования:
-
систем
поддержания диалога,
-
автогенерации связного осмысленного текста,
сервисов автоматизированного рассуждения,
рекомендательных
сервисов,
машинного перевода,
сантимент-анализа (анализа тональности, эмоциональной окраски),
суммаризации (автореферирования),
вопросно-ответных систем,
агрегации
(автоматического сбора) новостей,
категоризации текста,
активации
голоса,
контент-анализа
.....
|
Лингвистические (и не только) проблемы
NLU
Примеры лингвистических проблем
для машинного понимания:
анафор (распознавание, что имеется в виду при
использовании местоимений):
Предложения «Мы отдали бананы обезьянам,
потому что они были голодные» и «Мы отдали бананы обезьянам, потому что
они были перезрелые» похожи по синтаксической структуре. В одном из них
местоимение они относится к обезьянам, а в другом — к бананам.
Правильное понимание зависит от знаний компьютера, какими могут быть
бананы и обезьяны.
«Бытие определяет сознание» — что определяет что?
«Серый волк в глухом
лесу встретил рыжую
лису» выделенные слова слышатся
одинаково, и без знания, кто глухой, а кто рыжий, не обойтись (лиса и лес
могут быть глухими и
рыжими).
-
Импликатура —
небуквальная часть значения текста, когда информация присутствует в
тексте в скрытом виде, но при этом явно не выражается (адресат
делает вывод сам), то, что «имелось в виду» (в противоположность
тому, что было сказано)
https://ru.wikipedia.org/wiki/Импликатура
-
Пресуппозиции —
необходимые семантические компоненты, обеспечивающие наличие смысла
в утверждении (как компонент смысла текста, являющийся
предварительным знанием, без которого нельзя адекватно воспринять
текст).
https://ru.wikipedia.org/wiki/Пресуппозиция
См:
СЕМАНТИЧЕСКАЯ БЕЗДНА )) |
Достижения NLU ))
Современные модели и технологии NLU
Современные модели
NLU построены на
глубоком обучении не1ронных
сетей ML NN)
на основе использования
механизмов "эмбеддинга" и "внимания"
О моделях
NLU
смотри
здесь
модули:
О
технологических основах NLU
смотри
здесь
модули:
|
Рекомендуемые материалы
-
Android: как подружить ваше приложение
с Google Ассистентом?
Когда пользователь что-то говорит, Google Ассистент понимает
это с помощью natural language understanding (NLU). NLU
преобразует человеческую речь в специальную структуру данных,
которую уже можно обработать.
-
Мелани Митчелл: что для ИИ значит понимать?
https://habr.com/ru/company/skillfactory/blog/597253/
Автор оригинала: Melanie Mitchell What Does It
Mean for AI to Understand?
https://www.quantamagazine.org/what-does-it-mean-for-ai-to-understand-20211216/
-
Помните суперкомпьютер IBM Watson, победителя
телешоу Jeopardy!?!
В анонсе 2010 года говорилось: «Watson понимает
естественный язык со всей его неоднозначностью и
сложностью».
Но, когда Watson потерпел грандиозную неудачу,
пытаясь «с помощью ИИ совершить революцию в
медицине», стало очевидно: внешние
лингвистические возможности не дают настоящего
понимания человеческого языка.
Понимание естественного языка давно стало
главной целью исследований ИИ. Сначала учёные
пытались вручную запрограммировать всё
необходимое, чтобы машина понимала новостные
сообщения, художественную литературу и всё, что
могут написать люди.
Такой подход, как показал Watson, бесполезен —
записать все факты, правила и предположения,
необходимые для понимания текста, невозможно.
Совсем недавно появился новый подход: не
закладывать в машины знания, а давать им самим
учиться понимать язык, поглощая огромное
количество написанного текста и предсказывая
слова.
В результате получается то, что учёные называют
языковой моделью. Основанные на больших
нейронных сетях типа GPT-3 от OpenAI такие
модели могут генерировать прозу (и поэзию!),
удивительно похожую на человеческую, и даже
делать сложные лингвистические умозаключения.
Но превзошла ли GPT-3, обученная на текстах с
тысяч сайтов, книг и энциклопедий, Watson с его
внешними лингвистическими возможностями?
Действительно ли она понимает и даже рассуждает
на генерируемом ею языке?
Это тема серьёзных разногласий в сообществе
исследователей ИИ. Раньше такие дискуссии были
прерогативой философов, но в последнее
десятилетие ИИ вырвался из академического пузыря
в реальный мир. И его непонимание этого мира
может иметь реальные, а подчас разрушительные
последствия.
В одном исследовании обнаружено, что компьютер IBM Watson предлагает «много примеров
небезопасных и неправильных рекомендаций по
лечению». В другом исследовании показывалось,
что система машинного перевода Google допускала
существенные ошибки при переводе медицинских
инструкций для неанглоязычных пациентов.
Как определить на практике, может ли машина
понимать? В 1950 году пионер вычислительной
науки Алан Тьюринг попытался ответить на этот
вопрос с помощью своей знаменитой «имитационной
игры», которая теперь называется тестом
Тьюринга: судья-человек на основе только беседы,
не видя, кто перед ним, пытается определить, с
машиной он говорит или с человеком. Если судья
не смог определить, кто человек, то, как
утверждал Тьюринг, мы должны считать, что машина
мыслит, а значит — понимает.
Но Тьюринг не учёл, что машины могут вводить
людей в заблуждение. Даже простые чат-боты
1960-х годов, такие как психотерапевт Элиза
Джозефа Вайценбаума, убеждали людей, что они
разговаривают с понимающим существом, даже когда
люди знали, что их собеседник — машина.
В работе 2012 года учёные Эктор Левеск, Эрнест
Дэвис и Леора Моргенштерн предложили более
объективный тест — схему Винограда.
Этот тест принят в языковом сообществе ИИ как
один из способов оценить понимание машин
(возможно, лучший способ, хотя, как мы увидим,
неидеальный). Схема Винограда, названная так в
честь исследователя языка Терри Винограда,
состоит из пары предложений, которые отличаются
ровно одним словом. За каждым из предложений
следует вопрос. Вот два примера:
Предложение 1. Я наливал воду из бутылки в
чашку, пока она не наполнилась.
Вопрос. Что наполнилось, бутылка или чашка?
Предложение 2. Я наливал воду из бутылки в
чашку, пока она не стала пустой.
Вопрос. Стала пустой бутылка или чашка?
Предложение 1. Дядя Джо ещё может обыграть его в
теннис, хотя он на 30 лет старше.
Вопрос. Кто старше, Джо или дядя Джо?
Предложение 2. Дядя Джо ещё может обыграть его в
теннис, хотя он на 30 лет моложе.
Вопрос. Кто моложе, Джо или дядя Джо?
|
NLU в
преподавании ...
Осмысленный ответ на вопрос
о применении
NLU
(NLG,
NLP, AI,
чего угодно из компьютерной лингвистики) в преподавании
иностранных языков требует учитывать контексты (социальный,
культурный, исторический, ....).
Следует различать
применение:
-
в будущем
мире говорящих вещей, где непосредственная коммуникации
человека с человеком... все реже, все меньше, роскошь ...
для
немногих ценителей
-
в настоящем
(таком разном... в Москве и Бресте ))
-
в прошлом
(в котором продолжает жить (и учить прошлой жизни) до 70%
населения ...
рождаясь, проживая и умирая не приходя в сознание
((
Сладких снов
)))
|
NLU в
преподавании ...
Самая суть
Образование - обретение
способности без подготовки эффективно решать любые
неожиданные проблемы с пользой для семьи, страны,
человечества и без вреда для окружающей среды ))
|
|