LLM-kmp

Large Language Models (черновик)

OpenAI

OpenAI планирует заработать $200 млн в 2023 и $1 млрд в 2024 (за счёт компаний, которые используют её технологии, взимая с разработчиков около $0,01 за генерирование текста в 20 000 слов и около $0,04 за создание изображения по запросу).
Брэд Смит (президент Microsoft, вложившей в OpenAI $1 млрд): ИИ развивается быстрее, чем многие предсказывали. В 2023 году мы увидим успехи, которых люди ещё два года назад ждали не раньше 2033 года. Это будет очень важно не только для Microsoft, но и для будущего всех.
OpenAI была недавно оценена в $20 млрд в ходе вторичной продажи акций.
Гендиректор и сооснователь компании Сэм Альтман назвал операционные расходы компании «ошеломляющими».
Microsoft обдумывает возможность увеличения своей доли в OpenAI и надеется стимулировать использование ИИ для бизнеса через облачные сервисы Microsoft.

PaLMе (от Google AI)

20.04.2022 Google AI представила языковую модель PaLM на базе ИИ с 540 миллиардами параметров. Она умеет пояснять шутки (Илон Маск назвал это «поразительно несмешным»)

ИИ-система генерации текстов OpenAI GPT-3 впервые показала, что большие языковые модели (LLM) могут достичь впечатляющих результатов даже без масштабного сбора данных под конкретные задачи или обновления параметров модели. Еще более впечатляющих результатов доблились более поздние LLM, такие как:

GLaM,

LaMDA,

Gopher

Megatron-Turing

В 2021 году команда Google Research объявила о разработке Pathways — единой модели, которая может обобщать домены и задачи, и в то же время быть высокоэффективной. И в апреле 2022 года сообщили о прорыве в создании архитектуры искусственного интеллекта (ИИ), способной решать миллионы различных задач, включая сложное обучение, рассуждения и способность пояснять шутки. Новая языковая система имеет 540 миллиардов параметров и называется PaLM (Pathways Language Model).

Разработчики оценили способности PaLM на сотнях задач понимания и генерации языка и обнаружили, что она обеспечивает «современную производительность», во многих случаях со значительным отрывом от других подобных систем.

PaLM умеет математически логически рассуждать, поясняя свои действия, писать код и даже объяснять свое понимание шуток, которые были придуманы на ходу и их нельзя найти в интернете.

Основатель компаний SpaceX, Neuralink и The Boring Company, управляющий заводом Tesla Илон Маск прокомментировал пример с пояснением шутки PaLM, назвав ее «поразительно несмешной».

Понимание понимания в КЛ

Технологическая дефиниция:

Понимание (текста) - извлечение прагматически значимой информации.

Ганегедара Т. (Обработка естественного языка с TensorFlow / М.: ДМК Пресс, 2020. – 382 с.):

Понимание текста заключается в том, чтобы интерпретировать его как последовательность символов (С. 33.)

Васильев Юлий Обработка естественного языка. Python и spaCy на практике. — СПб.: Питер, 2021. — 256 с.

Текстовое содержимое — это группа символов, составляющих токен (слово, n-грамму, терм)

Семиотика = синтактика + семантика + прагматика

Синтактика - отношения между знаками, порождающие тексты.

Семантика - отношения знаков к тому, что они обозначают (уровень распознавания значений)
Прагматика - отношения знак-субъект (уровень понимания смыслов).

Понимание — результат смыслового восприятия целостного речевого сообщения (не изолированных значений, а их сложных переплетений)
https://ru.wikipedia.org/wiki/Понимание
https://en.wikipedia.org/wiki/Understanding
Понимание текста — умственная деятельность, в результате которой содержание текста становится доступным читающему.
https://ru.wikipedia.org/wiki/Понимание_текста
https://en.wikipedia.org/wiki/Reading_comprehension

Смысл зависит от намерений и целей коммуникантов, их коммуникативных интенций в ситуативно изменяющихся отношенях субъект– знак (человек-знак) или актор-знак (машина-знак).

NLU в стеке технологий ИИ

Natural-language understanding (NLU) - область NLP (Natural-language processing), с пониманием текста.

https://en.wikipedia.org/wiki/Natural-language_understanding

Natural Language Processing (NLP) — общее направление искусственного интеллекта и компьютерной лингвистики, изучающее все проблемы компьютерного моделирования (анализа и синтеза) текстов на естественных языках.

Упрощенно можно представить: NLP = ASR + NLU + NLG + NLI

ASR (Automatic Speech Recognition) — технологии автоматического распознавания речи

NLU (Natural-language understanding) - технологии понимания текстов на естественном языке

NLG (Natural Language Generation) - технологии генерации текстов на естественном языке
Текстов - связных, осмысленных, произвольных (по заданным тематикам)

NLI (Natural Language Inference) – технологии автоматического определения логической связи между текстами.

NLU как AI-полная задача

NLU является важнейшей проблемой AI (Artificial intelligence, ИИ, искусственного интеллекта)

https://en.wikipedia.org/wiki/Artificial_intelligence

https://en.wikipedia.org/wiki/Artificial_general_intelligence

NLU (понимание естественного языка) считается AI-полной задачей

AI-полная задача (AI-complete) — проблема, решение которой предполагает создание «сильного AI» («действительно мыслящего» агента).

Термин «сильный ИИ» введён в 1980 году Джоном Сёрлом («Китайская комната»):

The appropriately programmed computer really is a mind, in the sense that computers given the right programs can be literally said to understand and have other cognitive states.
Соответствующим образом запрограммированный компьютер с нужными входами и выходами и будет разумом, в том смысле, в котором человеческий разум — это разум.

Само определение смысла слова «понимать» — одна из главных задач AI

AI-полная задачи:

не могут быть решены алгоритмически.
легко решаются человеком в контексте сложнейшей системы отношений человеческих поняти
требуют огромных знаний системы об окружающем мире и возможности с ним взаимодействовать, в т.ч. неявных (не осознаваемых) и неформализуемых.

Области применения NLU

NLU является необходимым элементом множества областей лингвистического компьютерного моделирования:

систем поддержания диалога,

автогенерации связного осмысленного текста,

сервисов автоматизированного рассуждения,

рекомендательных сервисов,

машинного перевода,

сантимент-анализа (анализа тональности, эмоциональной окраски),

суммаризации (автореферирования),

вопросно-ответных систем,

агрегации (автоматического сбора) новостей,

категоризации текста,

активации голоса,

контент-анализа

.....

Лингвистические (и не только) проблемы NLU

Примеры лингвистических проблем для машинного понимания:

Раскрытие анафор (распознавание, что имеется в виду при использовании местоимений):

Предложения «Мы отдали бананы обезьянам, потому что они были голодные» и «Мы отдали бананы обезьянам, потому что они были перезрелые» похожи по синтаксической структуре. В одном из них местоимение они относится к обезьянам, а в другом — к бананам. Правильное понимание зависит от знаний компьютера, какими могут быть бананы и обезьяны.

Свободный порядок слов может привести к совершенно иному толкованию фразы

«Бытие определяет сознание» — что определяет что?

Омонимия (в т.ч. фонетическая)

«Серый волк в глухом лесу встретил рыжую лису» выделенные слова слышатся одинаково, и без знания, кто глухой, а кто рыжий, не обойтись (лиса и лес могут быть глухими и рыжими).

Импликатура — небуквальная часть значения текста, когда информация присутствует в тексте в скрытом виде, но при этом явно не выражается (адресат делает вывод сам), то, что «имелось в виду» (в противоположность тому, что было сказано)

https://ru.wikipedia.org/wiki/Импликатура

Пресуппозиции — необходимые семантические компоненты, обеспечивающие наличие смысла в утверждении (как компонент смысла текста, являющийся предварительным знанием, без которого нельзя адекватно воспринять текст).

https://ru.wikipedia.org/wiki/Пресуппозиция

Ошибки (оговорки, описки) в тексте (логические, грамматические, фонетические)....

См: СЕМАНТИЧЕСКАЯ БЕЗДНА ))

Достижения NLU ))

ЯНВАРЬ 2021

NLU превзошЛИ человеческие возможности в тесте SuperGLUE

Модель Microsoft DeBERTa занимает первое место в рейтинге с показателем в 90,3

Модель Google T5 + Meena занимает второе место в рейтинге с показателем в 90,1

Среднее значение человеческих возможностей составляет 89,8 баллов.

Тестирование моделей DeBERTa и T5 + Meena проводились только на английском языке.

ИИ-модель Microsoft превзошла результат человека в тесте на понимание естественного языка SuperGLUE

SuperGLUE

создан оценки способности ИИ-моделей понимать естественный язык (дать правильный ответ на вопрос на базе прочитанного, определить, правильность используется многозначных слов в контексте и т.д.),

разработан в 2019 году (тогда человек опережал лучшую моделью на 20 баллов).

А в это время... теденции в понимании прочитанного у человечества... не радуют (( См. PISA

Open Pretrain Transformer (OPT-175B)

В мае 2022 Meta выпустила Open Pretrain Transformer (OPT-175B), большую языковую модель (LLM), которая может выполнять множество задач.

OPT-175B — последний участник гонки вооружений LLM, инициированной OpenAI GPT-3, глубокой нейронной сетью со 175 миллиардами параметров. GPT-3 показал, что LLM могут выполнять несколько задач без дополнительного обучения и без рассмотрения только нескольких примеров (обучение с нулевым или несколькими выстрелами). Позже Microsoft интегрировала GPT-3 во многие свои продукты, демонстрируя не только научные, но и коммерческие перспективы LLM.

Как следует из названия модели, уникальность OPT-175b заключается в стремлении META к «открытости». Meta сделала модель общедоступной (с некоторыми оговорками). Он также опубликовал массу подробностей о процессе обучения и развития. В сообщении, опубликованном в блоге Meta AI, компания описала выпуск OPT-175B как «демократический доступ к языковой модели в масштабе».

Стремление META к прозрачности заслуживает похвалы. Однако конкуренция в отношении более широкой языковой модели достигла точки, когда ее больше нельзя демократизировать.

Релиз Meta OPT-175B имеет некоторые ключевые особенности. Сюда входит как код, необходимый для обучения и использования LLM, так и предварительно обученная модель. Предварительно обученные модели особенно полезны для организаций, у которых нет вычислительных ресурсов для обучения моделей (обучение нейронных сетей требует гораздо больше ресурсов, чем их запуск). Это также поможет уменьшить углеродный след в основном за счет вычислительных ресурсов, необходимых для обучения больших нейронных сетей.

Как и GPT-3, OPT бывает разных размеров, от 125 миллионов до 175 миллиардов параметров (модели с большим количеством параметров имеют больший потенциал обучения). На момент написания этой статьи все модели вплоть до OPT-30B доступны для загрузки. Полная модель со 175 миллиардами параметров будет доступна для избранных исследователей и учреждений, заполнивших форму запроса.

Согласно блогу Meta AI: «Чтобы сохранить целостность и предотвратить злоупотребления, мы выпускаем нашу модель под некоммерческой лицензией, чтобы сосредоточиться на исследовательских вариантах использования. Доступ к модели предоставляется академическим исследователям». Те, кто связан с правительственными организациями, гражданским обществом и академическими кругами, а также с отраслевыми исследовательскими лабораториями по всему миру.

В дополнение к моделям META выпустила полный журнал, в котором представлена подробная техническая хронология процесса разработки и обучения больших языковых моделей. Опубликованные статьи обычно содержат информацию только об окончательной модели. Согласно Meta, бортовой журнал «дает ценную информацию о том, сколько вычислений было использовано для обучения OPT-175B, и о необходимости человеческих ресурсов, когда базовая инфраструктура или масштаб процесса обучения становятся нестабильными»

В своем сообщении в блоге Meta заявляет, что большие языковые модели в основном доступны через «платные API» и что ограниченный доступ к LLM «ограничивает способность исследователей понять, как и почему работают эти большие языковые модели. . и уменьшить известные проблемы, такие как предвзятость и токсичность».

Это удар по OpenAI (и, соответственно, Microsoft), которая выпустила GPT-3 в качестве службы API «черного ящика», вместо того, чтобы сделать вес модели и исходный код общедоступными. Одна из причин, по которой OpenAI просила не публиковать GPT-3, заключалась в контроле за развитием злоупотреблений и вредоносных приложений.

META считает, что, сделав модели доступными для более широкой аудитории, они смогут лучше изучить их и предотвратить любой вред, который они могут причинить.

Вот как Meta описывает свои усилия: «Мы надеемся, что OPT-175b привнесет больше голоса в пределы построения более крупной языковой модели, поможет сообществу коллективно разработать ответственные стратегии выпуска, а помощь большинству добавит беспрецедентный уровень прозрачности и открытости в разработка масштабной языковой модели в регионе».

Однако стоит отметить, что «прозрачность и открытость» не означает «демократизацию модели большого языка». Стоимость обучения, настройки и запуска больших языковых моделей остается непомерно высокой и, вероятно, возрастет в будущем.

Согласно сообщению в блоге Meta, его исследователям удалось значительно снизить стоимость обучения больших языковых моделей. Компания заявляет, что углеродный след модели сократился до одной седьмой от GPT-3. Эксперты, с которыми я разговаривал, ранее оценивали стоимость обучения для GPT-3 до 27.6 млн долларов.

Это означает, что обучение ОПТ-175Б все равно обойдется в несколько миллионов долларов. К счастью, предварительно обученная модель избавит от необходимости обучать модель, и Meta заявляет, что предоставит кодовую базу, используемую для обучения и развертывания полной модели, «используя только 16 графических процессоров NVIDIA V100». Это сопоставимо с Nvidia DGX-2, который стоит около 400,000 175 долларов, что немало для исследовательской лаборатории с ограниченными денежными средствами или отдельного исследователя. (Согласно документу, в котором содержится более подробная информация об Opt-992B, Meta обучила свою собственную модель с 80 графическими процессорами A100 емкостью 100 ГБ, которые значительно быстрее, чем VXNUMX.)

Журнал Meta AI также подтверждает, что обучение больших языковых моделей — очень сложная задача. Временная шкала OPT-175B чревата сбоями серверов, аппаратными сбоями и другими осложнениями, для решения которых требуется высокотехнический персонал. Исследователям пришлось несколько раз перезапускать процесс обучения, меняя гиперпараметры и функции потерь. Все это связано с дополнительными затратами, которые небольшие лаборатории не могут себе позволить.

https://i0.wp.com/bdtechtalks.com/wp-content/uploads/2021/09/tech-giants-artificial-intelligence.jpg?resize=696%2C392&ssl=1
Такие языковые модели, как OPT и GPT, основаны на архитектуре преобразователя. Одной из ключевых особенностей преобразователей является их способность обрабатывать большие последовательные данные (например, текст) параллельно и в масштабе.

В последние годы исследователи показали, что, добавляя больше слоев и параметров к моделям преобразователя, они могут повысить свою производительность при выполнении языковых задач. Некоторые исследователи считают, что достижение высокого уровня интеллекта — это всего лишь проблема масштаба. Соответственно, богатые деньгами исследовательские лаборатории, такие как Meta AI, DeepMind (принадлежащая Alphabet) и OpenAI (при поддержке Microsoft), движутся к созданию все более и более крупных нейронных сетей.

В прошлом году Microsoft и Nvidia создали 530-миллиардную параметризованную языковую модель под названием Megatron-Turing (MT-NLG). В прошлом месяце Google представил модель Pathway Language Model (PaLM), LLM с 540 миллиардами параметров. И ходят слухи, что OpenAI выпустит GPT-4 в ближайшие несколько месяцев.

Однако большие нейронные сети также требуют больших финансовых и технических ресурсов. И хотя у более крупных языковых моделей появятся новые навороты (и новые неудачи), они неизбежно приведут к централизации власти в руках нескольких богатых компаний, что еще больше затруднит работу небольших исследовательских лабораторий и независимых исследователей над более крупными языковыми моделями. Будет сделано.

С точки зрения бизнеса крупные технологические компании выиграют еще больше. Запускать большие языковые модели очень дорого и сложно. Такие компании, как Google и Microsoft, имеют специализированные серверы и процессоры, которые позволяют им запускать эти модели в больших масштабах и с прибылью. Для небольших компаний накладные расходы на запуск собственной версии LLM, такой как GPT-3, непомерно высоки. Так же, как большинство предприятий используют услуги облачного хостинга, а не настраивают свои собственные серверы и центры обработки данных, готовые системы, такие как API GPT-3, будут набирать популярность по мере роста популярности более крупных языковых моделей. .

Это, в свою очередь, приведет к дальнейшей централизации ИИ в руках крупных технологических компаний. Большему количеству исследовательских лабораторий ИИ придется сотрудничать с крупными технологиями, чтобы финансировать свои исследования. И это даст крупным технологиям больше возможностей для определения будущих направлений исследований ИИ (которые, вероятно, будут соответствовать их финансовым интересам). Это может произойти за счет областей исследований, которые не приносят краткосрочной отдачи от инвестиций.

Суть в том, что, отмечая шаг META по обеспечению прозрачности для LLM, давайте не будем забывать, что модель большого языка недемократична по своей природе и отдает предпочтение тем же компаниям, которые их продвигают.

Эта статья была первоначально написана Беном Диксоном и опубликована Беном Диксоном на TechTalk, публикации, в которой исследуются технологические тенденции, их влияние на наш образ жизни и ведение бизнеса, а также на то, что они делают. решать проблемы. Но мы также обсуждаем плохую сторону технологий, более глубокие последствия новых технологий и то, на что нам нужно обратить внимание. Вы можете прочитать оригинальную статью здесь.

Источник
https://thenextweb.com/news/dont-expect-large-language-models-like-the-next-gpt-to-be-democratized

Современные модели и технологии NLU

Современные модели

Современные модели и технологии NLU

Современные модели

Современные модели и технологии NLU

Современные модели

Современные модели и технологии NLU

Современные модели

Рекомендуемые материалы

https://habr.com/ru/company/just_ai/blog/364149/

https://habr.com/ru/post/271321/

https://neurohive.io/ru/osnovy-data-science/5-metodov-v-nlp-kotorye-izmenjat-obshhenie-v-budushhem/

https://habr.com/ru/company/sberdevices/blog/527576/

https://habr.com/ru/company/mipt/blog/527670/

https://habr.com/ru/company/sberdevices/blog/560748/

https://habr.com/ru/company/mipt/blog/478358/

https://habr.com/ru/company/ru_mts/blog/451008/

https://habr.com/ru/company/lanit/blog/528652/

https://habr.com/ru/company/just_ai/blog/364149/

https://habr.com/ru/company/microsoft/blog/537992/

Android: как подружить ваше приложение с Google Ассистентом?
Когда пользователь что-то говорит, Google Ассистент понимает это с помощью natural language understanding (NLU). NLU преобразует человеческую речь в специальную структуру данных, которую уже можно обработать.

Мелани Митчелл: что для ИИ значит понимать?
https://habr.com/ru/company/skillfactory/blog/597253/
Автор оригинала: Melanie Mitchell What Does It Mean for AI to Understand?
https://www.quantamagazine.org/what-does-it-mean-for-ai-to-understand-20211216/

Помните суперкомпьютер IBM Watson, победителя телешоу Jeopardy!?!

В анонсе 2010 года говорилось: «Watson понимает естественный язык со всей его неоднозначностью и сложностью».

Но, когда Watson потерпел грандиозную неудачу, пытаясь «с помощью ИИ совершить революцию в медицине», стало очевидно: внешние лингвистические возможности не дают настоящего понимания человеческого языка.

Понимание естественного языка давно стало главной целью исследований ИИ. Сначала учёные пытались вручную запрограммировать всё необходимое, чтобы машина понимала новостные сообщения, художественную литературу и всё, что могут написать люди.

Такой подход, как показал Watson, бесполезен — записать все факты, правила и предположения, необходимые для понимания текста, невозможно. Совсем недавно появился новый подход: не закладывать в машины знания, а давать им самим учиться понимать язык, поглощая огромное количество написанного текста и предсказывая слова.

В результате получается то, что учёные называют языковой моделью. Основанные на больших нейронных сетях типа GPT-3 от OpenAI такие модели могут генерировать прозу (и поэзию!), удивительно похожую на человеческую, и даже делать сложные лингвистические умозаключения.

Но превзошла ли GPT-3, обученная на текстах с тысяч сайтов, книг и энциклопедий, Watson с его внешними лингвистическими возможностями? Действительно ли она понимает и даже рассуждает на генерируемом ею языке?

Это тема серьёзных разногласий в сообществе исследователей ИИ. Раньше такие дискуссии были прерогативой философов, но в последнее десятилетие ИИ вырвался из академического пузыря в реальный мир. И его непонимание этого мира может иметь реальные, а подчас разрушительные последствия.

В одном исследовании обнаружено, что компьютер IBM Watson предлагает «много примеров небезопасных и неправильных рекомендаций по лечению». В другом исследовании показывалось, что система машинного перевода Google допускала существенные ошибки при переводе медицинских инструкций для неанглоязычных пациентов.

Как определить на практике, может ли машина понимать? В 1950 году пионер вычислительной науки Алан Тьюринг попытался ответить на этот вопрос с помощью своей знаменитой «имитационной игры», которая теперь называется тестом Тьюринга: судья-человек на основе только беседы, не видя, кто перед ним, пытается определить, с машиной он говорит или с человеком. Если судья не смог определить, кто человек, то, как утверждал Тьюринг, мы должны считать, что машина мыслит, а значит — понимает.

Но Тьюринг не учёл, что машины могут вводить людей в заблуждение. Даже простые чат-боты 1960-х годов, такие как психотерапевт Элиза Джозефа Вайценбаума, убеждали людей, что они разговаривают с понимающим существом, даже когда люди знали, что их собеседник — машина.

В работе 2012 года учёные Эктор Левеск, Эрнест Дэвис и Леора Моргенштерн предложили более объективный тест — схему Винограда.

Этот тест принят в языковом сообществе ИИ как один из способов оценить понимание машин (возможно, лучший способ, хотя, как мы увидим, неидеальный). Схема Винограда, названная так в честь исследователя языка Терри Винограда, состоит из пары предложений, которые отличаются ровно одним словом. За каждым из предложений следует вопрос. Вот два примера:

Предложение 1. Я наливал воду из бутылки в чашку, пока она не наполнилась.

Вопрос. Что наполнилось, бутылка или чашка?

Предложение 2. Я наливал воду из бутылки в чашку, пока она не стала пустой.

Вопрос. Стала пустой бутылка или чашка?

Предложение 1. Дядя Джо ещё может обыграть его в теннис, хотя он на 30 лет старше.

Вопрос. Кто старше, Джо или дядя Джо?

Предложение 2. Дядя Джо ещё может обыграть его в теннис, хотя он на 30 лет моложе.

Вопрос. Кто моложе, Джо или дядя Джо?

NLU в преподавании ...

Осмысленный ответ на вопрос о применении NLU (NLG, NLP, AI, чего угодно из компьютерной лингвистики) в преподавании иностранных языков требует учитывать контексты (социальный, культурный, исторический, ....).

Следует различать применение:

в будущем мире говорящих вещей, где непосредственная коммуникации человека с человеком... все реже, все меньше, роскошь ... для немногих ценителей

в настоящем (таком разном... в Москве и Бресте ))

в прошлом (в котором продолжает жить (и учить прошлой жизни) до 70% населения ...
рождаясь, проживая и умирая не приходя в сознание ((

Сладких снов )))

NLU в преподавании ...

Тест: способны ли вы понимать тексты
https://iq.hse.ru/news/517500620.html

Самая суть

Образование - обретение способности без подготовки эффективно решать любые неожиданные проблемы с пользой для семьи, страны, человечества и без вреда для окружающей среды ))