Large Language Models
(черновик) |
OpenAI
OpenAI
планирует заработать $200 млн в 2023 и $1 млрд в 2024 (за счёт
компаний, которые используют её технологии, взимая с разработчиков
около $0,01 за генерирование текста в 20 000 слов и около $0,04 за
создание изображения по запросу).
Брэд Смит (президент Microsoft, вложившей в OpenAI $1 млрд): ИИ
развивается быстрее, чем многие предсказывали. В 2023 году мы увидим
успехи, которых люди ещё два года назад ждали не раньше 2033 года.
Это будет очень важно не только для Microsoft, но и для будущего
всех.
OpenAI была недавно оценена в $20 млрд в ходе вторичной продажи
акций.
Гендиректор и сооснователь компании Сэм Альтман назвал операционные
расходы компании «ошеломляющими».
Microsoft обдумывает возможность увеличения своей доли в OpenAI и
надеется стимулировать использование ИИ для бизнеса через облачные
сервисы Microsoft.
|
PaLMе
(от Google AI)
20.04.2022
Google AI представила языковую модель PaLM на базе ИИ с 540 миллиардами
параметров. Она умеет пояснять шутки (Илон Маск назвал это «поразительно
несмешным»)
ИИ-система генерации текстов
OpenAI GPT-3 впервые показала, что большие языковые модели (LLM) могут
достичь впечатляющих результатов даже без масштабного сбора данных под
конкретные задачи или обновления параметров модели.
Еще
более впечатляющих результатов
доблились более поздние LLM, такие как:
-
GLaM,
-
LaMDA,
-
Gopher
-
Megatron-Turing
В 2021 году команда Google
Research объявила о разработке Pathways — единой модели, которая может
обобщать домены и задачи, и в то же время быть высокоэффективной. И в
апреле 2022 года сообщили о прорыве в создании архитектуры
искусственного интеллекта (ИИ), способной решать миллионы различных
задач, включая сложное обучение, рассуждения и способность пояснять
шутки. Новая языковая система имеет 540 миллиардов параметров и
называется PaLM (Pathways Language Model).
Разработчики оценили способности
PaLM на сотнях задач понимания и генерации языка и обнаружили, что она
обеспечивает «современную производительность», во многих случаях со
значительным отрывом от других подобных систем.
PaLM умеет математически
логически рассуждать, поясняя свои действия, писать код и даже объяснять
свое понимание шуток, которые были придуманы на ходу и их нельзя найти в
интернете.
Основатель компаний SpaceX,
Neuralink и The Boring Company, управляющий заводом Tesla Илон Маск
прокомментировал пример с пояснением шутки PaLM, назвав ее «поразительно
несмешной».
|
Понимание
понимания в КЛ
Технологическая дефиниция:
Ганегедара Т.
(Обработка естественного
языка с TensorFlow / М.: ДМК Пресс,
2020. – 382 с.):
Васильев Юлий
Обработка естественного языка. Python и spaCy на практике. — СПб.:
Питер, 2021. — 256 с.
|
С емиотика
= синтактика +
семантика + прагматика
-
Синтактика - отношения
между знаками, порождающие тексты.
-
Семантика -
отношения знаков к тому, что они обозначают
(уровень распознавания значений)
Прагматика -
отношения знак-субъект (уровень понимания смыслов).
С мысл
зависит от намерений и целей коммуникантов,
их коммуникативных интенций в ситуативно изменяющихся отношенях
субъект– знак (человек-знак) или актор-знак (машина-знак).
|
NLU в стеке
технологий ИИ
Natural-language understanding (NLU)
- область NLP (Natural-language processing),
с пониманием текста.
https://en.wikipedia.org/wiki/Natural-language_understanding
Natural Language Processing
(NLP) — общее направление искусственного интеллекта и компьютерной
лингвистики, изучающее все проблемы компьютерного моделирования (анализа и синтеза)
текстов на естественных языках.
Упрощенно можно представить: NLP
=
ASR
+
NLU
+ NLG +
NLI
-
ASR
(Automatic Speech Recognition) — технологии
автоматического распознавания речи
-
NLU (Natural-language
understanding) - технологии понимания текстов на
естественном языке
-
NLG (Natural
Language Generation) - технологии генерации
текстов на естественном языке
Текстов - связных, осмысленных, произвольных (по заданным
тематикам)
-
NLI
(Natural
Language Inference)
–
технологии автоматического определения логической связи между
текстами.
|
NLU как AI-полная
задача
NLU
является важнейшей проблемой AI (Artificial
intelligence, ИИ, искусственного
интеллекта)
NLU
(понимание естественного языка) считается AI-полной задачей
AI-полная задача (AI-complete)
— проблема, решение которой предполагает создание «сильного AI»
(«действительно мыслящего» агента).
Термин «сильный ИИ» введён в 1980 году Джоном Сёрлом («Китайская
комната»):
-
The appropriately
programmed computer really is a mind, in the sense that
computers given the right programs can be literally said
to understand and have other cognitive states.
-
Соответствующим образом
запрограммированный компьютер с нужными входами и
выходами и будет разумом, в том смысле, в котором
человеческий разум — это разум.
Само определение
смысла слова «понимать» — одна из главных задач AI |
AI-полная задачи:
-
не могут быть
решены алгоритмически.
-
легко решаются
человеком в контексте сложнейшей
системы отношений человеческих поняти
-
требуют огромных знаний системы об
окружающем мире и возможности с ним взаимодействовать, в т.ч. неявных
(не осознаваемых) и неформализуемых.
|
Области
применения
NLU
NLU является необходимым
элементом множества областей лингвистического компьютерного
моделирования:
-
систем
поддержания диалога,
-
автогенерации связного осмысленного текста,
сервисов автоматизированного рассуждения,
рекомендательных
сервисов,
машинного перевода,
сантимент-анализа (анализа тональности, эмоциональной окраски),
суммаризации (автореферирования),
вопросно-ответных систем,
агрегации
(автоматического сбора) новостей,
категоризации текста,
активации
голоса,
контент-анализа
.....
|
Лингвистические (и не только) проблемы
NLU
Примеры лингвистических проблем
для машинного понимания:
анафор (распознавание, что имеется в виду при
использовании местоимений):
Предложения «Мы отдали бананы обезьянам,
потому что они были голодные» и «Мы отдали бананы обезьянам, потому что
они были перезрелые» похожи по синтаксической структуре. В одном из них
местоимение они относится к обезьянам, а в другом — к бананам.
Правильное понимание зависит от знаний компьютера, какими могут быть
бананы и обезьяны.
«Бытие определяет сознание» — что определяет что?
«Серый волк в глухом
лесу встретил рыжую
лису» выделенные слова слышатся
одинаково, и без знания, кто глухой, а кто рыжий, не обойтись (лиса и лес
могут быть глухими и
рыжими).
-
Импликатура —
небуквальная часть значения текста, когда информация присутствует в
тексте в скрытом виде, но при этом явно не выражается (адресат
делает вывод сам), то, что «имелось в виду» (в противоположность
тому, что было сказано)
https://ru.wikipedia.org/wiki/Импликатура
-
Пресуппозиции —
необходимые семантические компоненты, обеспечивающие наличие смысла
в утверждении (как компонент смысла текста, являющийся
предварительным знанием, без которого нельзя адекватно воспринять
текст).
https://ru.wikipedia.org/wiki/Пресуппозиция
См:
СЕМАНТИЧЕСКАЯ БЕЗДНА )) |
Достижения NLU ))
Open Pretrain
Transformer (OPT-175B)
В мае 2022 Meta выпустила Open Pretrain
Transformer (OPT-175B), большую языковую модель (LLM), которая может
выполнять множество задач.
OPT-175B — последний
участник гонки вооружений LLM, инициированной OpenAI GPT-3, глубокой
нейронной сетью со 175 миллиардами параметров. GPT-3 показал, что
LLM могут выполнять несколько задач без дополнительного обучения и
без рассмотрения только нескольких примеров (обучение с нулевым или
несколькими выстрелами). Позже Microsoft интегрировала GPT-3 во
многие свои продукты, демонстрируя не только научные, но и
коммерческие перспективы LLM.
Как следует из названия
модели, уникальность OPT-175b заключается в стремлении META к «открытости».
Meta сделала модель общедоступной (с некоторыми оговорками). Он
также опубликовал массу подробностей о процессе обучения и развития.
В сообщении, опубликованном в блоге Meta AI, компания описала выпуск
OPT-175B как «демократический доступ к языковой модели в масштабе».
Стремление META к
прозрачности заслуживает похвалы. Однако конкуренция в отношении
более широкой языковой модели достигла точки, когда ее больше нельзя
демократизировать.
Релиз Meta OPT-175B имеет
некоторые ключевые особенности. Сюда входит как код, необходимый для
обучения и использования LLM, так и предварительно обученная модель.
Предварительно обученные модели особенно полезны для организаций, у
которых нет вычислительных ресурсов для обучения моделей (обучение
нейронных сетей требует гораздо больше ресурсов, чем их запуск). Это
также поможет уменьшить углеродный след в основном за счет
вычислительных ресурсов, необходимых для обучения больших нейронных
сетей.
Как и GPT-3, OPT бывает разных размеров, от 125 миллионов до 175
миллиардов параметров (модели с большим количеством параметров имеют
больший потенциал обучения). На момент написания этой статьи все
модели вплоть до OPT-30B доступны для загрузки. Полная модель со 175
миллиардами параметров будет доступна для избранных исследователей и
учреждений, заполнивших форму запроса.
Согласно блогу Meta AI: «Чтобы сохранить целостность и предотвратить
злоупотребления, мы выпускаем нашу модель под некоммерческой
лицензией, чтобы сосредоточиться на исследовательских вариантах
использования. Доступ к модели предоставляется академическим
исследователям». Те, кто связан с правительственными организациями,
гражданским обществом и академическими кругами, а также с
отраслевыми исследовательскими лабораториями по всему миру.
В дополнение к моделям META выпустила полный журнал, в котором
представлена подробная техническая хронология процесса разработки
и обучения больших языковых моделей. Опубликованные статьи обычно
содержат информацию только об окончательной модели. Согласно Meta,
бортовой журнал «дает ценную информацию о том, сколько вычислений
было использовано для обучения OPT-175B, и о необходимости
человеческих ресурсов, когда базовая инфраструктура или масштаб
процесса обучения становятся нестабильными»
В своем сообщении в блоге
Meta заявляет, что большие языковые модели в основном доступны через
«платные API» и что ограниченный доступ к LLM «ограничивает
способность исследователей понять, как и почему работают эти большие
языковые модели. . и уменьшить известные проблемы, такие как
предвзятость и токсичность».
Это удар по OpenAI (и, соответственно, Microsoft), которая выпустила
GPT-3 в качестве службы API «черного ящика», вместо того, чтобы
сделать вес модели и исходный код общедоступными. Одна из причин, по
которой OpenAI просила не публиковать GPT-3, заключалась в контроле
за развитием злоупотреблений и вредоносных приложений.
META считает, что, сделав модели доступными для более широкой
аудитории, они смогут лучше изучить их и предотвратить любой вред,
который они могут причинить.
Вот как Meta описывает свои усилия: «Мы надеемся, что OPT-175b
привнесет больше голоса в пределы построения более крупной языковой
модели, поможет сообществу коллективно разработать ответственные
стратегии выпуска, а помощь большинству добавит беспрецедентный
уровень прозрачности и открытости в разработка масштабной языковой
модели в регионе».
Однако стоит отметить, что «прозрачность и открытость» не означает «демократизацию
модели большого языка». Стоимость обучения, настройки и запуска
больших языковых моделей остается непомерно высокой и, вероятно,
возрастет в будущем.
Согласно сообщению в блоге Meta, его исследователям удалось
значительно снизить стоимость обучения больших языковых моделей.
Компания заявляет, что углеродный след модели сократился до одной
седьмой от GPT-3. Эксперты, с которыми я разговаривал, ранее
оценивали стоимость обучения для GPT-3 до 27.6 млн долларов.
Это означает, что обучение ОПТ-175Б все равно обойдется в несколько
миллионов долларов. К счастью, предварительно обученная модель
избавит от необходимости обучать модель, и Meta заявляет, что
предоставит кодовую базу, используемую для обучения и развертывания
полной модели, «используя только 16 графических процессоров NVIDIA
V100». Это сопоставимо с Nvidia DGX-2, который стоит около 400,000
175 долларов, что немало для исследовательской лаборатории с
ограниченными денежными средствами или отдельного исследователя. (Согласно
документу, в котором содержится более подробная информация об
Opt-992B, Meta обучила свою собственную модель с 80 графическими
процессорами A100 емкостью 100 ГБ, которые значительно быстрее, чем
VXNUMX.)
Журнал Meta AI также подтверждает, что обучение больших языковых
моделей — очень сложная задача. Временная шкала OPT-175B чревата
сбоями серверов, аппаратными сбоями и другими осложнениями, для
решения которых требуется высокотехнический персонал. Исследователям
пришлось несколько раз перезапускать процесс обучения, меняя
гиперпараметры и функции потерь. Все это связано с дополнительными
затратами, которые небольшие лаборатории не могут себе позволить.
https://i0.wp.com/bdtechtalks.com/wp-content/uploads/2021/09/tech-giants-artificial-intelligence.jpg?resize=696%2C392&ssl=1
Такие языковые модели, как OPT и GPT, основаны на архитектуре
преобразователя. Одной из ключевых особенностей преобразователей
является их способность обрабатывать большие последовательные данные
(например, текст) параллельно и в масштабе.
В последние годы исследователи показали, что, добавляя больше слоев
и параметров к моделям преобразователя, они могут повысить свою
производительность при выполнении языковых задач. Некоторые
исследователи считают, что достижение высокого уровня интеллекта —
это всего лишь проблема масштаба. Соответственно, богатые деньгами
исследовательские лаборатории, такие как Meta AI, DeepMind (принадлежащая
Alphabet) и OpenAI (при поддержке Microsoft), движутся к созданию
все более и более крупных нейронных сетей.
В прошлом году Microsoft и Nvidia создали 530-миллиардную
параметризованную языковую модель под названием Megatron-Turing
(MT-NLG). В прошлом месяце Google представил модель Pathway Language
Model (PaLM), LLM с 540 миллиардами параметров. И ходят слухи, что
OpenAI выпустит GPT-4 в ближайшие несколько месяцев.
Однако большие нейронные сети также требуют больших финансовых и
технических ресурсов. И хотя у более крупных языковых моделей
появятся новые навороты (и новые неудачи), они неизбежно приведут к
централизации власти в руках нескольких богатых компаний, что еще
больше затруднит работу небольших исследовательских лабораторий и
независимых исследователей над более крупными языковыми моделями.
Будет сделано.
С точки зрения бизнеса крупные технологические компании выиграют еще
больше. Запускать большие языковые модели очень дорого и сложно.
Такие компании, как Google и Microsoft, имеют специализированные
серверы и процессоры, которые позволяют им запускать эти модели в
больших масштабах и с прибылью. Для небольших компаний накладные
расходы на запуск собственной версии LLM, такой как GPT-3, непомерно
высоки. Так же, как большинство предприятий используют услуги
облачного хостинга, а не настраивают свои собственные серверы и
центры обработки данных, готовые системы, такие как API GPT-3, будут
набирать популярность по мере роста популярности более крупных
языковых моделей. .
Это, в свою очередь, приведет к дальнейшей централизации ИИ в руках
крупных технологических компаний. Большему количеству
исследовательских лабораторий ИИ придется сотрудничать с крупными
технологиями, чтобы финансировать свои исследования. И это даст
крупным технологиям больше возможностей для определения будущих
направлений исследований ИИ (которые, вероятно, будут
соответствовать их финансовым интересам). Это может произойти за
счет областей исследований, которые не приносят краткосрочной отдачи
от инвестиций.
Суть в том, что, отмечая шаг META по обеспечению прозрачности для
LLM, давайте не будем забывать, что модель большого языка
недемократична по своей природе и отдает предпочтение тем же
компаниям, которые их продвигают.
Эта статья была первоначально написана Беном Диксоном и опубликована
Беном Диксоном на TechTalk, публикации, в которой исследуются
технологические тенденции, их влияние на наш образ жизни и ведение
бизнеса, а также на то, что они делают. решать проблемы. Но мы также
обсуждаем плохую сторону технологий, более глубокие последствия
новых технологий и то, на что нам нужно обратить внимание. Вы можете
прочитать оригинальную статью здесь.
Источник
https://thenextweb.com/news/dont-expect-large-language-models-like-the-next-gpt-to-be-democratized
|
Современные модели и технологии NLU
Современные модели и технологии NLU
Современные модели и технологии NLU
Современные модели и технологии NLU
Рекомендуемые материалы
-
Android: как подружить ваше приложение
с Google Ассистентом?
Когда пользователь что-то говорит, Google Ассистент понимает
это с помощью natural language understanding (NLU). NLU
преобразует человеческую речь в специальную структуру данных,
которую уже можно обработать.
-
Мелани Митчелл: что для ИИ значит понимать?
https://habr.com/ru/company/skillfactory/blog/597253/
Автор оригинала: Melanie Mitchell What Does It
Mean for AI to Understand?
https://www.quantamagazine.org/what-does-it-mean-for-ai-to-understand-20211216/
-
Помните суперкомпьютер IBM Watson, победителя
телешоу Jeopardy!?!
В анонсе 2010 года говорилось: «Watson понимает
естественный язык со всей его неоднозначностью и
сложностью».
Но, когда Watson потерпел грандиозную неудачу,
пытаясь «с помощью ИИ совершить революцию в
медицине», стало очевидно: внешние
лингвистические возможности не дают настоящего
понимания человеческого языка.
Понимание естественного языка давно стало
главной целью исследований ИИ. Сначала учёные
пытались вручную запрограммировать всё
необходимое, чтобы машина понимала новостные
сообщения, художественную литературу и всё, что
могут написать люди.
Такой подход, как показал Watson, бесполезен —
записать все факты, правила и предположения,
необходимые для понимания текста, невозможно.
Совсем недавно появился новый подход: не
закладывать в машины знания, а давать им самим
учиться понимать язык, поглощая огромное
количество написанного текста и предсказывая
слова.
В результате получается то, что учёные называют
языковой моделью. Основанные на больших
нейронных сетях типа GPT-3 от OpenAI такие
модели могут генерировать прозу (и поэзию!),
удивительно похожую на человеческую, и даже
делать сложные лингвистические умозаключения.
Но превзошла ли GPT-3, обученная на текстах с
тысяч сайтов, книг и энциклопедий, Watson с его
внешними лингвистическими возможностями?
Действительно ли она понимает и даже рассуждает
на генерируемом ею языке?
Это тема серьёзных разногласий в сообществе
исследователей ИИ. Раньше такие дискуссии были
прерогативой философов, но в последнее
десятилетие ИИ вырвался из академического пузыря
в реальный мир. И его непонимание этого мира
может иметь реальные, а подчас разрушительные
последствия.
В одном исследовании обнаружено, что компьютер IBM Watson предлагает «много примеров
небезопасных и неправильных рекомендаций по
лечению». В другом исследовании показывалось,
что система машинного перевода Google допускала
существенные ошибки при переводе медицинских
инструкций для неанглоязычных пациентов.
Как определить на практике, может ли машина
понимать? В 1950 году пионер вычислительной
науки Алан Тьюринг попытался ответить на этот
вопрос с помощью своей знаменитой «имитационной
игры», которая теперь называется тестом
Тьюринга: судья-человек на основе только беседы,
не видя, кто перед ним, пытается определить, с
машиной он говорит или с человеком. Если судья
не смог определить, кто человек, то, как
утверждал Тьюринг, мы должны считать, что машина
мыслит, а значит — понимает.
Но Тьюринг не учёл, что машины могут вводить
людей в заблуждение. Даже простые чат-боты
1960-х годов, такие как психотерапевт Элиза
Джозефа Вайценбаума, убеждали людей, что они
разговаривают с понимающим существом, даже когда
люди знали, что их собеседник — машина.
В работе 2012 года учёные Эктор Левеск, Эрнест
Дэвис и Леора Моргенштерн предложили более
объективный тест — схему Винограда.
Этот тест принят в языковом сообществе ИИ как
один из способов оценить понимание машин
(возможно, лучший способ, хотя, как мы увидим,
неидеальный). Схема Винограда, названная так в
честь исследователя языка Терри Винограда,
состоит из пары предложений, которые отличаются
ровно одним словом. За каждым из предложений
следует вопрос. Вот два примера:
Предложение 1. Я наливал воду из бутылки в
чашку, пока она не наполнилась.
Вопрос. Что наполнилось, бутылка или чашка?
Предложение 2. Я наливал воду из бутылки в
чашку, пока она не стала пустой.
Вопрос. Стала пустой бутылка или чашка?
Предложение 1. Дядя Джо ещё может обыграть его в
теннис, хотя он на 30 лет старше.
Вопрос. Кто старше, Джо или дядя Джо?
Предложение 2. Дядя Джо ещё может обыграть его в
теннис, хотя он на 30 лет моложе.
Вопрос. Кто моложе, Джо или дядя Джо?
|
NLU в
преподавании ...
Осмысленный ответ на вопрос
о применении
NLU
(NLG,
NLP, AI,
чего угодно из компьютерной лингвистики) в преподавании
иностранных языков требует учитывать контексты (социальный,
культурный, исторический, ....).
Следует различать
применение:
-
в будущем
мире говорящих вещей, где непосредственная коммуникации
человека с человеком... все реже, все меньше, роскошь ...
для
немногих ценителей
-
в настоящем
(таком разном... в Москве и Бресте ))
-
в прошлом
(в котором продолжает жить (и учить прошлой жизни) до 70%
населения ...
рождаясь, проживая и умирая не приходя в сознание
((
Сладких снов
)))
|
NLU в
преподавании ...
Самая суть
Образование - обретение
способности без подготовки эффективно решать любые
неожиданные проблемы с пользой для семьи, страны,
человечества и без вреда для окружающей среды ))
|
|