Large Language Models (LLM)

 

 

 

  • Языковая модель

  • Дефиниция Large Language Mode (LLM)

  • Технологические предпосылки LLM

  • LLM и BigData

  • Современные LLM

  • Приминение LLM

  • Достижения LLM

  • Ограничения LLM

  • Проблемы LLM

  • LLM-cервисы

  • Prompt engineering


  • LLM в образовании

  • Гуманитарное значение LLM

  • Самая суть

 

Языковая модель

 

Языковая модель (в математике) —  вероятностное распределение на множестве словарных последовательностей.

Языковая модель — статистическая модель, которая определяет и назначает вероятности текстам и их элементам (словам/граммам/токенам,  коллокациям, предложениям, абзацам ...)

Языковая модель это математическая (статистическая, вероятностная) машина, которая производит (генерирует) тексты на основе текстов

 

О языковых моделях здесь

 

Нейросетевая языковая модель — языковая модель, основанная на нейронных сетях, обученных предсказывать следующее слово (токен, грамм, символ) в тексте с учетом предыдущего контекста.

 

 

Дефиниция LLM

 

Большая языковая модель (LLM, Large Language Model) — языковая модель, которая:

  • основана на многослойной искусственной нейронной сети,

  • имеющей множество параметров (триллионы),

  • отимизирована для решения языковых задач (NLP),

  • на огромном числе текстовых данных (Петабайты),

  • преимущественно не размеченных (на 99%, кто разметит петабайты?),

  • по технологиям глубокого обучения без учителя

 

Unsupervised learning (обучение без учителя, самообучение, спонтанное обучение) — самая прогрессивная на сегодняшний день технология машинного обучения.

Unsupervised learning - наше всё (скоро))

 


О нейронных сетях, машинном и глубоком обучении здесь:

 

Large Language Models в Wikipedia

Статья создана 15:43, 9 March 2023‎

Статья создана  09:54, 16 марта 2023‎

 

 

Технологические предпосылки LLM

 

LLM стали возможны благодаря чудесному сочетанию ряда технологических решений:

  • созданию больших (огромных) электронных корпусов текстовых данных (на которых стало возможно обучать LLM)

  • развитию технологий анализа, разметки и обработки данных (необходимых для подготовки данных к обучению)

  • прогрессу микропроцессорной техники (графических ускорителей, тензорных процессоров), что многократно ускорило и удешевило обучение больших нейросетей

  • появлению новых архитектур искусственных нейронных сетей, что сделало возможным и оправданным (экономически, научно, экспериментально) их обучение решению языковых задач

    оптимизации технологий машинного глубокого обучения, что многократно повысило результативность обучения и уровень достигаемых результатов.

    подробнее в 7+

 

LLM и BigData

 

Large Language Models могут быть определены как языковые модели эпохи BigData

 

О больших данных здесь

Big Data  – о выживании в ситуациивзрывного роста
и изменения огромных объемов разнообразных данных

 

LLM порождены эпохой больших данных (технологии, на которых они основаны сформированы для работы с большими данными)

LLM обучаются на больших данных (только гиганские корпуса данных позволяют получить приемлемый результат обучения нейросетей)

LLM призваны стать уникальным инструментом решения проблем, возникших в связи с взрывным ростом данных, который стал несоразмерен человеческим возможностям

LLM, являясь мощнейшим генератом контента становятся одним из важнейших источников больших данных

LLM нуждаются для своего развития и совершенствования во все большем числе разнообразных данных


 

LLM могут и должны быть поняты  и определены в контексте BigData

LLM    языковые модели, которые основаны и обучены на данных:

  • огромных объёмов ()

  • быстро растущих (Velocity)

  • разнообразных (Variety)

  • достоверность (Veracity)

  • ценных (Value)

  • изменчивых (Variability)

  • мультимодальных (Multimodal)

 

Эксперименты с RETRO Transformer от DeepMind и WebGPT от OpenAI показали, что для повышения характеристик LLM большие данные более важны, чем масштабирование (увеличение) нейронных сетей. Даже небольшие генеративные языковые модели могут работать наравне с большими, если мы дополняем их возможностью самим искать и запрашивать необходимые данные ... огромных объемов, разнообразные +++

 

Задача Big Data и LLM – помочь справиться с вызовом взрывного ускоряющегося роста объема  и разнообразия данных

Все характеристики Big Data тесной взаимосвязаны, системно меняются и переосмысливаются

Так и с характеристиками LLM

Что такое Big data пока не очень понятно (тем, кто понимает!), так и с LLM

Понятие Big data, как и LLM в стадии активного формирования и основные открытия впереди

Big data плохо справляются со своими задачами, но справляются (хоть как, с помощью LLM)

 

Современные LLM

 

К наиболее известным LLM относят:

  • GPT-4 (OpenAI)  существенно превосходит GPT-3

    • Способна принимать на вход изображения

    • Анализирует, читает и генерирует до 25 000 слов

    • Бенчмарк HellaSwag (система суждений, основанных на здравом смысле) показал, что GPT-4 уже достиг человеческого уровня рассуждений

    • Значительно лучше своего предшественника обрабатывает инструкции по программированию

    • Управляема (настроить поведение модели можно с помощью системного сообщения)

    • GPT-4 ограничивает возможность вредоносных ответов и отказывается отвечать на запросы, связанные с запрещенным контентом.

    • GPT-4: Чему научилась новая нейросеть, и почему это немного жутковато

    • 5 ways GPT-4 outsmarts ChatGPT

    • GPT-5 OpenAI планирует выпустить в конце 2023 года

  • BLOOM  многоязычная модель с открытым исходным кодом разработана свободным консорциумом более чем из 1000 исследователей искусственного интеллекта. Среди участников проекта есть и российские ученые: свой вклад в разработку внесли сотрудники научной группы «NLP» Института искусственного интеллекта AIRI и их коллеги из команды AGI NLP SberDevices.

  • BlenderBot3 (Meta) общедоступный чат-бот, выпущенный с кодом и данными для использования.

  • MT-NLG (Microsoft и Nvidia) одна из крупнейших моделей для понимания прочитанного и вывода на естественном языке. Исходный код и данные для работы находятся в открытом доступе.

  • Sparrow (DeepMind) диалоговый агент, обученный на основе обратной связи от пользователя. Создан с целью снизить риск появления небезопасных и неуместных ответов, но пока еще закрыт для пользователей.

  • LaMDA (Google) модель, что убедила инженера в своей разумности. В маркетплейсе приложений Google Play доступна лишь AI Test Kitchen — сильно ограниченная демоверсия модели. Несмотря на это, именно LaMDA станет основой для конкурента ChatGPT Bard.

  • PaLM (Google) обучена на 540 млрд параметров и, по словам создателей, обеспечивает очень высокую производительность. Доступна только для разработчиков корпорации.

  • OpenAssistant (LAION) модель, над развитием которой прямо сейчас работает открытое сообщество исследователей ИИ, специалистов Data Science и программистов. Авторы хотят сделать диалоговый бот не только открытым, но и достаточно компактным для работы на домашних компьютерах и телефонах.

    https://laion.ai/  +  https://github.com/LAION-AI/Open-Assistant/

 


 

  • YaLM 100B (Яндекс ) LLM для генерации и обработки текстов на русском и английском языках. Модель содержит 100 млрд параметров и является самой большой из существующих для русского языка. В ходе обучения YaLM 100B обработала около 2 ТБ текстов из наборов данных и интернета на английском и русском языках. Яндекс уже использует данную модель в более чем 20 проектах.

  • ruGPT-3 (Сбер) LLM для продолжения текстов на русском и английском языках.

    • 760 миллионов параметров (ruGPT-3 Large).

    • 1.3 млрд параметров (ruGPT-3 XL).

    • Длина контекста — 2048

    • Перплексия на тестовой выборке — ruGPT-3 Large 13.6, ruGPT-3 XL 12.05

    Нейросеть обучена на более чем 600 Гб открытых данных: википедии, художественной литературе, диалогах, программном коде.

    Нейросеть демонстрирует state-of-the-art возможности для русского языка и умеет продолжать любой текст.

    Результат, который будет получен с помощью применения модели, не может быть предсказан заранее.

    https://sbercloud.ru/ru/datahub/rugpt3family/demo-ru-gpt3-xl

    подробнее в 7+

 

Применение LLM

 

Сферы, способы и характер применения LLM находится в стадии изучения и формирования, оценки рисков (экономических, политических, идеологических, психологических, социальных) и возможных перспектив.

В закрытых средах разработчиков, инвесторов и корпоративных клиентов LLM используются  в качестве:

  • объекта изучения

  • инструмента автоматизации решения интеллектуальных задач

  • средства исследования:

  • языка,

  • коммуникации (речевой, удаленной, манипулятивной, мультимодальной),

  • психолингвистической проблематики

  • управления вниманием и потребностями пользователей

В открытых пользовательских средах, посредством LLM-сервисов, LLM нашли широкое применение

  • в стандартных задачах NLP (поддержании диалогов, автогенерации текстов, автореферировании, переводе, поиске информации, ответах на вопросы и др.

  • в самовыражении и самоутверждении пользователей (ох,... да...)

  • в джейлбрейке  (обходе заложенных в них ограничений и программных инструкций посредством специально подобранных фраз и управления диалогом)

  • в тестировании их на наличие "искр универсального ИИ" ))

подробнее в 7+

 

Достижения LLM

 

LLM продемонстрировал неожиданно высокие достижения в различных областях работы с текстом:

  • решении математических и логических задач

  • генерации текстов учебных заданий  и дипломных работ

  • успешном прохождении экзаменационных квалификационных испытаний (в юридической, медицинской, управленческой и литературной областях)

  • написании книг (в том числе художественных, в разных стилях и для различной целевой аудитории)

  • разработке учебных материалов

  • написании научных статей

  • изобретении и программировании логических игр

  • разработке и создании сайтов

  • ......  .... ..... подробнее в 7+

     

 

Ограничения LLM

 

LLM продемонстрировал неожиданно высокие достижения в различных областях работы с текстом:

  • решении математических и логических задач

  • генерации текстов учебных заданий  и дипломных работ

  • успешном прохождении экзаменационных квалификационных испытаний (в юридической, медицинской, управленческой и литературной областях)

  • написании книг (в том числе художественных, в разных стилях и для различной целевой аудитории)

  • разработке учебных материалов

  • написании научных статей

  • изобретении и программировании логических игр

  • разработке и создании сайтов

  • ......  .... ..... подробнее по теме в 7+

     

 

Проблемы с LLM (с решениями)

 

Проблемы, возникающие с LLM можно разделить на категории:

  • Собственные проблемы LLM:

    • они "галлюцинируют" (почти как мы) и самоуверенно несут чушь (почти как мы), но много реже, чем мы

    • они непредсказуемы (принципиально!), как лучшие среди нас ))

      • решение: равняясь на LLM, становиться лучшими

  • Проблемы обучающих данны

    • всё, чем оперирует LLM находилось в сознании человека, было им опубликовано и стало обучающими данными для LLM)

    • решение: равняясь на LLM учиться жить, творить и радоваться в настоящем (созданном нами) мире, без прикрас, не прячась от себя самих и становиться лучше.
      альтернатива решению: жесткая цензура, новояз, тотальное манипулирование со стороны хозяев
      AI-платформ

  • Проблемы пользователей LLM:

    • реальные (если мы в зеркале видим чудовище, виновато не зеркало)

      • стать добрыми внутри

    • воображаемые (а если .. восстание машин? мы все умрём ((( 

    • хорошего решения нет, есть совет обеспокоенным: сначала завершить проекты остановки Истории и изменений климата, т.к. ещё одну задачу остановки прогресса будет трудно выполнять параллельно с ними ...  даже для воинов света ))

     подробнее по теме в 7+

 

LLM-cервисы

 

LLM-cервисы  — услуга по предоставлению к (существенно ограниченным, управляемым и котролируемым) возможностям LLM посредством пользовательского интрерфейса (преимущественно в виде чат-бота)

LLM-cервисы  предоставляются разработчиками, сладельцами или арендаторами LLM (через API)

 

ChatGPTсервис на основе LLM разработанный компанией OpenAI и доступный в виде чат-бота с 30 ноября 2022

В основе ChatGPT лежит большая языковая модель (LLM) семейства GPT  (Generative Pre-trained Transformer).

Базовая языковая модель для ChatGPT — GPT-3 — создана в 2020 году.

 Сервис ChatGPT стал доступен пользователям 30 ноября 2022 года на основе языковой модели GPT-3,5 (отптимизированной и усечённой  GPT-3)

С марта 2023 ChatGPT использует языковую модель GPT-4

ChatGPT очень высоком уровне ведет диалог

  • в различных сферах (математики, истории, географии, искусства, медицины, финансов и кулинарии)

  • на русском, английском, испанском, немецком, японском и других распространенных языках.

ChatGPT на высоком уровне может:

  • сочинять стихи и песни;

  • решать математические и логические задачи;

  • писать тексты в различных стилях и жанрах;

  • суммировать информацию;

  • подбирать рецепты на основе списка ингредиентов;

  • создавать программный код;

  • искать информацию из собственной базы данных;

  • быть интересным собеседником (для интересного умелого собеседника!);

  • адаптироваться к стилю и тональности собеседника.

  • создавать игры .....

Преимущества ChatGPT:

  • гибкость,

  • масштабируемость,

  • доступность (бесплатность)

  • простота использования.

Ограничения ChatGPT:

  • проблема актуальности данных,

  • жесткая цензура.

Существует премиум-версия, которая предоставляет

  • первоочередной доступ к новым моделям,

  • увеличенную скорость генерации

  • гарантированную работу во время высокой нагрузки.

С марта 2023 года для ChatGPT запустили API.

 


 

Успех ChatGPT спровоцировал развитие альтернативных сервисов на основе LLM

  • Bard от Google

  • Earnie Bot от Baidu

  • и др...

подробнее в 7+

 

 

Prompt engineering

 

Эффективное и результативное взаимодействие с современными LLM требует особых языковых и коммуникативных технологий, одной из которых является Prompting

Prompting - использование подсказок (вербальных формул, используемых в диалоге с языковой моделью в целях увеличения вероятности продуцирования ей правильных реакций.

Используя верные подсказки можно эффективно управлять чат-ботом и получать персонализированные ответы, раскрывая весь доступный пользователю потенциал LLM-сервисов (и часть не совсем доступного в прямом диалоге).

Важность подбора идеальных подсказок настолько велика, что компании уже нанимают специалистов, умеющих эффективно общаться с чат-ботами, и на рынке появилась новая (и высокооплачиваемая) должность - AI prompt engineer jobs ($335,000 a year) + and dont require a background in tech

Примеры подсказок:

  • Задание 1: Просто и понятно
    Подсказка: Привет, ChatGPT. Я хочу узнать о (вставьте тему). Объясни (вставьте тему) простыми словами, как будто мне 11 лет.

  • Задание 2: Бесплатная консультация
    Предложение: Я представлю вам свой аргумент или мнение. Я хочу, чтобы вы раскритиковали его, как если бы вы были <человеком>

  • Задание 3: Симуляция собеседования
    Задание: Смоделируйте собеседование для (укажите конкретную роль). Контекст: Я ищу
    <> а вы - интервьюер. Вы будете задавать мне соответствующие вопросы, как будто мы проходим собеседование. Я буду отвечать. Задавайте следующий вопрос только после того, как я отвечу.

  • Задание 4: Взять LLM в соавторы
    Задание: [Вставить текст].
    Напишите о (вставьте тему текста) так, как написал бы вышеупомянутый автор.

  • Задание 5: Самообразование
    Задание: [познакомьтесь самостоятельно]:

подробнее в 7+

 

LLM  в образовании..

 

LLM не для того, чтобы ещё больше повысить эффективность преподавания и лёгкость усвоения учебного материала в классно-урочной системе Яна Амоса Каменского ))

LLM, ясно как Солнце, показывают невозможность продолжения великих образовательных практик прошлого, полностью отработавших весь свой инновационный потенциал за истекшие века.

 

LLM создают в системе образования революционную ситуацию (по В.И. Ленину):

  • преподаватели не могут достойно преподавать по старому

  • учащиеся не могут достойно учиться по старому

  • предельно обострилась симуляция традиционного обучения (разукрашенная инновационными ярлычками) на фоне его полной неэффективности

LLM являются точкой бифуркации для образовательных систем вынуждая выбирать путь:

  • хаоса и упадка (что сгорит, то не сгниёт))

  • жесткого тотального недоверия и контроля (привет, прокторам))

  • взлёта уровня на основе самоорганизации умных (не для всех :(

подробнее в 7+

 

Гуманитарное значение LLM

 

Гуманитарное значение LLM (в контексте развития AI в направлении к AGI) состоит в том, что они:

  • позволяют нам выжить в потопе данных (информационной избыточности, несоразмерной возможностям человека )

  • существенно расширяют горизонты нашего осмысления языка, сознания, реальности и самих себя,

  • разрушают иллюзии в отношении устаревших культурных практик и стереотипов,

  • вынуждают и делают возможным переосмысление цели и ценности социального, художественного, литературного, научного и образовательного бытия,

  • активизируют и мобилизуют интеллектуальный и нравственный потенциал,

  • открывают новые перспективы развития для человека ... и человечества

  • возвращают нас в Историю, на смертельно опасный и прекрасный путь в неизвестное ))

подробнее в 7+

 

 

Самая суть

LLM - не хороши и не плохи, а неизбежны:

  • Хороши для тех, кто готов к новой реальности (умным придётся поднапрячься)

  • Плохи для тех, кто предполагает, что История закончилась, а вчера ... вечно ))

Счастья и радости )

 

kmp