Экономика больших языковых моделей Поиск на базе LLM уже экономически оправдан: по приблизительной оценке, стоимость эффективного поиска на базе LLM составляет порядка ~ 15% от предполагаемого дохода от рекламы / запроса на сегодняшний день, в дополнение к существующей структуре затрат на поиск Но экономически целесообразный не означает экономически целесообразный: удельная экономическая эффективность поиска на базе LLM выгодна, но добавление этой функции для существующей поисковой системы с доходом от поиска в размере 100 миллиардов долларов может означать дополнительные расходы в размере 10 миллиардов долларов Другие развивающиеся предприятия, основанные на LLM, являются высокорентабельными: Jasper.ai , который генерирует копирайтинг с помощью LLMS, вероятно, имеет валовую прибыль типа SaaS (75%+) Обучение LLM (даже с нуля) не является чрезмерно дорогостоящим для крупных корпораций: обучение GPT-3 сегодня обойдется всего в ~ 1,4 млн долларов в общедоступном облаке, и даже такие современные модели, как PaLM, будут стоить всего ~ 11,2 млн долларов Затраты на LLM, вероятно, значительно снизятся: затраты на обучение и вывод для модели с производительностью, сопоставимой с GPT-3, упали на ~ 80% с момента выпуска GPT-3 2,5 года назад Данные являются возникающим узким местом для повышения производительности LLM: увеличение количества параметров модели может привести к увеличению прибыли по сравнению с увеличением размера высококачественного набора обучающих данных Мотивация Впечатляющая производительность больших языковых моделей (LLM) привела к широкому распространению спекуляций как о появлении новых бизнес-моделей, так и о разрушении существующих. Поиск - одна из интересных возможностей, учитывая, что только Google собрал более 100 миллиардов долларов дохода от поисковой рекламы в 2021 году.1 Вирусный выпуск ChatGPT — чат-бота на базе LLM, предоставляющего высококачественные ответы на поисковые запросы, - вызвал много вопросов о потенциальном влиянии на поисковый ландшафт, одним из которых является экономическая целесообразность внедрения LLM сегодня: Один предполагаемый сотрудник Google предположил на HackerNews, что нам потребуется 10-кратное сокращение затрат, прежде чем поиск на базе LLM может быть эффективно развернут2 Между тем, ожидается, что Microsoft выпустит версию Bing, оснащенную LLM, к марту,3 и поисковые стартапы, такие как You.com уже внедрили эту технологию в свои продукты4 Совсем недавно New York Times сообщила, что Google представит версию поисковой системы с функциями, подобными чат-ботам, в этом году5 Более широкий вопрос заключается в следующем: насколько экономически целесообразно включать LLM в текущие и новые продукты? В этой статье мы раскрываем структуру затрат на LLM сегодня и даем представление о том, как она будет развиваться в будущем. Повторное изучение того, как работают LLM Хотя последующие разделы будут более техническими, мы не будем предполагать, что они знакомы с машинным обучением. Чтобы понять, что делает LLMS особенным, мы предлагаем краткий обзор. Языковые модели предсказывают вероятность выходного токена с учетом некоторого контекста: Иллюстрация авторегрессионной языковой модели Входной контекст и выходные данные (На практике токены, как правило, являются вложенными словами: т.е. “happy” может быть разделено на два токена, таких как “hap”, “-py”) Для генерации текста языковые модели повторно выбирают новые токены на основе вероятностей выходных токенов. Например, в такой службе, как ChatGPT, модель начинается с начального приглашения, которое включает запрос пользователя в качестве контекста и генерирует токены для построения ответа. По мере создания каждого нового токена он добавляется в контекстное окно для информирования о следующей итерации. Языковые модели существуют уже несколько десятилетий. Что повысило производительность известных нам сегодня LLM, так это внедрение с помощью эффективных глубоких нейронных сетей (DNN) с миллиардами параметров. Параметры представляют собой веса матрицы, которые используются как для обучения, так и для составления прогнозов, при этом количество операций с плавающей запятой (FLOPs) обычно масштабируется с количеством параметров. Эти операции вычисляются на процессорах, оптимизированных для матричных операций, таких как графические процессоры (графические процессоры), ТПУ (тензорные процессоры) и другие специализированные чипы. По мере экспоненциального роста LLM эти операции требуют значительно больших вычислительных ресурсов, что является основной движущей силой затрат LLM. Сколько будет стоить поиск с поддержкой LLM? В этом разделе мы оценим, сколько стоит запуск поисковой системы на базе LLM. То, как должна быть реализована такая поисковая система, остается областью активных исследований. Тем не менее, мы рассматриваем два подхода к оценке спектра затрат на предоставление такой услуги: Эквивалент ChatGPT: LLM, обученный по обширному набору обучающих данных, сохраняет знания во время обучения в параметрах модели. Во время вывода (т. Е. Использования модели для генерации выходных данных) магистр права не имеет доступа к внешним знаниям.6 Двумя ключевыми недостатками являются: Такой подход склонен к “галлюцинации” фактов Знания модели устарели и содержат только информацию, доступную до последней даты обучения 2-этапный обобщитель поиска: архитектурно похожий LLM, который может получить доступ к традиционным поисковым системам, таким как Google или Bing, во время вывода. На первом этапе этого подхода мы запускаем запрос через поисковую систему, чтобы получить лучшие K результатов. На втором этапе мы прогоняем каждый результат через LLM, чтобы сгенерировать K ответов. Затем модель возвращает пользователю ответ, набравший наибольшее количество баллов.7 Этот подход улучшается по сравнению с предыдущим на: Возможность ссылаться на свои источники из полученных результатов поиска Наличие доступа к актуальной информации Однако для LLM с сопоставимым количеством параметров этот подход страдает от того, что требует больших вычислительных затрат. Стоимость использования этого подхода также добавляется к существующим затратам на поисковую систему, учитывая, что мы объединяем существующие результаты поиска. Аппроксимация первого порядка: API-интерфейсы базовой модели Наиболее прямым методом оценки стоимости является использование прейскурантных цен на существующие на рынке API базовых моделей, понимая, что ценообразование на эти услуги включает премию к стоимости в качестве нормы прибыли для поставщиков. Одним из представительных сервисов является OpenAI, который предлагает генерацию текста как услугу на основе LLMS. API Davinci от OpenAI, работающий на версии GPT-3 с параметрами 175B, имеет то же количество параметров, что и модель GPT-3.5, которая поддерживает ChatGPT.8 Вывод из этой модели сегодня стоит ~ 0,02 доллара за 750 слов (0,02 доллара за 1000 токенов, где 1000 токенов соответствуют ~ 750 словам); общее количество слов, используемых для расчета цены, включает как входные, так и выходные данные.9 Базовая модель ценообразования API в зависимости от возможностей модели (OpenAI) Мы делаем несколько упрощающих допущений, чтобы оценить, сколько мы заплатили бы OpenAI за наш поисковый сервис: В эквивалентной реализации ChatGPT мы предполагаем, что служба генерирует ответ из 400 слов против запроса из 50 слов, в среднем. Для получения более качественных результатов мы также предполагаем, что модель выбирает 5 ответов на запрос, выбирая наилучший ответ. Таким образом: В двухэтапной реализации сумматора поиска процесс генерации ответа аналогичен. Однако: Приглашение значительно длиннее, поскольку оно содержит как запрос, так и соответствующий раздел из результата поиска Для каждого из K результатов поиска генерируется отдельный ответ LLM Предполагая, что K = 10 и каждый соответствующий раздел из результата поиска в среднем составляет 1000 слов: Предполагая, что уровень попадания в кэш составляет 30% от оптимизаций (самый низкий показатель попадания в кэш Google за всю историю поиска10) и валовая прибыль OpenAI в размере 75% (в соответствии с типичными SaaS) от стоимости облачных вычислений, согласно нашей оценке первого порядка: По порядку величины предполагаемая стоимость облачных вычислений эквивалентной услуги ChatGPT в размере 0,010 доллара США за запрос соответствует общедоступному комментарию: Генеральный директор OpenAI Сэм Альтман о стоимости ChatGPT за чат (Twitter) На практике, однако, разработчик поисковой системы на базе LLM с большей вероятностью развернет 2-этапный вариант сумматора поиска, учитывая вышеупомянутые недостатки (т. Е. галлюцинирующие факты, устаревшая информация) эквивалента ChatGPT. В 2012 году глава поискового отдела Google указал, что поисковая система обрабатывала ~ 100B запросов в месяц.11 С 2012 по 2020 год, по данным Всемирного банка, глобальное проникновение Интернета увеличилось с 34% до 60%.12 Предполагая, что объем поиска растет пропорционально, мы оцениваем 2,1 Т запросов в год против ~ 100 млрд долларов дохода, связанного с поиском13, достигая среднего дохода в размере 0,048 долл. / запрос. Другими словами, наша предполагаемая стоимость в 0,066 доллара за запрос составляет ~ 1,4 раза больше дохода за запрос на основе 2-этапного подхода к обобщению результатов поиска. Чтобы еще больше уточнить нашу оценку: Мы ожидаем снижения затрат в ~ 4 раза за счет таких оптимизаций, как 1) квантование (с использованием типов данных с более низкой точностью), 2) обработка знаний (обучение модели меньшего размера, которая обучается на основе модели большего размера) и 3) обучение моделей меньшего размера, но одинаково эффективных “вычислительно-оптимальных” (более подробно обсуждается позже) Использование собственной инфраструктуры по сравнению с использованием облачного провайдера обеспечивает еще в 2 раза меньшую стоимость при условии ~ 50% валовой прибыли от облачных вычислений За вычетом этих сокращений стоимость внедрения эффективных LLM в поиск составляет сегодня порядка ~ 15% от дохода от запросов (в дополнение к существующим затратам на инфраструктуру). Более глубокий взгляд: затраты на облачные вычисления Современные LLM сегодня обычно применяют сопоставимую архитектуру модели (чаще всего, модели преобразования только для декодера), при этом вычислительные затраты (во флопах) на токен во время вывода равны ~ 2N, где N - количество параметров модели.14 Nvidia A100 в настоящее время является наиболее экономичным вариантом графического процессора от AWS, а эффективная почасовая ставка экземпляра AWS P4 с 8 A100 составляет 19,22 доллара США в час при условии предварительного бронирования на 1 год.15 Каждый A100 обеспечивает пиковую производительность смешанной точности FP16 / FP32 в 312 ТФЛОПС (тераФЛОПс в секунду), ключевую метрику для обучения LLM и вывода.16 Смешанная точность FP16 / FP32 относится к выполнению операций в 16-битном формате (FP16) при сохранении информации в 32-битном формате (FP32). Смешанная точность обеспечивает более высокую пропускную способность FLOPS за счет меньших накладных расходов FP16 при сохранении числовой стабильности, необходимой для получения точных результатов.17 Мы предполагаем, что использование FLOPS модели составляет 21,3%, в соответствии с GPT-3 во время обучения (более поздние модели достигли более высокой эффективности, но использование остается сложным для вывода с низкой задержкой).18 Таким образом, для модели параметров 175B, такой как GPT-3: Мы также применяем те же вычисления, основанные на ценообразовании GCP TPU v4, с аналогичными результатами:19 Оценочная стоимость вывода GPT-3 на 1000 токенов от облачного провайдера (AWS, GCP) Наша предполагаемая стоимость в $ 0.0035 / 1000 токенов составляет ~ 20% от цены API OpenAI в размере $ 0.02 / 1000 токенов, что означает ~ 80% валовой прибыли при условии, что машины никогда не простаивают. Эта оценка примерно соответствует нашему более раннему предположению о 75% валовой прибыли, что позволяет проверить наш эквивалент ChatGPT и 2-этапную оценку затрат на поиск в поисковом обобщителе. А как насчет стоимости обучения? Другая горячая тема - сколько будет стоить обучение GPT-3 (параметры 175B) или более поздним LLM, таким как Gopher (параметры 280B) и PaLM (параметры 540B). Наша структура для оценки вычислительных затрат на основе количества параметров и токенов также применяется здесь, с небольшими изменениями: Стоимость обучения за токен составляет ~ 6 N (против ~ 2N для вывода), где N - количество параметров LLM20 Мы предполагаем, что использование провалов модели составляет 46,2% во время обучения (против 21,3% при выводе ранее), как это было достигнуто с помощью модели PaLM с параметрами 540B на чипах TPU v4 21 GPT-3 имеет параметры 175B и был обучен на токенах 300B. Предполагая, что мы используем чипы GCP TPU v4, как Google сделал с моделью PaLM, мы оцениваем стоимость обучения сегодня всего в ~ 1,4 млн. Мы также можем применить эту структуру, чтобы получить представление о том, во что обойдется обучение некоторых из еще более крупных LLM: Ориентировочная стоимость обучения LLM на чипах GCP TPU v4 Введите свой адрес электронной почты… Подписка Общая структура для определения траектории затрат Мы суммируем нашу структуру для вывода LLM или стоимости обучения следующим образом: Стоимость вывода и обучения LLM-трансформаторов с активированным декодером только для декодера (где “N” - количество параметров модели, а “процессор” относится либо к TPU, GPU, либо к другому ускорителю тензорной обработки) Из этого следует, что при условии, что архитектуры LLM остаются похожими, стоимость вывода и обучения будет меняться в зависимости от приведенных выше переменных. Мы подробно рассмотрим каждую переменную, но ключевым выводом является следующее: Обучение или вывод с помощью модели, которая обладает такими же возможностями, как GPT-3, стало дешевле более чем на 80% с момента ее выпуска в 2020 году. Краткое изложение сокращения затрат на вывод и обучение по сравнению с GPT-3 в 2020 году для модели с паритетом производительности Эффективность подсчета параметров: миф о 10-кратном увеличении моделей каждый год Одним из распространенных предположений о следующем поколении LLM является потенциал для моделей с триллионами параметров (плотно активированных), учитывая экспоненциальный рост параметров за последние 5 лет: Рост количества параметров модели в LLMS LLM увеличивают количество параметров примерно в 10 раз каждый год, но большинство из них существенно не изменили размер наборов обучающих данных: Количество параметров модели по сравнению Обучающие токены в выбранных LLM (Обучающие вычислительно-оптимальные большие языковые модели) Однако более поздняя литература предполагает, что сосредоточение внимания на масштабировании количества параметров не было лучшим способом максимизировать производительность, учитывая фиксированные вычислительные ресурсы и использование оборудования (т. Е. Для обучения “вычислительно-оптимальной” модели): Подгоняя параметрическую функцию к своим экспериментальным результатам, исследователи Google DeepMind обнаружили, что для минимизации потерь модели L (т. Е. Максимизации производительности) количество параметров N и количество обучающих токенов D должны увеличиваться примерно с одинаковой скоростью: Параметрическая функция для потери модели (обучающие вычисления-оптимальные большие языковые модели) Авторы также обучили модель с именем Chinchilla (параметры 70B) с теми же вычислительными ресурсами, что и у Gopher (параметры 280B), но на токенах 1.4T вместо токенов 300B, превзойдя значительно более крупные модели с тем же бюджетом FLOPs и тем самым также доказав, что большинство LLM перегружают вычисления и испытывают нехватку данных. Прогнозируемая потеря модели из-за размера обучающих данных в зависимости от параметров модели (меньше ошибок: дикие последствия шиншиллы) Имея на 60% меньше параметров (и, следовательно, требований к вычислениям для вывода), чем GPT-3, Chinchilla по-прежнему легко превосходит модель 175B. Фактически, если бы мы обучили модель параметров 1T с тем же набором данных токенов 300B, что и GPT-3, мы все равно ожидали бы, что такая модель будет хуже Chinchilla: Относительные величины соответствующих терминов потерь для модели параметров 1T (потеря параметра модели 0,03 против потери обучающего токена 0,25) также предполагают, что предельная выгода от увеличения размера модели ниже, чем от увеличения объема данных. В дальнейшем можно добиться гораздо большей производительности, направляя дополнительные вычислительные ресурсы на обучение на больших наборах данных сопоставимого качества, а не на увеличение количества параметров модели. Эффективность затрат / ФЛОПОВ Для обучения LLM наиболее важным показателем производительности оборудования являются реализуемые ошибки FP16 / FP32 смешанной точности. Улучшения аппаратного обеспечения были направлены на минимизацию затрат при максимизации 1) максимальной пропускной способности и 2) использования модельных ФЛОПОВ. Хотя обе области тесно связаны при разработке аппаратного обеспечения, чтобы упростить наш анализ, мы сосредоточимся здесь на пропускной способности и обсудим использование в следующем разделе. До сих пор мы приблизительно оценивали соотношение затрат и потерь, рассматривая цены облачных инстансов. Чтобы детализировать дальше, мы сами оцениваем стоимость эксплуатации этих машин, причем основными компонентами являются 1) покупка оборудования и 2) затраты на электроэнергию. Чтобы проиллюстрировать это, мы снова возвращаемся к GPT-3, который OpenAI обучал в течение 14,8 дней на 10 000 графических процессорах V100 в Microsoft Azure22: Стоимость обучения GPT-3 с графическим процессором Nvidia V100 в 2020 году (выбросы углерода и обучение большой нейронной сети) Что касается стоимости оборудования, закон Хуанга (согласно генеральному директору Nvidia Дженсену Хуангу в 2018 году) заявил, что графические процессоры растут в 25 раз быстрее, чем пять лет назад.23 В контексте обучения LLM значительное повышение производительности было вызвано появлением тензорных ядер (в случае AMD - матричных ядер), которые позволили выполнять значительно более производительные и эффективные операции со смешанной точностью за счет обработки матриц вместо векторов в качестве вычислительного примитива. Nvidia впервые представила тензорные ядра в 2016 году с графическими процессорами для центров обработки данных V100. Хотя улучшение менее значительно по сравнению с скачком с первоначального внедрения тензорных ядер, каждое последующее поколение тензорных ядер увеличивало пропускную способность / $. Сегодня мы по-прежнему наблюдаем увеличение пропускной способности по сравнению с предыдущим поколением на 50% (или ~ 22% в год) для графических процессоров центров обработки данных, используемых для обучения LLM: Пропускная способность GPU FP16 / FP32 для центров обработки данных / $ (Nvidia) Графические процессоры для настольных компьютеров и центров обработки данных, пропускная способность / $ по точности (Nvidia, тенденции в области вычислений и энергопотребления при выводе глубокого обучения) Энергоэффективность повышается еще быстрее. Сегодня мы наблюдаем увеличение пропускной способности / ватт на 80% по сравнению с предыдущим поколением (или на 34% в год) для графических процессоров центров обработки данных, используемых для обучения LLM: Графические процессоры центра обработки данных FP16 / FP32 пропускная способность / Вт (Nvidia) Производительность графических процессоров для настольных компьютеров и центров обработки данных / Вт по точности (Nvidia, тенденции в области вычислений и энергопотребления при выводе глубокого обучения) Основываясь на улучшениях по сравнению с V100 (с помощью которого обучался GPT-3) только с предстоящим H100, мы ожидаем, что стоимость обучения внутри компании будет на 58% ниже (312 тыс. долл. вместо 744 тыс. долл.).). Стоимость обучения GPT-3 с графическим процессором Nvidia H100 сегодня В будущем мы ожидаем продолжения конструкторских инноваций, которые приведут к постепенному повышению как стоимости оборудования, так и энергоэффективности. Например, переходя с графического процессора V100 на графический процессор A100, Nvidia добавила функции разреженности, которые дополнительно увеличивают пропускную способность в 2 раза для некоторых архитектур глубокого обучения.24 В H100 компания добавляет встроенную поддержку типов данных FP8, что может привести к дальнейшему повышению пропускной способности в сочетании с существующими методами, такими как квантование для вывода.25 Кроме того, мы стали свидетелями появления процессорных процессоров и других специализированных чипов, которые коренным образом перестраивают архитектуру чипов для использования в случаях глубокого обучения. TPU от Google построен на архитектуре systolic array, которая значительно сокращает использование регистров и повышает пропускную способность.26 Как мы увидим в следующем разделе, многие из недавних улучшений аппаратного обеспечения были направлены на улучшение использования аппаратного обеспечения по мере масштабирования обучения и вывода для моделей с большими параметрами. Улучшения в использовании аппаратного обеспечения Одной из основных проблем в обучении LLM была необходимость масштабирования этих моделей от одного чипа до нескольких систем и до уровня кластера из-за значительных требований к памяти. Для контекста, в типичной настройке обучения LLM объем памяти, необходимый для хранения состояний оптимизатора, градиентов и параметров, составляет 20 N, где N - количество параметров модели.27 Таким образом, BERT-Large, один из первых LLM 2018 года с параметрами 340M, требовал всего 6,8 ГБ памяти, легко вписываясь в один графический процессор настольного класса. С другой стороны, для модели с параметрами 175B, такой как GPT-3, потребность в памяти составляет 3,5 ТБ. Между тем, новейший графический процессор Nvidia для центров обработки данных, H100, содержит всего 80 ГБ памяти с высокой пропускной способностью (HBM), что предполагает, что для соответствия требованиям GPT-3 к памяти требуется не менее 44 H100.28 Кроме того, GPT-3 требовал 14,8 дней для обучения даже на 10 000 графических процессорах V100. Таким образом, очень важно, чтобы использование флопов оставалось высоким, даже несмотря на то, что мы увеличиваем количество фишек для обучения. Первое измерение использования аппаратного обеспечения находится на уровне одного чипа. При обучении модели GPT-2 на одном графическом процессоре A100 загрузка аппаратного обеспечения достигла 35,7%.29 Одним из узких мест при использовании оборудования оказывается встроенная память и емкость: вычисления в ядрах процессора требуют повторного доступа к HBM, а недостаточная пропускная способность снижает пропускную способность. Аналогичным образом, ограниченный объем локальной памяти может привести к более частым чтениям из HBM с более высокой задержкой, ограничивая пропускную способность.30 Второй аспект использования связан с масштабированием от чипа к чипу. Обучение LLM для таких моделей, как GPT-3, требует разделения модели и данных на множество графических процессоров. Так же, как пропускная способность встроенной памяти может быть узким местом, пропускная способность межкристаллитных соединений также может быть ограничивающим фактором. NVLink от Nvidia обеспечил пропускную способность 300 Гбит / с на графический процессор с выпуском версии V100. Эта цифра увеличилась в 2 раза для A100.31 Последним аспектом использования является межсистемное масштабирование. Одна машина вмещает до 16 графических процессоров, поэтому масштабирование до большего числа графических процессоров требует, чтобы межсоединения между системами не снижали производительность. С этой целью HCA Infiniband от Nvidia за последние 3 года увеличили максимальную пропускную способность в 2 раза.32 Во втором и третьем измерениях стратегия разделения программного обеспечения является решающим фактором для эффективного использования. Благодаря сочетанию методов параллелизма моделей и данных обучение LLM на уровне кластера для чипов Nvidia достигло 30,2% использования FLOPS модели с MT-NLG в 2022 году33, по сравнению с 21,3% в 2020 году с GPT-3: Модель НЕ позволяет использовать выбранные LLM (PaLM: масштабирование языкового моделирования с помощью путей) Специализированное оборудование, такое как TPU, достигло еще большей эффективности. Модель PaLM с параметром Google 540B достигла 46,2% использования FLOPS на чипах TPU v4, что в 2,2 раза превышает использование GPT-3 для обучения.34 Это улучшение использования было вызвано как более эффективным распараллеливанием обучения (с помощью системы Google Pathways ML), так и принципиально иной архитектурой самого TPU. Архитектура системного массива чипа и значительная плотность локальной памяти на ядро снижают частоту операций чтения глобальной памяти с высокой задержкой. В аналогичном ключе мы также видели, как такие компании, как Cerebras, Graphcore и SambaNova, выделяют значительно больший объем совместно используемой памяти внутри процессора. В дальнейшем мы ожидаем, что другие новые инновации, такие как масштабирование чипов до уровня пластин для уменьшения задержек / увеличения пропускной способности или оптимизации схем доступа к данным с помощью программируемых устройств, еще больше расширят возможности использования оборудования.35 Прощальные мысли: магистры права готовы к прайм-тайм NYTimes недавно сообщила, что Google объявила ChatGPT “красным кодом” для своего поискового бизнеса.36 С точки зрения экономики, наша приблизительная оценка затрат на то, что внедрение высокопроизводительных LLM в поиск обойдется примерно в 15% доходов от запросов, предполагает, что технология уже может быть реально развернута. Однако доминирующее положение Google на рынке также не позволяет ему быть первопроходцем: при более чем 100 миллиардах долларов дохода от поиска широкое внедрение технологии снизит прибыльность на более чем 10 миллиардов долларов. С другой стороны, неудивительно, что Microsoft планирует включить LLM в Bing.37 Несмотря на то, что структура затрат выше, чем у традиционного поиска, поиск на базе LLM не является убыточным, и сегодня доля компании на рынке поисковых систем значительно ниже. В результате, если Microsoft удастся получить долю от Google, конечным результатом, скорее всего, все равно будет большая прибыль, даже если обслуживание существующих запросов станет дороже. Что касается других продуктов, интересно, что LLM уже могут быть выгодно развернуты с наценкой типа SaaS. Например, Jasper.ai , который недавно был оценен в 1,5 миллиарда долларов и использует LLM для создания копирайтинга, взимает ~ 82 доллара за 100 тысяч слов (эквивалент ~ 1,09 доллара за 1000 токенов).38Используя API Davinci от OpenAI по цене 0,02 доллара за 1000 токенов, валовая прибыль, вероятно, значительно превысит 75%, даже если мы выберем несколько ответов. Также удивительно, что GPT-3 можно обучить, используя сегодня в общедоступном облаке всего ~ 1,4 млн долларов, и что стоимость даже самых современных моделей (например, PaLM за ~ 11,2 млн долларов) не является непомерно высокой для крупных компаний. С учетом снижения затрат на обучение более чем на 80% за последние 2,5 года для модели качества GPT-3, обучение высокопроизводительных LLM, вероятно, станет еще более доступным. Другими словами, обучение магистров права обходится недешево, но это также не игра со значительной экономией за счет масштаба, влекущая за собой огромные первоначальные капитальные затраты, которые окупаются годами. Скорее всего, статья “Chinchilla” предполагает, что в будущем одним из новых дефицитных ресурсов для обучения LLM является не капитал, а объем высококачественных данных, поскольку масштабирование количества параметров модели обеспечивает убывающую отдачу. Введите свой адрес электронной почты… Подписка 1 Алфавит 2021 10K 2 Сравнение Google и ChatGPT 3 Microsoft и OpenAI работают над Bing на базе ChatGPT, бросая вызов Google 4 Представляем YouChat - помощника по поиску с искусственным интеллектом, который живет в вашей поисковой системе 5 Google призывает на помощь Ларри Пейджа и Сергея Брина для борьбы с ИИ. 6 ChatGPT: Optimizing Langauge Models for Dialogue In practice, ChatGPT also uses RLHF on top of the base 175B parameter language model, but for the sake of simplicity we won’t consider the reinforcement learning cost 7 Teaching language models to support answers with verified quotes 8 ChatGPT: Optimizing Langauge Models for Dialogue 9 OpenAI Pricing 10 Building Software Systems at Google and Lessons Learned 11 What’s New With Google Search 12 Our World in Data: Internet 13 Alphabet 2020 10K 14 Scaling Laws for Neural Language Models 15 AWS EC2 P4 Instances 16 NVIDIA A100 Tensor Core GPU Architecture 17 Mixed precision training Everything described for FP16/FP32 also applies to BF16/FP32 mixed-precision operations, which are supported with similar throughput on the A100 and other processors 18 PaLM: Scaling Langauge Modeling with Pathways 19 Cloud TPU pricing 20 Scaling Laws for Neural Language Models 21 PaLM: Scaling Langauge Modeling with Pathways 22 Carbon Emissions and Large Neural Network Training 23 GTC 2018 Keynote with NVIDIA CEO Jensen Huang 24 NVIDIA A100 Tensor Core GPU Architecture 25 NVIDIA Hopper Architecture In-Depth 26 An in-depth look at Google’s first Tensor Processing Unit (TPU) 27 Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model Assuming 20 bytes of memory per parameter based on using the Adam optimizer using mixed-precision training 28 NVIDIA Hopper Architecture In-Depth 29 State-of-the-Art Language Modeling Using Megatron on the NVIDIA A100 GPU 30 Which GPU(s) to Get for Deep Learning: My Experience and Advice for Using GPUs in Deep Learning 31 NVLink and NVSwitch 32 NVIDIA ConnectX InfiniBand Adapters 33 PaLM: Scaling Langauge Modeling with Pathways 34 PaLM: Scaling Langauge Modeling with Pathways 35 Cerebras Architecture Deep Dive: First Look Inside the HW/SW Co-Design for Deep Learning Graphcore IPU Hardware Overview SambaNova SN10 RDU at Hot Chips 33 36 A New Chat Bot is a ‘Code Red’ for Google’s Search Business 37 Microsoft and OpenAI Working on ChatGPT-Powered Bing in Challenge to Google 38 Jasper.ai Pricing Subscribe to Sunyan’s Substack Launched 4 hours ago Type your email… Subscribe Comments Write a comment… No posts Ready for more? Type your email… Subscribe © 2023 Sunyan Privacy ∙ Terms ∙ Collection notice Start Writing Get the app Substack is the home for great writing Наше использование файлов cookie Мы используем необходимые файлы cookie для обеспечения работы нашего сайта. Мы также устанавливаем файлы cookie производительности и функциональности, которые помогают нам вносить улучшения, измеряя посещаемость нашего сайта. Для получения более подробной информации о файлах cookie, которые мы используем, пожалуйста, ознакомьтесь с нашей политикой конфиденциальности.✖