Ðкономика больших Ñзыковых моделей ПоиÑк на базе LLM уже ÑкономичеÑки оправдан: по приблизительной оценке, ÑтоимоÑÑ‚ÑŒ Ñффективного поиÑка на базе LLM ÑоÑтавлÑет порÑдка ~ 15% от предполагаемого дохода от рекламы / запроÑа на ÑегоднÑшний день, в дополнение к ÑущеÑтвующей Ñтруктуре затрат на поиÑк Ðо ÑкономичеÑки целеÑообразный не означает ÑкономичеÑки целеÑообразный: ÑƒÐ´ÐµÐ»ÑŒÐ½Ð°Ñ ÑкономичеÑÐºÐ°Ñ ÑффективноÑÑ‚ÑŒ поиÑка на базе LLM выгодна, но добавление Ñтой функции Ð´Ð»Ñ ÑущеÑтвующей поиÑковой ÑиÑтемы Ñ Ð´Ð¾Ñ…Ð¾Ð´Ð¾Ð¼ от поиÑка в размере 100 миллиардов долларов может означать дополнительные раÑходы в размере 10 миллиардов долларов Другие развивающиеÑÑ Ð¿Ñ€ÐµÐ´Ð¿Ñ€Ð¸ÑтиÑ, оÑнованные на LLM, ÑвлÑÑŽÑ‚ÑÑ Ð²Ñ‹Ñокорентабельными: Jasper.ai , который генерирует копирайтинг Ñ Ð¿Ð¾Ð¼Ð¾Ñ‰ÑŒÑŽ LLMS, вероÑтно, имеет валовую прибыль типа SaaS (75%+) Обучение LLM (даже Ñ Ð½ÑƒÐ»Ñ) не ÑвлÑетÑÑ Ñ‡Ñ€ÐµÐ·Ð¼ÐµÑ€Ð½Ð¾ дорогоÑтоÑщим Ð´Ð»Ñ ÐºÑ€ÑƒÐ¿Ð½Ñ‹Ñ… корпораций: обучение GPT-3 ÑÐµÐ³Ð¾Ð´Ð½Ñ Ð¾Ð±Ð¾Ð¹Ð´ÐµÑ‚ÑÑ Ð²Ñего в ~ 1,4 млн долларов в общедоÑтупном облаке, и даже такие Ñовременные модели, как PaLM, будут Ñтоить вÑего ~ 11,2 млн долларов Затраты на LLM, вероÑтно, значительно ÑнизÑÑ‚ÑÑ: затраты на обучение и вывод Ð´Ð»Ñ Ð¼Ð¾Ð´ÐµÐ»Ð¸ Ñ Ð¿Ñ€Ð¾Ð¸Ð·Ð²Ð¾Ð´Ð¸Ñ‚ÐµÐ»ÑŒÐ½Ð¾Ñтью, ÑопоÑтавимой Ñ GPT-3, упали на ~ 80% Ñ Ð¼Ð¾Ð¼ÐµÐ½Ñ‚Ð° выпуÑка GPT-3 2,5 года назад Данные ÑвлÑÑŽÑ‚ÑÑ Ð²Ð¾Ð·Ð½Ð¸ÐºÐ°ÑŽÑ‰Ð¸Ð¼ узким меÑтом Ð´Ð»Ñ Ð¿Ð¾Ð²Ñ‹ÑˆÐµÐ½Ð¸Ñ Ð¿Ñ€Ð¾Ð¸Ð·Ð²Ð¾Ð´Ð¸Ñ‚ÐµÐ»ÑŒÐ½Ð¾Ñти LLM: увеличение количеÑтва параметров модели может привеÑти к увеличению прибыли по Ñравнению Ñ ÑƒÐ²ÐµÐ»Ð¸Ñ‡ÐµÐ½Ð¸ÐµÐ¼ размера выÑококачеÑтвенного набора обучающих данных ÐœÐ¾Ñ‚Ð¸Ð²Ð°Ñ†Ð¸Ñ Ð’Ð¿ÐµÑ‡Ð°Ñ‚Ð»ÑÑŽÑ‰Ð°Ñ Ð¿Ñ€Ð¾Ð¸Ð·Ð²Ð¾Ð´Ð¸Ñ‚ÐµÐ»ÑŒÐ½Ð¾ÑÑ‚ÑŒ больших Ñзыковых моделей (LLM) привела к широкому раÑпроÑтранению ÑпекулÑций как о поÑвлении новых бизнеÑ-моделей, так и о разрушении ÑущеÑтвующих. ПоиÑк - одна из интереÑных возможноÑтей, учитываÑ, что только Google Ñобрал более 100 миллиардов долларов дохода от поиÑковой рекламы в 2021 году.1 ВируÑный выпуÑк ChatGPT — чат-бота на базе LLM, предоÑтавлÑющего выÑококачеÑтвенные ответы на поиÑковые запроÑÑ‹, - вызвал много вопроÑов о потенциальном влиÑнии на поиÑковый ландшафт, одним из которых ÑвлÑетÑÑ ÑкономичеÑÐºÐ°Ñ Ñ†ÐµÐ»ÐµÑообразноÑÑ‚ÑŒ Ð²Ð½ÐµÐ´Ñ€ÐµÐ½Ð¸Ñ LLM ÑегоднÑ: Один предполагаемый Ñотрудник Google предположил на HackerNews, что нам потребуетÑÑ 10-кратное Ñокращение затрат, прежде чем поиÑк на базе LLM может быть Ñффективно развернут2 Между тем, ожидаетÑÑ, что Microsoft выпуÑтит верÑию Bing, оÑнащенную LLM, к марту,3 и поиÑковые Ñтартапы, такие как You.com уже внедрили Ñту технологию в Ñвои продукты4 СовÑем недавно New York Times Ñообщила, что Google предÑтавит верÑию поиÑковой ÑиÑтемы Ñ Ñ„ÑƒÐ½ÐºÑ†Ð¸Ñми, подобными чат-ботам, в Ñтом году5 Более широкий Ð²Ð¾Ð¿Ñ€Ð¾Ñ Ð·Ð°ÐºÐ»ÑŽÑ‡Ð°ÐµÑ‚ÑÑ Ð² Ñледующем: наÑколько ÑкономичеÑки целеÑообразно включать LLM в текущие и новые продукты? Ð’ Ñтой Ñтатье мы раÑкрываем Ñтруктуру затрат на LLM ÑÐµÐ³Ð¾Ð´Ð½Ñ Ð¸ даем предÑтавление о том, как она будет развиватьÑÑ Ð² будущем. Повторное изучение того, как работают LLM Ð¥Ð¾Ñ‚Ñ Ð¿Ð¾Ñледующие разделы будут более техничеÑкими, мы не будем предполагать, что они знакомы Ñ Ð¼Ð°ÑˆÐ¸Ð½Ð½Ñ‹Ð¼ обучением. Чтобы понÑÑ‚ÑŒ, что делает LLMS оÑобенным, мы предлагаем краткий обзор. Языковые модели предÑказывают вероÑтноÑÑ‚ÑŒ выходного токена Ñ ÑƒÑ‡ÐµÑ‚Ð¾Ð¼ некоторого контекÑта: ИллюÑÑ‚Ñ€Ð°Ñ†Ð¸Ñ Ð°Ð²Ñ‚Ð¾Ñ€ÐµÐ³Ñ€ÐµÑÑионной Ñзыковой модели Входной контекÑÑ‚ и выходные данные (Ðа практике токены, как правило, ÑвлÑÑŽÑ‚ÑÑ Ð²Ð»Ð¾Ð¶ÐµÐ½Ð½Ñ‹Ð¼Ð¸ Ñловами: Ñ‚.е. “happy†может быть разделено на два токена, таких как “hapâ€, “-pyâ€) Ð”Ð»Ñ Ð³ÐµÐ½ÐµÑ€Ð°Ñ†Ð¸Ð¸ текÑта Ñзыковые модели повторно выбирают новые токены на оÑнове вероÑтноÑтей выходных токенов. Ðапример, в такой Ñлужбе, как ChatGPT, модель начинаетÑÑ Ñ Ð½Ð°Ñ‡Ð°Ð»ÑŒÐ½Ð¾Ð³Ð¾ приглашениÑ, которое включает Ð·Ð°Ð¿Ñ€Ð¾Ñ Ð¿Ð¾Ð»ÑŒÐ·Ð¾Ð²Ð°Ñ‚ÐµÐ»Ñ Ð² качеÑтве контекÑта и генерирует токены Ð´Ð»Ñ Ð¿Ð¾ÑÑ‚Ñ€Ð¾ÐµÐ½Ð¸Ñ Ð¾Ñ‚Ð²ÐµÑ‚Ð°. По мере ÑÐ¾Ð·Ð´Ð°Ð½Ð¸Ñ ÐºÐ°Ð¶Ð´Ð¾Ð³Ð¾ нового токена он добавлÑетÑÑ Ð² контекÑтное окно Ð´Ð»Ñ Ð¸Ð½Ñ„Ð¾Ñ€Ð¼Ð¸Ñ€Ð¾Ð²Ð°Ð½Ð¸Ñ Ð¾ Ñледующей итерации. Языковые модели ÑущеÑтвуют уже неÑколько деÑÑтилетий. Что повыÑило производительноÑÑ‚ÑŒ извеÑтных нам ÑÐµÐ³Ð¾Ð´Ð½Ñ LLM, так Ñто внедрение Ñ Ð¿Ð¾Ð¼Ð¾Ñ‰ÑŒÑŽ Ñффективных глубоких нейронных Ñетей (DNN) Ñ Ð¼Ð¸Ð»Ð»Ð¸Ð°Ñ€Ð´Ð°Ð¼Ð¸ параметров. Параметры предÑтавлÑÑŽÑ‚ Ñобой веÑа матрицы, которые иÑпользуютÑÑ ÐºÐ°Ðº Ð´Ð»Ñ Ð¾Ð±ÑƒÑ‡ÐµÐ½Ð¸Ñ, так и Ð´Ð»Ñ ÑоÑÑ‚Ð°Ð²Ð»ÐµÐ½Ð¸Ñ Ð¿Ñ€Ð¾Ð³Ð½Ð¾Ð·Ð¾Ð², при Ñтом количеÑтво операций Ñ Ð¿Ð»Ð°Ð²Ð°ÑŽÑ‰ÐµÐ¹ запÑтой (FLOPs) обычно маÑштабируетÑÑ Ñ ÐºÐ¾Ð»Ð¸Ñ‡ÐµÑтвом параметров. Ðти операции вычиÑлÑÑŽÑ‚ÑÑ Ð½Ð° процеÑÑорах, оптимизированных Ð´Ð»Ñ Ð¼Ð°Ñ‚Ñ€Ð¸Ñ‡Ð½Ñ‹Ñ… операций, таких как графичеÑкие процеÑÑоры (графичеÑкие процеÑÑоры), ТПУ (тензорные процеÑÑоры) и другие Ñпециализированные чипы. По мере ÑкÑпоненциального роÑта LLM Ñти операции требуют значительно больших вычиÑлительных реÑурÑов, что ÑвлÑетÑÑ Ð¾Ñновной движущей Ñилой затрат LLM. Сколько будет Ñтоить поиÑк Ñ Ð¿Ð¾Ð´Ð´ÐµÑ€Ð¶ÐºÐ¾Ð¹ LLM? Ð’ Ñтом разделе мы оценим, Ñколько Ñтоит запуÑк поиÑковой ÑиÑтемы на базе LLM. То, как должна быть реализована Ñ‚Ð°ÐºÐ°Ñ Ð¿Ð¾Ð¸ÑÐºÐ¾Ð²Ð°Ñ ÑиÑтема, оÑтаетÑÑ Ð¾Ð±Ð»Ð°Ñтью активных иÑÑледований. Тем не менее, мы раÑÑматриваем два подхода к оценке Ñпектра затрат на предоÑтавление такой уÑлуги: Ðквивалент ChatGPT: LLM, обученный по обширному набору обучающих данных, ÑохранÑет Ð·Ð½Ð°Ð½Ð¸Ñ Ð²Ð¾ Ð²Ñ€ÐµÐ¼Ñ Ð¾Ð±ÑƒÑ‡ÐµÐ½Ð¸Ñ Ð² параметрах модели. Во Ð²Ñ€ÐµÐ¼Ñ Ð²Ñ‹Ð²Ð¾Ð´Ð° (Ñ‚. Е. ИÑÐ¿Ð¾Ð»ÑŒÐ·Ð¾Ð²Ð°Ð½Ð¸Ñ Ð¼Ð¾Ð´ÐµÐ»Ð¸ Ð´Ð»Ñ Ð³ÐµÐ½ÐµÑ€Ð°Ñ†Ð¸Ð¸ выходных данных) магиÑÑ‚Ñ€ права не имеет доÑтупа к внешним знаниÑм.6 Ð”Ð²ÑƒÐ¼Ñ ÐºÐ»ÑŽÑ‡ÐµÐ²Ñ‹Ð¼Ð¸ недоÑтатками ÑвлÑÑŽÑ‚ÑÑ: Такой подход Ñклонен к “галлюцинации†фактов Ð—Ð½Ð°Ð½Ð¸Ñ Ð¼Ð¾Ð´ÐµÐ»Ð¸ уÑтарели и Ñодержат только информацию, доÑтупную до поÑледней даты Ð¾Ð±ÑƒÑ‡ÐµÐ½Ð¸Ñ 2-Ñтапный обобщитель поиÑка: архитектурно похожий LLM, который может получить доÑтуп к традиционным поиÑковым ÑиÑтемам, таким как Google или Bing, во Ð²Ñ€ÐµÐ¼Ñ Ð²Ñ‹Ð²Ð¾Ð´Ð°. Ðа первом Ñтапе Ñтого подхода мы запуÑкаем Ð·Ð°Ð¿Ñ€Ð¾Ñ Ñ‡ÐµÑ€ÐµÐ· поиÑковую ÑиÑтему, чтобы получить лучшие K результатов. Ðа втором Ñтапе мы прогонÑем каждый результат через LLM, чтобы Ñгенерировать K ответов. Затем модель возвращает пользователю ответ, набравший наибольшее количеÑтво баллов.7 Ðтот подход улучшаетÑÑ Ð¿Ð¾ Ñравнению Ñ Ð¿Ñ€ÐµÐ´Ñ‹Ð´ÑƒÑ‰Ð¸Ð¼ на: ВозможноÑÑ‚ÑŒ ÑÑылатьÑÑ Ð½Ð° Ñвои иÑточники из полученных результатов поиÑка Ðаличие доÑтупа к актуальной информации Однако Ð´Ð»Ñ LLM Ñ ÑопоÑтавимым количеÑтвом параметров Ñтот подход Ñтрадает от того, что требует больших вычиÑлительных затрат. СтоимоÑÑ‚ÑŒ иÑÐ¿Ð¾Ð»ÑŒÐ·Ð¾Ð²Ð°Ð½Ð¸Ñ Ñтого подхода также добавлÑетÑÑ Ðº ÑущеÑтвующим затратам на поиÑковую ÑиÑтему, учитываÑ, что мы объединÑем ÑущеÑтвующие результаты поиÑка. ÐппрокÑÐ¸Ð¼Ð°Ñ†Ð¸Ñ Ð¿ÐµÑ€Ð²Ð¾Ð³Ð¾ порÑдка: API-интерфейÑÑ‹ базовой модели Ðаиболее прÑмым методом оценки ÑтоимоÑти ÑвлÑетÑÑ Ð¸Ñпользование прейÑкурантных цен на ÑущеÑтвующие на рынке API базовых моделей, понимаÑ, что ценообразование на Ñти уÑлуги включает премию к ÑтоимоÑти в качеÑтве нормы прибыли Ð´Ð»Ñ Ð¿Ð¾Ñтавщиков. Одним из предÑтавительных ÑервиÑов ÑвлÑетÑÑ OpenAI, который предлагает генерацию текÑта как уÑлугу на оÑнове LLMS. API Davinci от OpenAI, работающий на верÑии GPT-3 Ñ Ð¿Ð°Ñ€Ð°Ð¼ÐµÑ‚Ñ€Ð°Ð¼Ð¸ 175B, имеет то же количеÑтво параметров, что и модель GPT-3.5, ÐºÐ¾Ñ‚Ð¾Ñ€Ð°Ñ Ð¿Ð¾Ð´Ð´ÐµÑ€Ð¶Ð¸Ð²Ð°ÐµÑ‚ ChatGPT.8 Вывод из Ñтой модели ÑÐµÐ³Ð¾Ð´Ð½Ñ Ñтоит ~ 0,02 доллара за 750 Ñлов (0,02 доллара за 1000 токенов, где 1000 токенов ÑоответÑтвуют ~ 750 Ñловам); общее количеÑтво Ñлов, иÑпользуемых Ð´Ð»Ñ Ñ€Ð°Ñчета цены, включает как входные, так и выходные данные.9 Ð‘Ð°Ð·Ð¾Ð²Ð°Ñ Ð¼Ð¾Ð´ÐµÐ»ÑŒ Ñ†ÐµÐ½Ð¾Ð¾Ð±Ñ€Ð°Ð·Ð¾Ð²Ð°Ð½Ð¸Ñ API в завиÑимоÑти от возможноÑтей модели (OpenAI) Мы делаем неÑколько упрощающих допущений, чтобы оценить, Ñколько мы заплатили бы OpenAI за наш поиÑковый ÑервиÑ: Ð’ Ñквивалентной реализации ChatGPT мы предполагаем, что Ñлужба генерирует ответ из 400 Ñлов против запроÑа из 50 Ñлов, в Ñреднем. Ð”Ð»Ñ Ð¿Ð¾Ð»ÑƒÑ‡ÐµÐ½Ð¸Ñ Ð±Ð¾Ð»ÐµÐµ качеÑтвенных результатов мы также предполагаем, что модель выбирает 5 ответов на запроÑ, Ð²Ñ‹Ð±Ð¸Ñ€Ð°Ñ Ð½Ð°Ð¸Ð»ÑƒÑ‡ÑˆÐ¸Ð¹ ответ. Таким образом: Ð’ двухÑтапной реализации Ñумматора поиÑка процеÑÑ Ð³ÐµÐ½ÐµÑ€Ð°Ñ†Ð¸Ð¸ ответа аналогичен. Однако: Приглашение значительно длиннее, поÑкольку оно Ñодержит как запроÑ, так и ÑоответÑтвующий раздел из результата поиÑка Ð”Ð»Ñ ÐºÐ°Ð¶Ð´Ð¾Ð³Ð¾ из K результатов поиÑка генерируетÑÑ Ð¾Ñ‚Ð´ÐµÐ»ÑŒÐ½Ñ‹Ð¹ ответ LLM ПредполагаÑ, что K = 10 и каждый ÑоответÑтвующий раздел из результата поиÑка в Ñреднем ÑоÑтавлÑет 1000 Ñлов: ПредполагаÑ, что уровень Ð¿Ð¾Ð¿Ð°Ð´Ð°Ð½Ð¸Ñ Ð² кÑш ÑоÑтавлÑет 30% от оптимизаций (Ñамый низкий показатель Ð¿Ð¾Ð¿Ð°Ð´Ð°Ð½Ð¸Ñ Ð² кÑш Google за вÑÑŽ иÑторию поиÑка10) и Ð²Ð°Ð»Ð¾Ð²Ð°Ñ Ð¿Ñ€Ð¸Ð±Ñ‹Ð»ÑŒ OpenAI в размере 75% (в ÑоответÑтвии Ñ Ñ‚Ð¸Ð¿Ð¸Ñ‡Ð½Ñ‹Ð¼Ð¸ SaaS) от ÑтоимоÑти облачных вычиÑлений, ÑоглаÑно нашей оценке первого порÑдка: По порÑдку величины Ð¿Ñ€ÐµÐ´Ð¿Ð¾Ð»Ð°Ð³Ð°ÐµÐ¼Ð°Ñ ÑтоимоÑÑ‚ÑŒ облачных вычиÑлений Ñквивалентной уÑлуги ChatGPT в размере 0,010 доллара СШРза Ð·Ð°Ð¿Ñ€Ð¾Ñ ÑоответÑтвует общедоÑтупному комментарию: Генеральный директор OpenAI СÑм Ðльтман о ÑтоимоÑти ChatGPT за чат (Twitter) Ðа практике, однако, разработчик поиÑковой ÑиÑтемы на базе LLM Ñ Ð±Ð¾Ð»ÑŒÑˆÐµÐ¹ вероÑтноÑтью развернет 2-Ñтапный вариант Ñумматора поиÑка, ÑƒÑ‡Ð¸Ñ‚Ñ‹Ð²Ð°Ñ Ð²Ñ‹ÑˆÐµÑƒÐ¿Ð¾Ð¼Ñнутые недоÑтатки (Ñ‚. Е. галлюцинирующие факты, уÑÑ‚Ð°Ñ€ÐµÐ²ÑˆÐ°Ñ Ð¸Ð½Ñ„Ð¾Ñ€Ð¼Ð°Ñ†Ð¸Ñ) Ñквивалента ChatGPT. Ð’ 2012 году глава поиÑкового отдела Google указал, что поиÑÐºÐ¾Ð²Ð°Ñ ÑиÑтема обрабатывала ~ 100B запроÑов в меÑÑц.11 С 2012 по 2020 год, по данным Ð’Ñемирного банка, глобальное проникновение Интернета увеличилоÑÑŒ Ñ 34% до 60%.12 ПредполагаÑ, что объем поиÑка раÑтет пропорционально, мы оцениваем 2,1 Т запроÑов в год против ~ 100 млрд долларов дохода, ÑвÑзанного Ñ Ð¿Ð¾Ð¸Ñком13, доÑÑ‚Ð¸Ð³Ð°Ñ Ñреднего дохода в размере 0,048 долл. / запроÑ. Другими Ñловами, наша Ð¿Ñ€ÐµÐ´Ð¿Ð¾Ð»Ð°Ð³Ð°ÐµÐ¼Ð°Ñ ÑтоимоÑÑ‚ÑŒ в 0,066 доллара за Ð·Ð°Ð¿Ñ€Ð¾Ñ ÑоÑтавлÑет ~ 1,4 раза больше дохода за Ð·Ð°Ð¿Ñ€Ð¾Ñ Ð½Ð° оÑнове 2-Ñтапного подхода к обобщению результатов поиÑка. Чтобы еще больше уточнить нашу оценку: Мы ожидаем ÑÐ½Ð¸Ð¶ÐµÐ½Ð¸Ñ Ð·Ð°Ñ‚Ñ€Ð°Ñ‚ в ~ 4 раза за Ñчет таких оптимизаций, как 1) квантование (Ñ Ð¸Ñпользованием типов данных Ñ Ð±Ð¾Ð»ÐµÐµ низкой точноÑтью), 2) обработка знаний (обучение модели меньшего размера, ÐºÐ¾Ñ‚Ð¾Ñ€Ð°Ñ Ð¾Ð±ÑƒÑ‡Ð°ÐµÑ‚ÑÑ Ð½Ð° оÑнове модели большего размера) и 3) обучение моделей меньшего размера, но одинаково Ñффективных “вычиÑлительно-оптимальных†(более подробно обÑуждаетÑÑ Ð¿Ð¾Ð·Ð¶Ðµ) ИÑпользование ÑобÑтвенной инфраÑтруктуры по Ñравнению Ñ Ð¸Ñпользованием облачного провайдера обеÑпечивает еще в 2 раза меньшую ÑтоимоÑÑ‚ÑŒ при уÑловии ~ 50% валовой прибыли от облачных вычиÑлений За вычетом Ñтих Ñокращений ÑтоимоÑÑ‚ÑŒ Ð²Ð½ÐµÐ´Ñ€ÐµÐ½Ð¸Ñ Ñффективных LLM в поиÑк ÑоÑтавлÑет ÑÐµÐ³Ð¾Ð´Ð½Ñ Ð¿Ð¾Ñ€Ñдка ~ 15% от дохода от запроÑов (в дополнение к ÑущеÑтвующим затратам на инфраÑтруктуру). Более глубокий взглÑд: затраты на облачные вычиÑÐ»ÐµÐ½Ð¸Ñ Ð¡Ð¾Ð²Ñ€ÐµÐ¼ÐµÐ½Ð½Ñ‹Ðµ LLM ÑÐµÐ³Ð¾Ð´Ð½Ñ Ð¾Ð±Ñ‹Ñ‡Ð½Ð¾ применÑÑŽÑ‚ ÑопоÑтавимую архитектуру модели (чаще вÑего, модели Ð¿Ñ€ÐµÐ¾Ð±Ñ€Ð°Ð·Ð¾Ð²Ð°Ð½Ð¸Ñ Ñ‚Ð¾Ð»ÑŒÐºÐ¾ Ð´Ð»Ñ Ð´ÐµÐºÐ¾Ð´ÐµÑ€Ð°), при Ñтом вычиÑлительные затраты (во флопах) на токен во Ð²Ñ€ÐµÐ¼Ñ Ð²Ñ‹Ð²Ð¾Ð´Ð° равны ~ 2N, где N - количеÑтво параметров модели.14 Nvidia A100 в наÑтоÑщее Ð²Ñ€ÐµÐ¼Ñ ÑвлÑетÑÑ Ð½Ð°Ð¸Ð±Ð¾Ð»ÐµÐµ Ñкономичным вариантом графичеÑкого процеÑÑора от AWS, а ÑÑ„Ñ„ÐµÐºÑ‚Ð¸Ð²Ð½Ð°Ñ Ð¿Ð¾Ñ‡Ð°ÑÐ¾Ð²Ð°Ñ Ñтавка ÑкземплÑра AWS P4 Ñ 8 A100 ÑоÑтавлÑет 19,22 доллара СШРв Ñ‡Ð°Ñ Ð¿Ñ€Ð¸ уÑловии предварительного Ð±Ñ€Ð¾Ð½Ð¸Ñ€Ð¾Ð²Ð°Ð½Ð¸Ñ Ð½Ð° 1 год.15 Каждый A100 обеÑпечивает пиковую производительноÑÑ‚ÑŒ Ñмешанной точноÑти FP16 / FP32 в 312 ТФЛОПС (Ñ‚ÐµÑ€Ð°Ð¤Ð›ÐžÐŸÑ Ð² Ñекунду), ключевую метрику Ð´Ð»Ñ Ð¾Ð±ÑƒÑ‡ÐµÐ½Ð¸Ñ LLM и вывода.16 Ð¡Ð¼ÐµÑˆÐ°Ð½Ð½Ð°Ñ Ñ‚Ð¾Ñ‡Ð½Ð¾ÑÑ‚ÑŒ FP16 / FP32 отноÑитÑÑ Ðº выполнению операций в 16-битном формате (FP16) при Ñохранении информации в 32-битном формате (FP32). Ð¡Ð¼ÐµÑˆÐ°Ð½Ð½Ð°Ñ Ñ‚Ð¾Ñ‡Ð½Ð¾ÑÑ‚ÑŒ обеÑпечивает более выÑокую пропуÑкную ÑпоÑобноÑÑ‚ÑŒ FLOPS за Ñчет меньших накладных раÑходов FP16 при Ñохранении чиÑловой ÑтабильноÑти, необходимой Ð´Ð»Ñ Ð¿Ð¾Ð»ÑƒÑ‡ÐµÐ½Ð¸Ñ Ñ‚Ð¾Ñ‡Ð½Ñ‹Ñ… результатов.17 Мы предполагаем, что иÑпользование FLOPS модели ÑоÑтавлÑет 21,3%, в ÑоответÑтвии Ñ GPT-3 во Ð²Ñ€ÐµÐ¼Ñ Ð¾Ð±ÑƒÑ‡ÐµÐ½Ð¸Ñ (более поздние модели доÑтигли более выÑокой ÑффективноÑти, но иÑпользование оÑтаетÑÑ Ñложным Ð´Ð»Ñ Ð²Ñ‹Ð²Ð¾Ð´Ð° Ñ Ð½Ð¸Ð·ÐºÐ¾Ð¹ задержкой).18 Таким образом, Ð´Ð»Ñ Ð¼Ð¾Ð´ÐµÐ»Ð¸ параметров 175B, такой как GPT-3: Мы также применÑем те же вычиÑлениÑ, оÑнованные на ценообразовании GCP TPU v4, Ñ Ð°Ð½Ð°Ð»Ð¾Ð³Ð¸Ñ‡Ð½Ñ‹Ð¼Ð¸ результатами:19 ÐžÑ†ÐµÐ½Ð¾Ñ‡Ð½Ð°Ñ ÑтоимоÑÑ‚ÑŒ вывода GPT-3 на 1000 токенов от облачного провайдера (AWS, GCP) Ðаша Ð¿Ñ€ÐµÐ´Ð¿Ð¾Ð»Ð°Ð³Ð°ÐµÐ¼Ð°Ñ ÑтоимоÑÑ‚ÑŒ в $ 0.0035 / 1000 токенов ÑоÑтавлÑет ~ 20% от цены API OpenAI в размере $ 0.02 / 1000 токенов, что означает ~ 80% валовой прибыли при уÑловии, что машины никогда не проÑтаивают. Ðта оценка примерно ÑоответÑтвует нашему более раннему предположению о 75% валовой прибыли, что позволÑет проверить наш Ñквивалент ChatGPT и 2-Ñтапную оценку затрат на поиÑк в поиÑковом обобщителе. Ркак наÑчет ÑтоимоÑти обучениÑ? Ð”Ñ€ÑƒÐ³Ð°Ñ Ð³Ð¾Ñ€ÑÑ‡Ð°Ñ Ñ‚ÐµÐ¼Ð° - Ñколько будет Ñтоить обучение GPT-3 (параметры 175B) или более поздним LLM, таким как Gopher (параметры 280B) и PaLM (параметры 540B). Ðаша Ñтруктура Ð´Ð»Ñ Ð¾Ñ†ÐµÐ½ÐºÐ¸ вычиÑлительных затрат на оÑнове количеÑтва параметров и токенов также применÑетÑÑ Ð·Ð´ÐµÑÑŒ, Ñ Ð½ÐµÐ±Ð¾Ð»ÑŒÑˆÐ¸Ð¼Ð¸ изменениÑми: СтоимоÑÑ‚ÑŒ Ð¾Ð±ÑƒÑ‡ÐµÐ½Ð¸Ñ Ð·Ð° токен ÑоÑтавлÑет ~ 6 N (против ~ 2N Ð´Ð»Ñ Ð²Ñ‹Ð²Ð¾Ð´Ð°), где N - количеÑтво параметров LLM20 Мы предполагаем, что иÑпользование провалов модели ÑоÑтавлÑет 46,2% во Ð²Ñ€ÐµÐ¼Ñ Ð¾Ð±ÑƒÑ‡ÐµÐ½Ð¸Ñ (против 21,3% при выводе ранее), как Ñто было доÑтигнуто Ñ Ð¿Ð¾Ð¼Ð¾Ñ‰ÑŒÑŽ модели PaLM Ñ Ð¿Ð°Ñ€Ð°Ð¼ÐµÑ‚Ñ€Ð°Ð¼Ð¸ 540B на чипах TPU v4 21 GPT-3 имеет параметры 175B и был обучен на токенах 300B. ПредполагаÑ, что мы иÑпользуем чипы GCP TPU v4, как Google Ñделал Ñ Ð¼Ð¾Ð´ÐµÐ»ÑŒÑŽ PaLM, мы оцениваем ÑтоимоÑÑ‚ÑŒ Ð¾Ð±ÑƒÑ‡ÐµÐ½Ð¸Ñ ÑÐµÐ³Ð¾Ð´Ð½Ñ Ð²Ñего в ~ 1,4 млн. Мы также можем применить Ñту Ñтруктуру, чтобы получить предÑтавление о том, во что обойдетÑÑ Ð¾Ð±ÑƒÑ‡ÐµÐ½Ð¸Ðµ некоторых из еще более крупных LLM: ÐžÑ€Ð¸ÐµÐ½Ñ‚Ð¸Ñ€Ð¾Ð²Ð¾Ñ‡Ð½Ð°Ñ ÑтоимоÑÑ‚ÑŒ Ð¾Ð±ÑƒÑ‡ÐµÐ½Ð¸Ñ LLM на чипах GCP TPU v4 Введите Ñвой Ð°Ð´Ñ€ÐµÑ Ñлектронной почты… ПодпиÑка ÐžÐ±Ñ‰Ð°Ñ Ñтруктура Ð´Ð»Ñ Ð¾Ð¿Ñ€ÐµÐ´ÐµÐ»ÐµÐ½Ð¸Ñ Ñ‚Ñ€Ð°ÐµÐºÑ‚Ð¾Ñ€Ð¸Ð¸ затрат Мы Ñуммируем нашу Ñтруктуру Ð´Ð»Ñ Ð²Ñ‹Ð²Ð¾Ð´Ð° LLM или ÑтоимоÑти Ð¾Ð±ÑƒÑ‡ÐµÐ½Ð¸Ñ Ñледующим образом: СтоимоÑÑ‚ÑŒ вывода и Ð¾Ð±ÑƒÑ‡ÐµÐ½Ð¸Ñ LLM-транÑформаторов Ñ Ð°ÐºÑ‚Ð¸Ð²Ð¸Ñ€Ð¾Ð²Ð°Ð½Ð½Ñ‹Ð¼ декодером только Ð´Ð»Ñ Ð´ÐµÐºÐ¾Ð´ÐµÑ€Ð° (где “N†- количеÑтво параметров модели, а “процеÑÑор†отноÑитÑÑ Ð»Ð¸Ð±Ð¾ к TPU, GPU, либо к другому уÑкорителю тензорной обработки) Из Ñтого Ñледует, что при уÑловии, что архитектуры LLM оÑтаютÑÑ Ð¿Ð¾Ñ…Ð¾Ð¶Ð¸Ð¼Ð¸, ÑтоимоÑÑ‚ÑŒ вывода и Ð¾Ð±ÑƒÑ‡ÐµÐ½Ð¸Ñ Ð±ÑƒÐ´ÐµÑ‚ менÑÑ‚ÑŒÑÑ Ð² завиÑимоÑти от приведенных выше переменных. Мы подробно раÑÑмотрим каждую переменную, но ключевым выводом ÑвлÑетÑÑ Ñледующее: Обучение или вывод Ñ Ð¿Ð¾Ð¼Ð¾Ñ‰ÑŒÑŽ модели, ÐºÐ¾Ñ‚Ð¾Ñ€Ð°Ñ Ð¾Ð±Ð»Ð°Ð´Ð°ÐµÑ‚ такими же возможноÑÑ‚Ñми, как GPT-3, Ñтало дешевле более чем на 80% Ñ Ð¼Ð¾Ð¼ÐµÐ½Ñ‚Ð° ее выпуÑка в 2020 году. Краткое изложение ÑÐ¾ÐºÑ€Ð°Ñ‰ÐµÐ½Ð¸Ñ Ð·Ð°Ñ‚Ñ€Ð°Ñ‚ на вывод и обучение по Ñравнению Ñ GPT-3 в 2020 году Ð´Ð»Ñ Ð¼Ð¾Ð´ÐµÐ»Ð¸ Ñ Ð¿Ð°Ñ€Ð¸Ñ‚ÐµÑ‚Ð¾Ð¼ производительноÑти ÐффективноÑÑ‚ÑŒ подÑчета параметров: миф о 10-кратном увеличении моделей каждый год Одним из раÑпроÑтраненных предположений о Ñледующем поколении LLM ÑвлÑетÑÑ Ð¿Ð¾Ñ‚ÐµÐ½Ñ†Ð¸Ð°Ð» Ð´Ð»Ñ Ð¼Ð¾Ð´ÐµÐ»ÐµÐ¹ Ñ Ñ‚Ñ€Ð¸Ð»Ð»Ð¸Ð¾Ð½Ð°Ð¼Ð¸ параметров (плотно активированных), ÑƒÑ‡Ð¸Ñ‚Ñ‹Ð²Ð°Ñ ÑкÑпоненциальный роÑÑ‚ параметров за поÑледние 5 лет: РоÑÑ‚ количеÑтва параметров модели в LLMS LLM увеличивают количеÑтво параметров примерно в 10 раз каждый год, но большинÑтво из них ÑущеÑтвенно не изменили размер наборов обучающих данных: КоличеÑтво параметров модели по Ñравнению Обучающие токены в выбранных LLM (Обучающие вычиÑлительно-оптимальные большие Ñзыковые модели) Однако более позднÑÑ Ð»Ð¸Ñ‚ÐµÑ€Ð°Ñ‚ÑƒÑ€Ð° предполагает, что ÑоÑредоточение Ð²Ð½Ð¸Ð¼Ð°Ð½Ð¸Ñ Ð½Ð° маÑштабировании количеÑтва параметров не было лучшим ÑпоÑобом макÑимизировать производительноÑÑ‚ÑŒ, ÑƒÑ‡Ð¸Ñ‚Ñ‹Ð²Ð°Ñ Ñ„Ð¸ÐºÑированные вычиÑлительные реÑурÑÑ‹ и иÑпользование Ð¾Ð±Ð¾Ñ€ÑƒÐ´Ð¾Ð²Ð°Ð½Ð¸Ñ (Ñ‚. Е. Ð”Ð»Ñ Ð¾Ð±ÑƒÑ‡ÐµÐ½Ð¸Ñ â€œÐ²Ñ‹Ñ‡Ð¸Ñлительно-оптимальной†модели): ПодгонÑÑ Ð¿Ð°Ñ€Ð°Ð¼ÐµÑ‚Ñ€Ð¸Ñ‡ÐµÑкую функцию к Ñвоим ÑкÑпериментальным результатам, иÑÑледователи Google DeepMind обнаружили, что Ð´Ð»Ñ Ð¼Ð¸Ð½Ð¸Ð¼Ð¸Ð·Ð°Ñ†Ð¸Ð¸ потерь модели L (Ñ‚. Е. МакÑимизации производительноÑти) количеÑтво параметров N и количеÑтво обучающих токенов D должны увеличиватьÑÑ Ð¿Ñ€Ð¸Ð¼ÐµÑ€Ð½Ð¾ Ñ Ð¾Ð´Ð¸Ð½Ð°ÐºÐ¾Ð²Ð¾Ð¹ ÑкороÑтью: ПараметричеÑÐºÐ°Ñ Ñ„ÑƒÐ½ÐºÑ†Ð¸Ñ Ð´Ð»Ñ Ð¿Ð¾Ñ‚ÐµÑ€Ð¸ модели (обучающие вычиÑлениÑ-оптимальные большие Ñзыковые модели) Ðвторы также обучили модель Ñ Ð¸Ð¼ÐµÐ½ÐµÐ¼ Chinchilla (параметры 70B) Ñ Ñ‚ÐµÐ¼Ð¸ же вычиÑлительными реÑурÑами, что и у Gopher (параметры 280B), но на токенах 1.4T вмеÑто токенов 300B, Ð¿Ñ€ÐµÐ²Ð·Ð¾Ð¹Ð´Ñ Ð·Ð½Ð°Ñ‡Ð¸Ñ‚ÐµÐ»ÑŒÐ½Ð¾ более крупные модели Ñ Ñ‚ÐµÐ¼ же бюджетом FLOPs и тем Ñамым также доказав, что большинÑтво LLM перегружают вычиÑÐ»ÐµÐ½Ð¸Ñ Ð¸ иÑпытывают нехватку данных. ÐŸÑ€Ð¾Ð³Ð½Ð¾Ð·Ð¸Ñ€ÑƒÐµÐ¼Ð°Ñ Ð¿Ð¾Ñ‚ÐµÑ€Ñ Ð¼Ð¾Ð´ÐµÐ»Ð¸ из-за размера обучающих данных в завиÑимоÑти от параметров модели (меньше ошибок: дикие поÑледÑÑ‚Ð²Ð¸Ñ ÑˆÐ¸Ð½ÑˆÐ¸Ð»Ð»Ñ‹) Ð˜Ð¼ÐµÑ Ð½Ð° 60% меньше параметров (и, Ñледовательно, требований к вычиÑлениÑм Ð´Ð»Ñ Ð²Ñ‹Ð²Ð¾Ð´Ð°), чем GPT-3, Chinchilla по-прежнему легко превоÑходит модель 175B. ФактичеÑки, еÑли бы мы обучили модель параметров 1T Ñ Ñ‚ÐµÐ¼ же набором данных токенов 300B, что и GPT-3, мы вÑе равно ожидали бы, что Ñ‚Ð°ÐºÐ°Ñ Ð¼Ð¾Ð´ÐµÐ»ÑŒ будет хуже Chinchilla: ОтноÑительные величины ÑоответÑтвующих терминов потерь Ð´Ð»Ñ Ð¼Ð¾Ð´ÐµÐ»Ð¸ параметров 1T (Ð¿Ð¾Ñ‚ÐµÑ€Ñ Ð¿Ð°Ñ€Ð°Ð¼ÐµÑ‚Ñ€Ð° модели 0,03 против потери обучающего токена 0,25) также предполагают, что Ð¿Ñ€ÐµÐ´ÐµÐ»ÑŒÐ½Ð°Ñ Ð²Ñ‹Ð³Ð¾Ð´Ð° от ÑƒÐ²ÐµÐ»Ð¸Ñ‡ÐµÐ½Ð¸Ñ Ñ€Ð°Ð·Ð¼ÐµÑ€Ð° модели ниже, чем от ÑƒÐ²ÐµÐ»Ð¸Ñ‡ÐµÐ½Ð¸Ñ Ð¾Ð±ÑŠÐµÐ¼Ð° данных. Ð’ дальнейшем можно добитьÑÑ Ð³Ð¾Ñ€Ð°Ð·Ð´Ð¾ большей производительноÑти, направлÑÑ Ð´Ð¾Ð¿Ð¾Ð»Ð½Ð¸Ñ‚ÐµÐ»ÑŒÐ½Ñ‹Ðµ вычиÑлительные реÑурÑÑ‹ на обучение на больших наборах данных ÑопоÑтавимого качеÑтва, а не на увеличение количеÑтва параметров модели. ÐффективноÑÑ‚ÑŒ затрат / ФЛОПОВ Ð”Ð»Ñ Ð¾Ð±ÑƒÑ‡ÐµÐ½Ð¸Ñ LLM наиболее важным показателем производительноÑти Ð¾Ð±Ð¾Ñ€ÑƒÐ´Ð¾Ð²Ð°Ð½Ð¸Ñ ÑвлÑÑŽÑ‚ÑÑ Ñ€ÐµÐ°Ð»Ð¸Ð·ÑƒÐµÐ¼Ñ‹Ðµ ошибки FP16 / FP32 Ñмешанной точноÑти. Ð£Ð»ÑƒÑ‡ÑˆÐµÐ½Ð¸Ñ Ð°Ð¿Ð¿Ð°Ñ€Ð°Ñ‚Ð½Ð¾Ð³Ð¾ обеÑÐ¿ÐµÑ‡ÐµÐ½Ð¸Ñ Ð±Ñ‹Ð»Ð¸ направлены на минимизацию затрат при макÑимизации 1) макÑимальной пропуÑкной ÑпоÑобноÑти и 2) иÑÐ¿Ð¾Ð»ÑŒÐ·Ð¾Ð²Ð°Ð½Ð¸Ñ Ð¼Ð¾Ð´ÐµÐ»ÑŒÐ½Ñ‹Ñ… ФЛОПОВ. Ð¥Ð¾Ñ‚Ñ Ð¾Ð±Ðµ облаÑти теÑно ÑвÑзаны при разработке аппаратного обеÑпечениÑ, чтобы упроÑтить наш анализ, мы ÑоÑредоточимÑÑ Ð·Ð´ÐµÑÑŒ на пропуÑкной ÑпоÑобноÑти и обÑудим иÑпользование в Ñледующем разделе. До Ñих пор мы приблизительно оценивали Ñоотношение затрат и потерь, раÑÑÐ¼Ð°Ñ‚Ñ€Ð¸Ð²Ð°Ñ Ñ†ÐµÐ½Ñ‹ облачных инÑтанÑов. Чтобы детализировать дальше, мы Ñами оцениваем ÑтоимоÑÑ‚ÑŒ ÑкÑплуатации Ñтих машин, причем оÑновными компонентами ÑвлÑÑŽÑ‚ÑÑ 1) покупка Ð¾Ð±Ð¾Ñ€ÑƒÐ´Ð¾Ð²Ð°Ð½Ð¸Ñ Ð¸ 2) затраты на ÑлектроÑнергию. Чтобы проиллюÑтрировать Ñто, мы Ñнова возвращаемÑÑ Ðº GPT-3, который OpenAI обучал в течение 14,8 дней на 10 000 графичеÑких процеÑÑорах V100 в Microsoft Azure22: СтоимоÑÑ‚ÑŒ Ð¾Ð±ÑƒÑ‡ÐµÐ½Ð¸Ñ GPT-3 Ñ Ð³Ñ€Ð°Ñ„Ð¸Ñ‡ÐµÑким процеÑÑором Nvidia V100 в 2020 году (выброÑÑ‹ углерода и обучение большой нейронной Ñети) Что каÑаетÑÑ ÑтоимоÑти оборудованиÑ, закон Хуанга (ÑоглаÑно генеральному директору Nvidia ДженÑену Хуангу в 2018 году) заÑвил, что графичеÑкие процеÑÑоры раÑтут в 25 раз быÑтрее, чем пÑÑ‚ÑŒ лет назад.23 Ð’ контекÑте Ð¾Ð±ÑƒÑ‡ÐµÐ½Ð¸Ñ LLM значительное повышение производительноÑти было вызвано поÑвлением тензорных Ñдер (в Ñлучае AMD - матричных Ñдер), которые позволили выполнÑÑ‚ÑŒ значительно более производительные и Ñффективные операции Ñо Ñмешанной точноÑтью за Ñчет обработки матриц вмеÑто векторов в качеÑтве вычиÑлительного примитива. Nvidia впервые предÑтавила тензорные Ñдра в 2016 году Ñ Ð³Ñ€Ð°Ñ„Ð¸Ñ‡ÐµÑкими процеÑÑорами Ð´Ð»Ñ Ñ†ÐµÐ½Ñ‚Ñ€Ð¾Ð² обработки данных V100. Ð¥Ð¾Ñ‚Ñ ÑƒÐ»ÑƒÑ‡ÑˆÐµÐ½Ð¸Ðµ менее значительно по Ñравнению Ñ Ñкачком Ñ Ð¿ÐµÑ€Ð²Ð¾Ð½Ð°Ñ‡Ð°Ð»ÑŒÐ½Ð¾Ð³Ð¾ Ð²Ð½ÐµÐ´Ñ€ÐµÐ½Ð¸Ñ Ñ‚ÐµÐ½Ð·Ð¾Ñ€Ð½Ñ‹Ñ… Ñдер, каждое поÑледующее поколение тензорных Ñдер увеличивало пропуÑкную ÑпоÑобноÑÑ‚ÑŒ / $. Ð¡ÐµÐ³Ð¾Ð´Ð½Ñ Ð¼Ñ‹ по-прежнему наблюдаем увеличение пропуÑкной ÑпоÑобноÑти по Ñравнению Ñ Ð¿Ñ€ÐµÐ´Ñ‹Ð´ÑƒÑ‰Ð¸Ð¼ поколением на 50% (или ~ 22% в год) Ð´Ð»Ñ Ð³Ñ€Ð°Ñ„Ð¸Ñ‡ÐµÑких процеÑÑоров центров обработки данных, иÑпользуемых Ð´Ð»Ñ Ð¾Ð±ÑƒÑ‡ÐµÐ½Ð¸Ñ LLM: ПропуÑÐºÐ½Ð°Ñ ÑпоÑобноÑÑ‚ÑŒ GPU FP16 / FP32 Ð´Ð»Ñ Ñ†ÐµÐ½Ñ‚Ñ€Ð¾Ð² обработки данных / $ (Nvidia) ГрафичеÑкие процеÑÑоры Ð´Ð»Ñ Ð½Ð°Ñтольных компьютеров и центров обработки данных, пропуÑÐºÐ½Ð°Ñ ÑпоÑобноÑÑ‚ÑŒ / $ по точноÑти (Nvidia, тенденции в облаÑти вычиÑлений и ÑÐ½ÐµÑ€Ð³Ð¾Ð¿Ð¾Ñ‚Ñ€ÐµÐ±Ð»ÐµÐ½Ð¸Ñ Ð¿Ñ€Ð¸ выводе глубокого обучениÑ) ÐнергоÑффективноÑÑ‚ÑŒ повышаетÑÑ ÐµÑ‰Ðµ быÑтрее. Ð¡ÐµÐ³Ð¾Ð´Ð½Ñ Ð¼Ñ‹ наблюдаем увеличение пропуÑкной ÑпоÑобноÑти / ватт на 80% по Ñравнению Ñ Ð¿Ñ€ÐµÐ´Ñ‹Ð´ÑƒÑ‰Ð¸Ð¼ поколением (или на 34% в год) Ð´Ð»Ñ Ð³Ñ€Ð°Ñ„Ð¸Ñ‡ÐµÑких процеÑÑоров центров обработки данных, иÑпользуемых Ð´Ð»Ñ Ð¾Ð±ÑƒÑ‡ÐµÐ½Ð¸Ñ LLM: ГрафичеÑкие процеÑÑоры центра обработки данных FP16 / FP32 пропуÑÐºÐ½Ð°Ñ ÑпоÑобноÑÑ‚ÑŒ / Ð’Ñ‚ (Nvidia) ПроизводительноÑÑ‚ÑŒ графичеÑких процеÑÑоров Ð´Ð»Ñ Ð½Ð°Ñтольных компьютеров и центров обработки данных / Ð’Ñ‚ по точноÑти (Nvidia, тенденции в облаÑти вычиÑлений и ÑÐ½ÐµÑ€Ð³Ð¾Ð¿Ð¾Ñ‚Ñ€ÐµÐ±Ð»ÐµÐ½Ð¸Ñ Ð¿Ñ€Ð¸ выводе глубокого обучениÑ) ОÑновываÑÑÑŒ на улучшениÑÑ… по Ñравнению Ñ V100 (Ñ Ð¿Ð¾Ð¼Ð¾Ñ‰ÑŒÑŽ которого обучалÑÑ GPT-3) только Ñ Ð¿Ñ€ÐµÐ´ÑтоÑщим H100, мы ожидаем, что ÑтоимоÑÑ‚ÑŒ Ð¾Ð±ÑƒÑ‡ÐµÐ½Ð¸Ñ Ð²Ð½ÑƒÑ‚Ñ€Ð¸ компании будет на 58% ниже (312 Ñ‚Ñ‹Ñ. долл. вмеÑто 744 Ñ‚Ñ‹Ñ. долл.).). СтоимоÑÑ‚ÑŒ Ð¾Ð±ÑƒÑ‡ÐµÐ½Ð¸Ñ GPT-3 Ñ Ð³Ñ€Ð°Ñ„Ð¸Ñ‡ÐµÑким процеÑÑором Nvidia H100 ÑÐµÐ³Ð¾Ð´Ð½Ñ Ð’ будущем мы ожидаем Ð¿Ñ€Ð¾Ð´Ð¾Ð»Ð¶ÐµÐ½Ð¸Ñ ÐºÐ¾Ð½ÑтрукторÑких инноваций, которые приведут к поÑтепенному повышению как ÑтоимоÑти оборудованиÑ, так и ÑнергоÑффективноÑти. Ðапример, Ð¿ÐµÑ€ÐµÑ…Ð¾Ð´Ñ Ñ Ð³Ñ€Ð°Ñ„Ð¸Ñ‡ÐµÑкого процеÑÑора V100 на графичеÑкий процеÑÑор A100, Nvidia добавила функции разреженноÑти, которые дополнительно увеличивают пропуÑкную ÑпоÑобноÑÑ‚ÑŒ в 2 раза Ð´Ð»Ñ Ð½ÐµÐºÐ¾Ñ‚Ð¾Ñ€Ñ‹Ñ… архитектур глубокого обучениÑ.24 Ð’ H100 ÐºÐ¾Ð¼Ð¿Ð°Ð½Ð¸Ñ Ð´Ð¾Ð±Ð°Ð²Ð»Ñет вÑтроенную поддержку типов данных FP8, что может привеÑти к дальнейшему повышению пропуÑкной ÑпоÑобноÑти в Ñочетании Ñ ÑущеÑтвующими методами, такими как квантование Ð´Ð»Ñ Ð²Ñ‹Ð²Ð¾Ð´Ð°.25 Кроме того, мы Ñтали ÑвидетелÑми поÑÐ²Ð»ÐµÐ½Ð¸Ñ Ð¿Ñ€Ð¾Ñ†ÐµÑÑорных процеÑÑоров и других Ñпециализированных чипов, которые коренным образом переÑтраивают архитектуру чипов Ð´Ð»Ñ Ð¸ÑÐ¿Ð¾Ð»ÑŒÐ·Ð¾Ð²Ð°Ð½Ð¸Ñ Ð² ÑлучаÑÑ… глубокого обучениÑ. TPU от Google поÑтроен на архитектуре systolic array, ÐºÐ¾Ñ‚Ð¾Ñ€Ð°Ñ Ð·Ð½Ð°Ñ‡Ð¸Ñ‚ÐµÐ»ÑŒÐ½Ð¾ Ñокращает иÑпользование региÑтров и повышает пропуÑкную ÑпоÑобноÑÑ‚ÑŒ.26 Как мы увидим в Ñледующем разделе, многие из недавних улучшений аппаратного обеÑÐ¿ÐµÑ‡ÐµÐ½Ð¸Ñ Ð±Ñ‹Ð»Ð¸ направлены на улучшение иÑÐ¿Ð¾Ð»ÑŒÐ·Ð¾Ð²Ð°Ð½Ð¸Ñ Ð°Ð¿Ð¿Ð°Ñ€Ð°Ñ‚Ð½Ð¾Ð³Ð¾ обеÑÐ¿ÐµÑ‡ÐµÐ½Ð¸Ñ Ð¿Ð¾ мере маÑÑˆÑ‚Ð°Ð±Ð¸Ñ€Ð¾Ð²Ð°Ð½Ð¸Ñ Ð¾Ð±ÑƒÑ‡ÐµÐ½Ð¸Ñ Ð¸ вывода Ð´Ð»Ñ Ð¼Ð¾Ð´ÐµÐ»ÐµÐ¹ Ñ Ð±Ð¾Ð»ÑŒÑˆÐ¸Ð¼Ð¸ параметрами. Ð£Ð»ÑƒÑ‡ÑˆÐµÐ½Ð¸Ñ Ð² иÑпользовании аппаратного обеÑÐ¿ÐµÑ‡ÐµÐ½Ð¸Ñ ÐžÐ´Ð½Ð¾Ð¹ из оÑновных проблем в обучении LLM была необходимоÑÑ‚ÑŒ маÑÑˆÑ‚Ð°Ð±Ð¸Ñ€Ð¾Ð²Ð°Ð½Ð¸Ñ Ñтих моделей от одного чипа до неÑкольких ÑиÑтем и до ÑƒÑ€Ð¾Ð²Ð½Ñ ÐºÐ»Ð°Ñтера из-за значительных требований к памÑти. Ð”Ð»Ñ ÐºÐ¾Ð½Ñ‚ÐµÐºÑта, в типичной наÑтройке Ð¾Ð±ÑƒÑ‡ÐµÐ½Ð¸Ñ LLM объем памÑти, необходимый Ð´Ð»Ñ Ñ…Ñ€Ð°Ð½ÐµÐ½Ð¸Ñ ÑоÑтоÑний оптимизатора, градиентов и параметров, ÑоÑтавлÑет 20 N, где N - количеÑтво параметров модели.27 Таким образом, BERT-Large, один из первых LLM 2018 года Ñ Ð¿Ð°Ñ€Ð°Ð¼ÐµÑ‚Ñ€Ð°Ð¼Ð¸ 340M, требовал вÑего 6,8 ГБ памÑти, легко впиÑываÑÑÑŒ в один графичеÑкий процеÑÑор наÑтольного клаÑÑа. С другой Ñтороны, Ð´Ð»Ñ Ð¼Ð¾Ð´ÐµÐ»Ð¸ Ñ Ð¿Ð°Ñ€Ð°Ð¼ÐµÑ‚Ñ€Ð°Ð¼Ð¸ 175B, такой как GPT-3, потребноÑÑ‚ÑŒ в памÑти ÑоÑтавлÑет 3,5 ТБ. Между тем, новейший графичеÑкий процеÑÑор Nvidia Ð´Ð»Ñ Ñ†ÐµÐ½Ñ‚Ñ€Ð¾Ð² обработки данных, H100, Ñодержит вÑего 80 ГБ памÑти Ñ Ð²Ñ‹Ñокой пропуÑкной ÑпоÑобноÑтью (HBM), что предполагает, что Ð´Ð»Ñ ÑоответÑÑ‚Ð²Ð¸Ñ Ñ‚Ñ€ÐµÐ±Ð¾Ð²Ð°Ð½Ð¸Ñм GPT-3 к памÑти требуетÑÑ Ð½Ðµ менее 44 H100.28 Кроме того, GPT-3 требовал 14,8 дней Ð´Ð»Ñ Ð¾Ð±ÑƒÑ‡ÐµÐ½Ð¸Ñ Ð´Ð°Ð¶Ðµ на 10 000 графичеÑких процеÑÑорах V100. Таким образом, очень важно, чтобы иÑпользование флопов оÑтавалоÑÑŒ выÑоким, даже неÑÐ¼Ð¾Ñ‚Ñ€Ñ Ð½Ð° то, что мы увеличиваем количеÑтво фишек Ð´Ð»Ñ Ð¾Ð±ÑƒÑ‡ÐµÐ½Ð¸Ñ. Первое измерение иÑÐ¿Ð¾Ð»ÑŒÐ·Ð¾Ð²Ð°Ð½Ð¸Ñ Ð°Ð¿Ð¿Ð°Ñ€Ð°Ñ‚Ð½Ð¾Ð³Ð¾ обеÑÐ¿ÐµÑ‡ÐµÐ½Ð¸Ñ Ð½Ð°Ñ…Ð¾Ð´Ð¸Ñ‚ÑÑ Ð½Ð° уровне одного чипа. При обучении модели GPT-2 на одном графичеÑком процеÑÑоре A100 загрузка аппаратного обеÑÐ¿ÐµÑ‡ÐµÐ½Ð¸Ñ Ð´Ð¾Ñтигла 35,7%.29 Одним из узких меÑÑ‚ при иÑпользовании Ð¾Ð±Ð¾Ñ€ÑƒÐ´Ð¾Ð²Ð°Ð½Ð¸Ñ Ð¾ÐºÐ°Ð·Ñ‹Ð²Ð°ÐµÑ‚ÑÑ Ð²ÑÑ‚Ñ€Ð¾ÐµÐ½Ð½Ð°Ñ Ð¿Ð°Ð¼ÑÑ‚ÑŒ и емкоÑÑ‚ÑŒ: вычиÑÐ»ÐµÐ½Ð¸Ñ Ð² Ñдрах процеÑÑора требуют повторного доÑтупа к HBM, а недоÑÑ‚Ð°Ñ‚Ð¾Ñ‡Ð½Ð°Ñ Ð¿Ñ€Ð¾Ð¿ÑƒÑÐºÐ½Ð°Ñ ÑпоÑобноÑÑ‚ÑŒ Ñнижает пропуÑкную ÑпоÑобноÑÑ‚ÑŒ. Ðналогичным образом, ограниченный объем локальной памÑти может привеÑти к более чаÑтым чтениÑм из HBM Ñ Ð±Ð¾Ð»ÐµÐµ выÑокой задержкой, Ð¾Ð³Ñ€Ð°Ð½Ð¸Ñ‡Ð¸Ð²Ð°Ñ Ð¿Ñ€Ð¾Ð¿ÑƒÑкную ÑпоÑобноÑÑ‚ÑŒ.30 Второй аÑпект иÑÐ¿Ð¾Ð»ÑŒÐ·Ð¾Ð²Ð°Ð½Ð¸Ñ ÑвÑзан Ñ Ð¼Ð°Ñштабированием от чипа к чипу. Обучение LLM Ð´Ð»Ñ Ñ‚Ð°ÐºÐ¸Ñ… моделей, как GPT-3, требует Ñ€Ð°Ð·Ð´ÐµÐ»ÐµÐ½Ð¸Ñ Ð¼Ð¾Ð´ÐµÐ»Ð¸ и данных на множеÑтво графичеÑких процеÑÑоров. Так же, как пропуÑÐºÐ½Ð°Ñ ÑпоÑобноÑÑ‚ÑŒ вÑтроенной памÑти может быть узким меÑтом, пропуÑÐºÐ½Ð°Ñ ÑпоÑобноÑÑ‚ÑŒ межкриÑталлитных Ñоединений также может быть ограничивающим фактором. NVLink от Nvidia обеÑпечил пропуÑкную ÑпоÑобноÑÑ‚ÑŒ 300 Гбит / Ñ Ð½Ð° графичеÑкий процеÑÑор Ñ Ð²Ñ‹Ð¿ÑƒÑком верÑии V100. Ðта цифра увеличилаÑÑŒ в 2 раза Ð´Ð»Ñ A100.31 ПоÑледним аÑпектом иÑÐ¿Ð¾Ð»ÑŒÐ·Ð¾Ð²Ð°Ð½Ð¸Ñ ÑвлÑетÑÑ Ð¼ÐµÐ¶ÑиÑтемное маÑштабирование. Одна машина вмещает до 16 графичеÑких процеÑÑоров, поÑтому маÑштабирование до большего чиÑла графичеÑких процеÑÑоров требует, чтобы межÑÐ¾ÐµÐ´Ð¸Ð½ÐµÐ½Ð¸Ñ Ð¼ÐµÐ¶Ð´Ñƒ ÑиÑтемами не Ñнижали производительноÑÑ‚ÑŒ. С Ñтой целью HCA Infiniband от Nvidia за поÑледние 3 года увеличили макÑимальную пропуÑкную ÑпоÑобноÑÑ‚ÑŒ в 2 раза.32 Во втором и третьем измерениÑÑ… ÑÑ‚Ñ€Ð°Ñ‚ÐµÐ³Ð¸Ñ Ñ€Ð°Ð·Ð´ÐµÐ»ÐµÐ½Ð¸Ñ Ð¿Ñ€Ð¾Ð³Ñ€Ð°Ð¼Ð¼Ð½Ð¾Ð³Ð¾ обеÑÐ¿ÐµÑ‡ÐµÐ½Ð¸Ñ ÑвлÑетÑÑ Ñ€ÐµÑˆÐ°ÑŽÑ‰Ð¸Ð¼ фактором Ð´Ð»Ñ Ñффективного иÑпользованиÑ. Ð‘Ð»Ð°Ð³Ð¾Ð´Ð°Ñ€Ñ Ñочетанию методов параллелизма моделей и данных обучение LLM на уровне клаÑтера Ð´Ð»Ñ Ñ‡Ð¸Ð¿Ð¾Ð² Nvidia доÑтигло 30,2% иÑÐ¿Ð¾Ð»ÑŒÐ·Ð¾Ð²Ð°Ð½Ð¸Ñ FLOPS модели Ñ MT-NLG в 2022 году33, по Ñравнению Ñ 21,3% в 2020 году Ñ GPT-3: Модель ÐЕ позволÑет иÑпользовать выбранные LLM (PaLM: маÑштабирование Ñзыкового Ð¼Ð¾Ð´ÐµÐ»Ð¸Ñ€Ð¾Ð²Ð°Ð½Ð¸Ñ Ñ Ð¿Ð¾Ð¼Ð¾Ñ‰ÑŒÑŽ путей) Специализированное оборудование, такое как TPU, доÑтигло еще большей ÑффективноÑти. Модель PaLM Ñ Ð¿Ð°Ñ€Ð°Ð¼ÐµÑ‚Ñ€Ð¾Ð¼ Google 540B доÑтигла 46,2% иÑÐ¿Ð¾Ð»ÑŒÐ·Ð¾Ð²Ð°Ð½Ð¸Ñ FLOPS на чипах TPU v4, что в 2,2 раза превышает иÑпользование GPT-3 Ð´Ð»Ñ Ð¾Ð±ÑƒÑ‡ÐµÐ½Ð¸Ñ.34 Ðто улучшение иÑÐ¿Ð¾Ð»ÑŒÐ·Ð¾Ð²Ð°Ð½Ð¸Ñ Ð±Ñ‹Ð»Ð¾ вызвано как более Ñффективным раÑпараллеливанием Ð¾Ð±ÑƒÑ‡ÐµÐ½Ð¸Ñ (Ñ Ð¿Ð¾Ð¼Ð¾Ñ‰ÑŒÑŽ ÑиÑтемы Google Pathways ML), так и принципиально иной архитектурой Ñамого TPU. Ðрхитектура ÑиÑтемного маÑÑива чипа и Ð·Ð½Ð°Ñ‡Ð¸Ñ‚ÐµÐ»ÑŒÐ½Ð°Ñ Ð¿Ð»Ð¾Ñ‚Ð½Ð¾ÑÑ‚ÑŒ локальной памÑти на Ñдро Ñнижают чаÑтоту операций Ñ‡Ñ‚ÐµÐ½Ð¸Ñ Ð³Ð»Ð¾Ð±Ð°Ð»ÑŒÐ½Ð¾Ð¹ памÑти Ñ Ð²Ñ‹Ñокой задержкой. Ð’ аналогичном ключе мы также видели, как такие компании, как Cerebras, Graphcore и SambaNova, выделÑÑŽÑ‚ значительно больший объем ÑовмеÑтно иÑпользуемой памÑти внутри процеÑÑора. Ð’ дальнейшем мы ожидаем, что другие новые инновации, такие как маÑштабирование чипов до ÑƒÑ€Ð¾Ð²Ð½Ñ Ð¿Ð»Ð°Ñтин Ð´Ð»Ñ ÑƒÐ¼ÐµÐ½ÑŒÑˆÐµÐ½Ð¸Ñ Ð·Ð°Ð´ÐµÑ€Ð¶ÐµÐº / ÑƒÐ²ÐµÐ»Ð¸Ñ‡ÐµÐ½Ð¸Ñ Ð¿Ñ€Ð¾Ð¿ÑƒÑкной ÑпоÑобноÑти или оптимизации Ñхем доÑтупа к данным Ñ Ð¿Ð¾Ð¼Ð¾Ñ‰ÑŒÑŽ программируемых уÑтройÑтв, еще больше раÑширÑÑ‚ возможноÑти иÑÐ¿Ð¾Ð»ÑŒÐ·Ð¾Ð²Ð°Ð½Ð¸Ñ Ð¾Ð±Ð¾Ñ€ÑƒÐ´Ð¾Ð²Ð°Ð½Ð¸Ñ.35 Прощальные мыÑли: магиÑтры права готовы к прайм-тайм NYTimes недавно Ñообщила, что Google объÑвила ChatGPT “краÑным ÐºÐ¾Ð´Ð¾Ð¼â€ Ð´Ð»Ñ Ñвоего поиÑкового бизнеÑа.36 С точки Ð·Ñ€ÐµÐ½Ð¸Ñ Ñкономики, наша Ð¿Ñ€Ð¸Ð±Ð»Ð¸Ð·Ð¸Ñ‚ÐµÐ»ÑŒÐ½Ð°Ñ Ð¾Ñ†ÐµÐ½ÐºÐ° затрат на то, что внедрение выÑокопроизводительных LLM в поиÑк обойдетÑÑ Ð¿Ñ€Ð¸Ð¼ÐµÑ€Ð½Ð¾ в 15% доходов от запроÑов, предполагает, что Ñ‚ÐµÑ…Ð½Ð¾Ð»Ð¾Ð³Ð¸Ñ ÑƒÐ¶Ðµ может быть реально развернута. Однако доминирующее положение Google на рынке также не позволÑет ему быть первопроходцем: при более чем 100 миллиардах долларов дохода от поиÑка широкое внедрение технологии Ñнизит прибыльноÑÑ‚ÑŒ на более чем 10 миллиардов долларов. С другой Ñтороны, неудивительно, что Microsoft планирует включить LLM в Bing.37 ÐеÑÐ¼Ð¾Ñ‚Ñ€Ñ Ð½Ð° то, что Ñтруктура затрат выше, чем у традиционного поиÑка, поиÑк на базе LLM не ÑвлÑетÑÑ ÑƒÐ±Ñ‹Ñ‚Ð¾Ñ‡Ð½Ñ‹Ð¼, и ÑÐµÐ³Ð¾Ð´Ð½Ñ Ð´Ð¾Ð»Ñ ÐºÐ¾Ð¼Ð¿Ð°Ð½Ð¸Ð¸ на рынке поиÑковых ÑиÑтем значительно ниже. Ð’ результате, еÑли Microsoft удаÑÑ‚ÑÑ Ð¿Ð¾Ð»ÑƒÑ‡Ð¸Ñ‚ÑŒ долю от Google, конечным результатом, Ñкорее вÑего, вÑе равно будет Ð±Ð¾Ð»ÑŒÑˆÐ°Ñ Ð¿Ñ€Ð¸Ð±Ñ‹Ð»ÑŒ, даже еÑли обÑлуживание ÑущеÑтвующих запроÑов Ñтанет дороже. Что каÑаетÑÑ Ð´Ñ€ÑƒÐ³Ð¸Ñ… продуктов, интереÑно, что LLM уже могут быть выгодно развернуты Ñ Ð½Ð°Ñ†ÐµÐ½ÐºÐ¾Ð¹ типа SaaS. Ðапример, Jasper.ai , который недавно был оценен в 1,5 миллиарда долларов и иÑпользует LLM Ð´Ð»Ñ ÑÐ¾Ð·Ð´Ð°Ð½Ð¸Ñ ÐºÐ¾Ð¿Ð¸Ñ€Ð°Ð¹Ñ‚Ð¸Ð½Ð³Ð°, взимает ~ 82 доллара за 100 Ñ‚Ñ‹ÑÑч Ñлов (Ñквивалент ~ 1,09 доллара за 1000 токенов).38ИÑÐ¿Ð¾Ð»ÑŒÐ·ÑƒÑ API Davinci от OpenAI по цене 0,02 доллара за 1000 токенов, Ð²Ð°Ð»Ð¾Ð²Ð°Ñ Ð¿Ñ€Ð¸Ð±Ñ‹Ð»ÑŒ, вероÑтно, значительно превыÑит 75%, даже еÑли мы выберем неÑколько ответов. Также удивительно, что GPT-3 можно обучить, иÑÐ¿Ð¾Ð»ÑŒÐ·ÑƒÑ ÑÐµÐ³Ð¾Ð´Ð½Ñ Ð² общедоÑтупном облаке вÑего ~ 1,4 млн долларов, и что ÑтоимоÑÑ‚ÑŒ даже Ñамых Ñовременных моделей (например, PaLM за ~ 11,2 млн долларов) не ÑвлÑетÑÑ Ð½ÐµÐ¿Ð¾Ð¼ÐµÑ€Ð½Ð¾ выÑокой Ð´Ð»Ñ ÐºÑ€ÑƒÐ¿Ð½Ñ‹Ñ… компаний. С учетом ÑÐ½Ð¸Ð¶ÐµÐ½Ð¸Ñ Ð·Ð°Ñ‚Ñ€Ð°Ñ‚ на обучение более чем на 80% за поÑледние 2,5 года Ð´Ð»Ñ Ð¼Ð¾Ð´ÐµÐ»Ð¸ качеÑтва GPT-3, обучение выÑокопроизводительных LLM, вероÑтно, Ñтанет еще более доÑтупным. Другими Ñловами, обучение магиÑтров права обходитÑÑ Ð½ÐµÐ´ÐµÑˆÐµÐ²Ð¾, но Ñто также не игра Ñо значительной Ñкономией за Ñчет маÑштаба, Ð²Ð»ÐµÐºÑƒÑ‰Ð°Ñ Ð·Ð° Ñобой огромные первоначальные капитальные затраты, которые окупаютÑÑ Ð³Ð¾Ð´Ð°Ð¼Ð¸. Скорее вÑего, ÑÑ‚Ð°Ñ‚ÑŒÑ â€œChinchilla†предполагает, что в будущем одним из новых дефицитных реÑурÑов Ð´Ð»Ñ Ð¾Ð±ÑƒÑ‡ÐµÐ½Ð¸Ñ LLM ÑвлÑетÑÑ Ð½Ðµ капитал, а объем выÑококачеÑтвенных данных, поÑкольку маÑштабирование количеÑтва параметров модели обеÑпечивает убывающую отдачу. Введите Ñвой Ð°Ð´Ñ€ÐµÑ Ñлектронной почты… ПодпиÑка 1 Ðлфавит 2021 10K 2 Сравнение Google и ChatGPT 3 Microsoft и OpenAI работают над Bing на базе ChatGPT, броÑÐ°Ñ Ð²Ñ‹Ð·Ð¾Ð² Google 4 ПредÑтавлÑем YouChat - помощника по поиÑку Ñ Ð¸ÑкуÑÑтвенным интеллектом, который живет в вашей поиÑковой ÑиÑтеме 5 Google призывает на помощь Ларри Пейджа и Ð¡ÐµÑ€Ð³ÐµÑ Ð‘Ñ€Ð¸Ð½Ð° Ð´Ð»Ñ Ð±Ð¾Ñ€ÑŒÐ±Ñ‹ Ñ Ð˜Ð˜. 6 ChatGPT: Optimizing Langauge Models for Dialogue In practice, ChatGPT also uses RLHF on top of the base 175B parameter language model, but for the sake of simplicity we won’t consider the reinforcement learning cost 7 Teaching language models to support answers with verified quotes 8 ChatGPT: Optimizing Langauge Models for Dialogue 9 OpenAI Pricing 10 Building Software Systems at Google and Lessons Learned 11 What’s New With Google Search 12 Our World in Data: Internet 13 Alphabet 2020 10K 14 Scaling Laws for Neural Language Models 15 AWS EC2 P4 Instances 16 NVIDIA A100 Tensor Core GPU Architecture 17 Mixed precision training Everything described for FP16/FP32 also applies to BF16/FP32 mixed-precision operations, which are supported with similar throughput on the A100 and other processors 18 PaLM: Scaling Langauge Modeling with Pathways 19 Cloud TPU pricing 20 Scaling Laws for Neural Language Models 21 PaLM: Scaling Langauge Modeling with Pathways 22 Carbon Emissions and Large Neural Network Training 23 GTC 2018 Keynote with NVIDIA CEO Jensen Huang 24 NVIDIA A100 Tensor Core GPU Architecture 25 NVIDIA Hopper Architecture In-Depth 26 An in-depth look at Google’s first Tensor Processing Unit (TPU) 27 Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model Assuming 20 bytes of memory per parameter based on using the Adam optimizer using mixed-precision training 28 NVIDIA Hopper Architecture In-Depth 29 State-of-the-Art Language Modeling Using Megatron on the NVIDIA A100 GPU 30 Which GPU(s) to Get for Deep Learning: My Experience and Advice for Using GPUs in Deep Learning 31 NVLink and NVSwitch 32 NVIDIA ConnectX InfiniBand Adapters 33 PaLM: Scaling Langauge Modeling with Pathways 34 PaLM: Scaling Langauge Modeling with Pathways 35 Cerebras Architecture Deep Dive: First Look Inside the HW/SW Co-Design for Deep Learning Graphcore IPU Hardware Overview SambaNova SN10 RDU at Hot Chips 33 36 A New Chat Bot is a ‘Code Red’ for Google’s Search Business 37 Microsoft and OpenAI Working on ChatGPT-Powered Bing in Challenge to Google 38 Jasper.ai Pricing Subscribe to Sunyan’s Substack Launched 4 hours ago Type your email… Subscribe Comments Write a comment… No posts Ready for more? Type your email… Subscribe © 2023 Sunyan Privacy ∙ Terms ∙ Collection notice Start Writing Get the app Substack is the home for great writing Ðаше иÑпользование файлов cookie Мы иÑпользуем необходимые файлы cookie Ð´Ð»Ñ Ð¾Ð±ÐµÑÐ¿ÐµÑ‡ÐµÐ½Ð¸Ñ Ñ€Ð°Ð±Ð¾Ñ‚Ñ‹ нашего Ñайта. Мы также уÑтанавливаем файлы cookie производительноÑти и функциональноÑти, которые помогают нам вноÑить улучшениÑ, измерÑÑ Ð¿Ð¾ÑещаемоÑÑ‚ÑŒ нашего Ñайта. Ð”Ð»Ñ Ð¿Ð¾Ð»ÑƒÑ‡ÐµÐ½Ð¸Ñ Ð±Ð¾Ð»ÐµÐµ подробной информации о файлах cookie, которые мы иÑпользуем, пожалуйÑта, ознакомьтеÑÑŒ Ñ Ð½Ð°ÑˆÐµÐ¹ политикой конфиденциальноÑти.✖