LLM-kmp

Language Models (LM)

Лингвистические понимания LM

Математическая дефиниция LM

Language Models в Wikipedia и Руниверсалис

Дефиниция LM

N-граммные языковые модели

LM как языковая машина

Нейросетевые языковые модели

Представление данных в нейростеевых LM

Нейросетевые технологии LM

Оценка нейросетевых языковых моделей.

Benchmarking

Perplexity

Самая суть

Научные обсуждения языковых моделей

Лингвистические понимания LM

В лингвистике множество несовместимых между собой пониманий "языковой модели"

Доминирует мешанина разных подходов, концепций, взглядов и субъективных мнений...

Например:

Языковая модель (в языкознании) — языковое образование, состоящее из постоянных элементов, объединенных закономерной связью, которые могут быть выражены символами

Азимов Э. Г., Щукин А. Н. Новый словарь методических терминов и понятий (теория и практика обучения языкам). – М.: Издательство ИКАР, 2009. – 448 с.
http://learnteachweb.ru/articles/azimov.pdf

Всё просто и ... не понятно (никому, кроме авторов данной дефиниции ... тех, кому кажется, что им понятно)

Вопросы к дефиниции (без ответов):

что такое "языковое образование"?

что такое элементы языкового образования?

какими могут быть элементы? какими не могут?

что означает постоянство элементов?

почему постоянство элементов атрибут (необходимое свойство)?

какие связи считать "закономерными"?

что означает "закономерность" в данном контексте?

какие элементы языковых образований не могут быть выражены символами?

существуют ли такие элементы вообще?

Невозможно понять, как лингвисты понимают языковую модель (не будучи лингвистами ))

- Никто нас, лингвистов, не понимает ((
- Прекрасно мы вас понимаем ))

Больше лингвистических дефиниций!

Языковая модель (в языкознании) —

искусственно создаваемое реальное или мысленное устройство, воспроизводящее, имитирующее языковое явление в более упрощенном виде [Большой энциклопедический словарь];

некая общая схема описания системы языка, какой-либо его подсистемы или отдельного языкового явления [Кравцова, с.183];

некоторая последовательность абстрактных схем, которые должны явиться более или менее близкой аппроксимацией данных конкретной действительности [Ревзин, 1962, с.8]

и др. и др. и др....

Ввиду многообразия определений, глава Московской семантической школы Апресян Юрий Дериникович предложил типологию лингвистических моделей [Апресян, 1966], отметив, что она не является исчерпывающей:

1) Модели, в которых в качестве объекта выступают конкретные языковые процессы и явления. Это модели речевой деятельности человека или модели владения языком, которые имитируют речевую деятельность человека.

2) Модели, имитирующие исследовательскую деятельность лингвиста, их еще называют моделями исследования. В качестве объекта в этих моделях выступают процедуры, ведущие ученого к обнаружению того или иного языкового явления.

3) Модели, в которых в качестве объекта рассматриваются уже готовые лингвистические описания, а не речевая деятельность человека или исследовательская деятельность лингвиста.

Если обычная грамматика является теорией конкретных языковых процессов, то модель третьего типа является теорией теории, или метатеорией.

Понятия «языковая модель» и «лингвистическая модель» лингвисты используют как синонимы без каких-либо дополнительных комментариев.

Литература по (тёмной) теме:

1. Апресян Ю. Д. Идеи и методы современной структурной лингвистики (краткий очерк). Издательство
«Просвещение», М. 1966. – 304с.
2. Большой энциклопедический словарь. Языкознание / [гл. ред. В.Н. Ярцева]. – М.: БРЭ, 1998. – 685с.
3. Вартофский M. Модели. Репрезентация и научное понимание: Пер. с англ./ Общ. ред. и послесл. И. Б. Новика и
В. Н. Садовского. – М.: Прогресс, 1988. – 507 с.
4. Кравцова Ю.В. Моделирование в современной лингвистике / Вісник Житомирського державного університету
імені Івана Франка. Вип. 5 (77). Фiлологiчнi науки. / [гол. ред. П. Ю. Саух; відп. ред. Н. А. Сейко; відп. секр. Н.
П. Бірук]. – 2014 – с.181-189
5. Новый словарь методических терминов и понятий (теория и практика обучения языкам). — М.: Издательство
ИКАР. Э. Г. Азимов, А. Н. Щукин. 2009. – URL: http://methodological_terms.academic.ru/2438/ЯЗЫКОВАЯ_
МОДЕЛЬ
6. Ревзин И.И. Метод моделирования и типология славянских языков. М.: «Наука», 1967. – 301 с.
7. Ревзин И.И. Модели языка. М.: Изд-во АН СССР, 1962. – 193 с.
140 Culture and Civilization. 2018, Vol. 8, Is. 1А
Elena G. Kudryavtseva
8. Попов В.Г. Физическая реальность и язык. – СПб: Издательство С.-Перерб. ун-та, 2004. – 248 с.
9. Сепир Э. Язык. Введение в изучение речи / Избр. труды по языкознанию и культурологи. URL: http://www.
gumer.info/bibliotek_Buks/Linguist/sepir/04.php – 04.07.2017
10. Шульгин Д.Н. Язык как модель человеческой культуры [Электронный ресурс]: Дис. ... канд. филос. наук:
09.00.01 – 1998. – М.: РГБ, 2005. – 185 с.

Лингвистическое, очень лингвистическое :(

Кудрявцева Елена Геннадьевна

Понятие «языковая модель» в лингвистике, философии и культурологии

http://publishing-vak.ru/file/archive-culture-2018-1/16-kudryavtseva.pdf

Целью создания языковых моделей в лингвистике, моделей деятельности лингвиста и метамоделей в том числе, является создание моделей, имитирующих речевую деятельность человека

Ещё раз, медленнее:

Целью создания ... моделей в лингвистике... является создание моделей (занавес, Карл)

Вскрытие показало, что поциент умер от вскрытия ))

Математическое понимание LM :)

Языковая модель (в математике) — вероятностное распределение на множестве словарных последовательностей.

Всё просто и понятно (в контексте математической культуры: общезначимой и общепринятой):

Вероятностное распределение — область значений случайной величины с указанием соответствующих вероятностей появления этих значений.

Множество — совокупность элементов

Словарная последовательность — текст

В контексте NLP (Natural Language Processing):

Вероятностное распределение — перечень (рейтинг) текстов, распределенных (упорядоченных) по признаку вероятности.

Множество — совокупность текстов (всех возможных последовательностей символов)

Словарная последовательность — текст (произвольная последовательность символов)

Дефиниции языковых моделей (в математике) могут быть выражены различными словами, но, в контексте математической культуры они ВСЕ указывают на один и тот же математический объект и понимаются однозначно.

Language Models в Wikipedia +

Статья создана 22:47, 19 May 2005‎

https://en.wikipedia.org/wiki/Language_model

Статья создана 12:08, 10 февраля 2023‎

https://ru.wikipedia.org/wiki/Языковая_модель

Статья создана 00:14, 6 марта 2023

https://руни.рф/index.php/Языковая_модель

Дефиниция LM

Языковая модель — это статистическая модель, которая определяет и назначает вероятности текстам и их элементам.

Элементы текста могут быть:

слова/граммы/токены,

коллокации,

предложения,

фрагменты (абзацы, части...)

N-граммные языковые модели

Униграммная модель (unigram model) работает лишь на уровне отдельных слов (токенов, грамм).

Униграммная модель, получив последовательность слов, выдаст следующую вероятность слова как произведение отдельных вероятностей, определенных на основе частоты появления слов в обучающем множестве синтаксически корректных предложений.

N-граммная модель (n-gram model) учитывает и предыдущие (n-1) слов для оценки вероятности появления следующего слова.

Например:

в три-граммной модели будут учитываться 2 предшествующих слова,

в 100-граммной модели будут учитываться 99 предшествующих слов

в 5700-граммной модели будут учитываться 4699 предшествующих слов

LM как языковая машина

Языковая модель — это математическая (статистическая, вероятностная) машина

Языковая модель — производит (генерирует) тексты на основе текстов

Работа языковой модели (машины):

На вход языковой модели подаются тексты (цепочки символов, символьные последовательности)
Поданные на вход тексты токенизируются (разбиваются на отдельные элементы (токены)
На основе анализа системы элементов вычисляются вероятности элементов
Предсказываются и генерируются новые символьные цепочки (слова, токены, предложения)
Новые цепочки добавляются к тексту (становясь его новыми элементами)
На основе анализа системы элементов вычисляются вероятности элементов
Предсказываются и генерируются новые символьные цепочки (слова, токены, предложения)
.... ..... .....

LM как основа NLP и AI

Задача языкового моделирования в узком смысле — спрогнозировать следующее слово в тексте, глядя на предшествующие слова, это самая простая задача в сфере обработки языка, результат решения которой имеет конкретное практическое применение в виде автоисправления ошибок и опечаток, интеллектуальных клавиатур и т.п.

На основе подобных прогностических моделей выстраиваются сложные многоуровневые модели для решения практически любых специальных задач автоматической обработки языка.

Языковые модели встраиваются в виде вспомогательных средств в системы различного уровня сложности, предназначенные для решения разнообразных языковых задач:

перевод с одного языка на другой,

классификация текстов,

распознавание речи,

синтез речи по тексту

автореферирование текста

автогенерация текста (разных стилей и жанров)

поддержание диалога

авторедактирование и автокорректура текста

и так далее ... ...

Нейросетевые языковые модели

Языковая модель — это распределение вероятностей по текстам.

Нейросетевая языковая модель — языковая модель, основанная на нейронных сетях, обученных предсказывать следующее слово (токен, грамм, символ) в тексте с учетом предыдущего контекста.

Нейросетевая языковая модель — искусственная нейронная сеть, обученная предсказывать следующее слово (токен, грамм, символ) в тексте с учетом предыдущего контекста.

Первая нейросетевая LM предложена Йошуа Бенжио (https://yoshuabengio.org/) в 2001 году

Ян Гудфеллоу Иошуа Бенджио Аарон Курвилль Глубокое обучение (pdf)

Первая нейросетевая LM реализована на основе нейросети прямого распространения

О нейронных сетях, машинном и глубоком обучении здесь:

Нейронные сети

Машинное обучение

Нейросетевые языковые модели — магистральные актуальные реализации искусственного интеллекта (GPT-4 и его друзья) .

ChatGPT — сервис, предоставляющий пользовательский интерфейс ограниченного взаимодействия с адаптированной и отфильтрованной нейросетевой языковой моделью GPT-4.

Представление данных в нейростеевых LM

При подаче текста на вход нейросетевой языковой модели выполняется его токенизация.

Токенизация - представление текста в виде последовательнойстей токенов.

Токенами могут быть слова, доступные в словаре модели (в LLM объёмы словарей могут быть миллионы токенов)

Если слово отсутствует в словаре, оно разбивается на части (вплоть до отдельного символа), которые в словаре присутствуют.

В самой языковой модели токены кодируются своими векторными представлениями (embeddings, эмбеддингами), включающими содержательную (основную) и позиционную части.

В содержательной части эмбеддинга фиксируются числовые представления самих токенов (в том числе, предобученные)

В позиционной части эмбеддинга фиксируются:

номера, включающих токены фрагментов текста (предложений), чтобы можно было восстановить последовательность при параллельной обработке данных

позиции токена внутри своего фрагмента (предложения).

Выходной слой основной нейросети языковой модели сети включает:

поле, отвечающее за ответ в задаче предсказания следующего предложения,

токены в количестве, равном входному.

Обратное преобразование токенов в вероятностное распределение слов осуществляется полносвязным слоем с количеством нейронов, равным числу токенов в исходном словаре.

Нейросетевые технологии LM

В 1995 году предложена N-граммная модель, легшая в основу основе классических подходов языковых моделей

Improved backing-off for M-gram language modeling
https://ieeexplore.ieee.org/document/479394

В 2000 году предложена первая нейросетевая языковая модель на основе нейросети прямого распространения

Йошуа Бенжио (https://yoshuabengio.org/)

A Neural Probabilistic Language Model
https://proceedings.neurips.cc/paper_files/paper/2000/file/728f206c2a01bf572b5940d7d9a8fa4c-Paper.pdf

В качестве входных данных эта модель принимает векторные представления n предыдущих слов.
В настоящее время для векторных представлений слов используют сжатый вариант — эмбеддинги (word embedding).

В 2008 году для обработки естественного языка было впервые применено многозадачное обучение нейросетей

При многозадачном обучении модели обучаются выполнению различных задач на одних и тех же параметрах. В нейронных сетях этого можно легко добиться, связав веса разных слоев. Фактически при многозадачном обучении модель стимулируют к созданию внутри себя такого представления данных, которые позволяет выполнить сразу много задач.

В 2010 году для языкового моделирования стали использоваться рекуррентные нейронные сети (RNN);

В 2013 году на смену разреженным матрицам векторного представленного текста (модель «мешка слов») пришёл Word embedding (векторное представление слов).

В системе с реализацией word2vec модели, Word embeddings позволил проводить массовое эффективное и быстрое обучение векторных представлений слов.

В 2013 года для языкового моделирования стали использоваться нейросети с долгой краткосрочной памятью (LSTM-сети)

В 2014 для языкового моделирования стали использоваться сверточные нейронные сети

В 2014 для языкового моделирования стали использоваться рекурсивные нейронные сети.

В 2014 предложена модель обучения sequence-to-sequence (последовательность в последовательность).

Механизм seq2seq: одна нейросеть-кодер (encoder) обрабатывает предложение символ за символом и сжимает данные в векторное представление; а вторая нейросеть-декодер (decoder) посимвольно прогнозирует выходные данные, основываясь на состоянии кодера, и принимая в качестве входных данных символ, предсказанный на предыдущем шаге. При помощи seq2seq-моделей работает машинный перевод, извлечение информации +++

В 2015 революцию в обучении нейросетевых LM стал Attention (механизм внимания)

Attention стал ключевой инновацией в области нейронного машинного перевода. Внимание позволило моделям нейронного машинного перевода превзойти классические системы машинного перевода, основанные на переводе фраз. Внимание позволяет декодеру оглядываться на скрытые состояния исходной последовательности, которые затем в виде средневзвешенного значения предоставляются в качестве дополнительных входных данных в декодер.

В 2015 появились нейросети с ассоциативной памятью

Нейросети с ассоциативной памятью стали использовать внимание как форму нечеткой памяти, состоящей из прошлых скрытых состояний модели; модель самостоятельно решает, что именно извлекать из памяти.

В 2016 предложены символьные представления слов

Символьные представления слов (СПС) широко используются для работы с языками с развитой системой морфологических форм, а также при решении задач, где важна морфологическая информация или с большим количеством неизвестных слов. СПС стали основным компонентом моделей для категоризации членов последовательностей и языкового моделирования. СПС устраняют необходимость работы с фиксированным словарем c дополнительными вычислительными затратами и позволяют применять полностью символьный нейронный машинный перевод.

В 2017 году представлены Тransformers

Тransformer — архитектура глубоких нейросетей для обработки последовательностей (текст на естественном языке). В отличие от реккурентных нейросетей трансформеры не требуют обработки последовательностей по порядку. Благодаря этому трансформеры легко распараллеливаются и могут быть быстрее обучены

В 2017 году в различных формах обработки естественного языка стало применяться состязательное обучение

Состязательное обучение применяется в качестве инструмента для исследования моделей и выяснения причин неудач в обучении, для повышения надежности и устойчивости моделей. Генеративные состязательные сети еще не слишком эффективны для генерации естественного языка, но полезны, например, при парном распределении.

В 2018 стали использоваться предварительно обученные языковые модели (предложены в 2015)

Pre-trained векторные представления слов не зависят от контекста, который анализируется в данный момент, и используются только для инициализации весов первого слоя в моделях. Для обучения языковым моделям требуется лишь неразмеченный текст и масштабы обучения могут достигать миллиардов токенов и сотен языков.

В 2018 стало применяться в NLP обучение с подкреплением (reinforcement learning)

Обучение с подкреплением эффективно в моделировании диалога и машинном переводе. Обучение с отрицательным подкреплением оказалось полезно в ситуациях, когда вознаграждение слишком сложно, чтобы его указывать, например, в визуальном повествовании.

Слава ученым!

Успех проекта GPT (Generative Pre-trained Transformer) в значительной степени обеспечен не научными, а инженерными прорывами.

Разработчикам удалось эффективно масштабировав модель добиться качественно более высоких показатей её работыи впечатляющих улучшений производительности.

Это не ново с точки зрения исследований, но преобразующе с точки зрения приложений.

Слава инженерам!

Оценка нейросетевых языковых моделей.

Качество и уровень языковых моделей определяется многими факторами, прежде всего:

качеством и уровнем обучающих данных

архитектурой нейросети

технологиями и особенностями обучения нейросети

назначением нейросети

Для оценки и сравнения языковых моделей используются:

Внешняя оценка, на основе решения с помощью модели задачи, на которую она рассчитана (например, машинного перевода текстов), и анализ итоговых показателей потерь/точности. Это лучший подход к оцениванию моделей, так как это — единственный способ реально оценить то, как разные модели справляются с интересующей нас задачей. Но реализация этого подхода может потребовать больших вычислительных мощностей, его применение может оказаться медленным, так как для этого нужно обучение всей анализируемой системы.

Внутренняя оценка, без учёта конкретных задач, для решения которых их планируется использовать на основе особой метрики. Внутренняя оценка - полезное средство для быстрого сравнения моделей.

Основной метод внешней оценки языковых моделей - бенчмаркинг

Основной метод внутренней оценки языковых моделей — вычисление перплексии.

Benchmarking

Benchmarking (бенчмаркинг, эталонное оценивание) — сопоставительного анализ результатов работы информационной системы на основе эталонных показателей по итогам выполнения стандартизованных наборов задач

https://ru.wikipedia.org/wiki/Бенчмаркинг

https://en.wikipedia.org/wiki/Benchmarking

Бенчмаркинг включает:

создание эталона (стандарта);

исследование (измерение) на соответствие эталону;

сравнение систем по результатам исследований;

применение самых удачных решений.

Обычно за образец принимают «лучший» результат работы, который является лишь ориентиром.

Benchmarking играет ключевую роль в развитии современной автоматической обработки текстов

Актуальные системы бенчмаркина для направлений NLP:

понимание естественного языка (GLUE, SuperGLUE, RUSSIAN SUPERGLUE),

генерация текста на естественном языке (GEM),

перенос обучения между языками (XGLUE, XTREME),

диагностическое тестирование и интерпретация языковых моделей (LINSPECTOR, SentEval),

определение ненависти и стереотипов в текстах (HateCheck, StereoSet, HONEST)

устойчивость к атакам (RobustnessGym, AdvGLUE).

Perplexity

Для сравнения качества языковых моделей используется перплексия.

Перплексия (Perplexity) — мера того, насколько хорошо распределение вероятностей предсказывает выборку.

Перплексия является безразмерной величиной

Низкий показатель перплексии указывает на то, что распределение вероятности хорошо предсказывает выборку.

Если предложения тестовой выборки состоят из 1000 слов и могут быть закодированы с использованием 7,95 бита на слово, то перплексия модели составит 247 на слово.

Наименьшее значение перплексии, которое было расcчитано для корпуса текстов Брауна (1 000 000 слов американского английского различных тем и жанров), составляет 247 на слово.

Меньшей перплексии проще добиться наспециализированных корпусах текстов, поскольку они более предсказуемы.

Перплексия нейросетевой модели для русского языка ruGPT-3 на тестовой выборке:

для ruGPT-3 Large — 13.6,

для ruGPT-3 XL — 12.05

Perplexity in Language Models

Самая суть

Модель - фрагмент реальности, замещающий собой другой фрагмент реальности
с ... разными целями (в т.ч. исследования, изучения, использования)

Языковая модель, является моделью ... чего?

В лингвистике, языковая модель... может быть моделью чего угодно...
Будучи моделью .. чего угодно, она может быть чем угодно...
Будучи чем угодно, она может быть (бес)полезна для чего угодно!

В CS, языковая модель, это модель языка (языковой машины)

Язык (в CS) - это работающая знаковая машина (система),
производящая (творящая) текстовую реальность

Машина мчится в неизвестное грядущее, а в её салоне спит человечество (грезящее, замечтавшееся, вообразившее себе и о себе невесть что, наивно верящее, что все под контролем...

Сладких снов, "властелины мира" ))

Научные обсуждения языковых моделей

Для исследований языковых моделей есть три крупнейшие конференции: , и .

ICML

https://icml.cc/Conferences/2023

https://en.wikipedia.org/wiki/International_Conference_on_Machine_Learning

ICLR

https://iclr.cc/Conferences/2023

https://blog.iclr.cc/

https://en.wikipedia.org/wiki/International_Conference_on_Learning_Representations

NeurIPS

https://nips.cc/

https://blog.neurips.cc/

https://en.wikipedia.org/wiki/Conference_on_Neural_Information_Processing_Systems

DIALOG

https://www.dialog-21.ru/