Language
Models в Wikipedia и Руниверсалис
Дефиниция LM
N-граммные
языковые модели
LM как
языковая машина
Нейросетевые
языковые модели
Представление
данных в нейростеевых LM
Нейросетевые
технологии LM
Оценка нейросетевых
языковых моделей.
Benchmarking
Perplexity
-
Самая суть
-
Научные обсуждения
языковых моделей
|
Лингвистические понимания LM
В лингвистике множество несовместимых между
собой пониманий "языковой модели"
Доминирует мешанина разных подходов, концепций,
взглядов и субъективных мнений...
Например:
Языковая
модель (в языкознании) — языковое образование, состоящее из
постоянных элементов, объединенных закономерной связью, которые могут
быть выражены символами
Всё просто и ... не понятно
(никому, кроме авторов данной дефиниции ... тех, кому кажется, что им
понятно)
Вопросы к дефиниции (без
ответов):
-
что такое "языковое
образование"?
-
что такое элементы
языкового образования?
-
какими могут быть
элементы? какими не могут?
-
что означает постоянство
элементов?
-
почему постоянство
элементов атрибут (необходимое свойство)?
-
какие связи считать
"закономерными"?
-
что означает
"закономерность" в данном контексте?
-
какие элементы языковых
образований не могут быть выражены символами?
-
существуют ли такие
элементы вообще?
Невозможно понять, как
лингвисты понимают языковую модель
(не будучи лингвистами ))
- Никто нас, лингвистов, не понимает ((
- Прекрасно мы вас понимаем ))
|
Больше лингвистических дефиниций!
Языковая
модель (в языкознании) —
-
искусственно
создаваемое реальное или мысленное устройство, воспроизводящее,
имитирующее языковое явление в более упрощенном виде [Большой
энциклопедический словарь];
-
некая общая схема описания системы языка,
какой-либо его подсистемы или отдельного языкового явления [Кравцова,
с.183];
-
некоторая
последовательность абстрактных схем, которые должны явиться
более или менее близкой аппроксимацией данных конкретной
действительности [Ревзин, 1962, с.8]
-
и др.
и др. и др....
Ввиду многообразия определений, глава
Московской семантической школы Апресян Юрий Дериникович предложил
типологию лингвистических моделей [Апресян, 1966], отметив,
что она не является исчерпывающей:
1) Модели, в которых в качестве объекта выступают конкретные языковые
процессы и явления. Это модели речевой деятельности человека или модели
владения языком, которые имитируют речевую деятельность человека.
2) Модели, имитирующие исследовательскую деятельность лингвиста, их еще
называют моделями исследования. В качестве объекта в этих моделях
выступают процедуры, ведущие ученого к обнаружению того или иного
языкового явления.
3) Модели, в которых в качестве объекта рассматриваются уже готовые
лингвистические описания, а не речевая деятельность человека или
исследовательская деятельность лингвиста.
Если обычная грамматика является теорией конкретных языковых процессов,
то модель третьего типа является теорией теории, или метатеорией.
Понятия «языковая модель» и «лингвистическая
модель» лингвисты используют как синонимы без каких-либо дополнительных
комментариев.
Литература по (тёмной) теме:
1. Апресян Ю. Д. Идеи и методы
современной структурной лингвистики (краткий очерк). Издательство «Просвещение», М. 1966. – 304с. 2. Большой энциклопедический словарь. Языкознание / [гл. ред. В.Н.
Ярцева]. – М.: БРЭ, 1998. – 685с. 3. Вартофский M. Модели. Репрезентация и научное понимание: Пер. с
англ./ Общ. ред. и послесл. И. Б. Новика и В. Н. Садовского. – М.: Прогресс, 1988. – 507 с. 4. Кравцова Ю.В. Моделирование в современной лингвистике / Вісник
Житомирського державного університету імені Івана Франка. Вип. 5 (77). Фiлологiчнi науки. / [гол. ред. П. Ю.
Саух; відп. ред. Н. А. Сейко; відп. секр. Н. П. Бірук]. – 2014 – с.181-189 5. Новый словарь методических терминов и понятий (теория и практика
обучения языкам). — М.: Издательство ИКАР. Э. Г. Азимов, А. Н. Щукин. 2009. – URL: http://methodological_terms.academic.ru/2438/ЯЗЫКОВАЯ_ МОДЕЛЬ 6. Ревзин И.И. Метод моделирования и типология славянских языков. М.:
«Наука», 1967. – 301 с. 7. Ревзин И.И. Модели языка. М.: Изд-во АН СССР, 1962. – 193 с. 140 Culture and Civilization. 2018, Vol. 8, Is. 1А Elena G. Kudryavtseva 8. Попов В.Г. Физическая реальность и язык. – СПб: Издательство
С.-Перерб. ун-та, 2004. – 248 с. 9. Сепир Э. Язык. Введение в изучение речи / Избр. труды по языкознанию
и культурологи. URL: http://www. gumer.info/bibliotek_Buks/Linguist/sepir/04.php – 04.07.2017 10. Шульгин Д.Н. Язык как модель человеческой культуры [Электронный
ресурс]: Дис. ... канд. филос. наук: 09.00.01 – 1998. – М.: РГБ, 2005. – 185 с.
|
Лингвистическое, очень лингвистическое :(
Кудрявцева Елена Геннадьевна
Понятие «языковая
модель» в лингвистике, философии и культурологии
http://publishing-vak.ru/file/archive-culture-2018-1/16-kudryavtseva.pdf
Целью создания языковых моделей в лингвистике, моделей деятельности
лингвиста и метамоделей в том числе, является создание моделей,
имитирующих речевую деятельность человека
Ещё раз, медленнее:
Целью создания
... моделей в лингвистике...
является создание моделей
(занавес, Карл)
Вскрытие показало, что поциент
умер от вскрытия ))
|
Математическ ое
понимание LM :)
Языковая
модель (в математике) —
вероятностное распределение на множестве
словарных последовательностей.
Всё просто и понятно (в
контексте математической культуры: общезначимой и общепринятой):
-
Вероятностное
распределение — область значений случайной величины с указанием
соответствующих вероятностей появления этих значений.
-
Множество — совокупность
элементов
-
Словарная
последовательность
—
текст
В контексте
NLP (Natural Language Processing):
Вероятностное
распределение — перечень (рейтинг) текстов, распределенных
(упорядоченных) по признаку вероятности.
Множество — совокупность
текстов (всех возможных
последовательностей символов)
Словарная
последовательность — текст (произвольная
последовательность символов)
Дефиниции языковых
моделей (в математике) могут быть выражены различными словами, но, в
контексте математической культуры они ВСЕ указывают на один и тот же
математический объект и понимаются однозначно.
|
Language Models в Wikipedia
+
Статья создана
22:47, 19 May 2005
Статья создана
12:08, 10 февраля 2023
Статья создана
00:14, 6 марта 2023
|
Дефиниция LM
Языковая
модель — это статистическая модель, которая определяет и
назначает вероятности текстам и их элементам.
Элементы текста могут быть:
|
N-граммные
языковые модели
Униграммная модель (unigram model) работает лишь на уровне
отдельных слов (токенов, грамм).
Униграммная модель,
получив последовательность слов, выдаст следующую
вероятность слова как произведение отдельных вероятностей,
определенных на основе частоты появления слов в обучающем
множе стве
синтаксически корректных предложений.
N-граммная модель (n-gram model) учитывает и предыдущие
(n-1) слов для оценки вероятности появления следующего слова.
Например:
-
в три-граммной
модели будут учитываться 2 предшествующих слова,
-
в 100-граммной
модели будут учитываться 99 предшествующих слов
-
в 5700-граммной
модели будут учитываться 4699 предшествующих слов
|
LM как языковая машина
Языковая
модель —
это математическая
(статистическая, вероятностная) машина
Языковая
модель —
производит (генерирует) тексты
на основе текстов
Работа языковой модели (машины):
-
На вход языковой модели
подаются тексты (цепочки символов, символьные последовательности)
-
Поданные на вход тексты
токенизируются (разбиваются на отдельные элементы (токены)
-
На основе анализа системы
элементов вычисляются вероятности элементов
-
Предсказываются и
генерируются новые символьные цепочки (слова, токены, предложения)
-
Новые цепочки добавляются к
тексту (становясь его новыми элементами)
-
На основе анализа системы
элементов вычисляются вероятности элементов
-
Предсказываются и
генерируются новые символьные цепочки (слова, токены, предложения)
-
.... ..... .....
|
LM как основа NLP и AI
Задача языкового моделирования в узком смысле — спрогнозировать
следующее слово в тексте, глядя на предшествующие слова, это самая
простая задача в сфере обработки языка, результат решения которой имеет
конкретное практическое применение в виде автоисправления ошибок и
опечаток,
интеллектуальных клавиатур и т.п.
На основе подобных прогностических моделей выстраиваются
сложные многоуровневые модели для решения практически любых специальных
задач автоматической обработки языка.
Языковые модели встраиваются
в
виде вспомогательных средств
в системы различного уровня
сложности, предназначенные для решения
разнообразных языковых задач:
автореферирование текста
автогенерация текста (разных стилей и жанров)
поддержание диалога
авторедактирование и автокорректура текста
и так далее ... ...
|
Нейросете вые
языковые модели
Языковая модель — это распределение
вероятностей по текстам.
Нейросетевая языковая модель
— языковая модель, основанная на
нейронных сетях,
обученных
предсказывать следующее слово (токен, грамм, символ) в тексте с учетом
предыдущего контекста.
Нейросетевая языковая модель
— искусственная нейронная сеть,
обученная предсказывать следующее слово
(токен, грамм, символ) в тексте с учетом предыдущего контекста.
Первая нейросетевая
LM предложена Йошуа Бенжио (https://yoshuabengio.org/)
в 2001 году
Ян Гудфеллоу Иошуа Бенджио Аарон Курвилль
Глубокое обучение (pdf)
Первая нейросетевая LM
реализована на основе
нейросети прямого распространения |
О нейронных сетях, машинном и глубоком обучении здесь:
Нейросетевые языковые модели
—
магистральные актуальные
реализации искусственного интеллекта (GPT-4
и его друзья) .
ChatGPT
—
сервис, предоставляющий пользовательский интерфейс ограниченного
взаимодействия с адаптированной и отфильтрованной нейросетевой
языковой моделью GPT-4.
|
Представление данных в
нейростеевых LM
При подаче текста на вход
нейросетевой языковой модели выполняется его токенизация.
Токенизация - представление
текста в виде последовательнойстей токенов.
Токенами
могут быть
слова, доступные в словаре
модели (в
LLM
объёмы словарей могут быть миллионы токенов)
Если
слово отсутствует в словаре, оно разбивается на части
(вплоть до отдельного
символа), которые в
словаре присутствуют.
В самой языковой
модели токены кодируются своими векторными представлениями (embeddings,
эмбеддингами), включающими содержательную (основную) и позиционную
части.
В содержательной части
эмбеддинга фиксируются
числовые
представления самих токенов
(в том числе, предобученные)
В позиционной части
эмбеддинга
фиксируются:
-
номера,
включающих токены фрагментов текста (предложений),
чтобы можно было восстановить
последовательность при параллельной обработке данных
-
позиции
токена внутри своего фрагмента (предложения).
Выходной слой основной
нейросети языковой модели сети включает:
-
поле, отвечающее за ответ в
задаче предсказания следующего предложения,
-
токены в количестве, равном
входному.
Обратное преобразование токенов в
вероятностное распределение слов осуществляется полносвязным слоем с
количеством нейронов, равным числу токенов в исходном словаре.
|
Нейросетевые технологии LM
-
В 1995 году
предложена N-граммная модель,
легшая в основу основе классических подходов
языковых моделей
-
В 2000
году предложена первая
нейросетевая языковая модель на основе нейросети
прямого распространения
-
В 2008 году
для обработки естественного языка было впервые применено
многозадачное обучение нейросетей
-
При многозадачном обучении модели
обучаются выполнению различных задач на одних и тех же
параметрах. В нейронных сетях этого можно легко добиться,
связав веса разных слоев. Фактически при многозадачном
обучении модель стимулируют к созданию внутри себя такого
представления данных, которые позволяет выполнить сразу
много задач.
-
В 2010 году
для языкового моделирования стали использоваться
рекуррентные нейронные сети (RNN);
В 2013 году на
смену разреженным матрицам векторного представленного текста
(модель «мешка слов») пришёл Word embedding (векторное
представление слов).
-
В 2013 года для языкового
моделирования стали использоваться нейросети
с долгой краткосрочной памятью (LSTM-сети)
-
В 2014 для языкового
моделирования стали использоваться
сверточные нейронные сети
-
В 2014 для языкового
моделирования стали использоваться рекурсивные
нейронные сети.
-
В 2014 предложена модель обучения
sequence-to-sequence (последовательность в
последовательность).
-
Механизм
seq2seq: одна нейросеть-кодер (encoder) обрабатывает предложение
символ за символом и сжимает данные в векторное
представление; а вторая нейросеть-декодер (decoder) посимвольно
прогнозирует выходные данные, основываясь
на состоянии кодера, и принимая в качестве входных данных
символ, предсказанный на предыдущем шаге. При
помощи seq2seq-моделей работает машинный перевод, извлечение
информации +++
-
В 2015
революцию в обучении нейросетевых LM стал
Attention (механизм
внимания)
-
Attention
стал ключевой инновацией в
области нейронного машинного перевода. Внимание позволило
моделям нейронного машинного перевода превзойти классические
системы машинного перевода, основанные на переводе фраз.
Внимание позволяет декодеру оглядываться на скрытые
состояния исходной последовательности, которые затем в виде
средневзвешенного значения предоставляются в качестве
дополнительных входных данных в декодер.
-
В 2015 появились
нейросети с
ассоциативной памятью
-
В 2016
предложены символьные представления слов
-
Символьные представления слов (СПС)
широко используются для работы с языками с развитой
системой морфологических форм, а также при решении
задач, где важна морфологическая информация или с
большим количеством неизвестных слов. СПС стали
основным компонентом моделей для категоризации
членов последовательностей и языкового
моделирования. СПС устраняют необходимость работы с
фиксированным словарем c дополнительными
вычислительными затратами и позволяют применять
полностью символьный нейронный машинный перевод.
-
В 2017 году представлены
Тransformers
-
В 2017 году в различных формах обработки
естественного языка стало применяться состязательное
обучение
-
Состязательное обучение применяется
в качестве инструмента для исследования моделей и
выяснения причин неудач в обучении, для повышения
надежности и устойчивости моделей. Генеративные
состязательные сети еще не слишком эффективны для
генерации естественного языка, но полезны, например,
при парном распределении.
-
В 2018 стали
использоваться предварительно обученные языковые
модели (предложены в 2015)
-
Pre-trained векторные представления слов не зависят от
контекста, который анализируется в данный момент, и
используются только для инициализации весов первого слоя в
моделях. Для обучения языковым моделям требуется лишь
неразмеченный текст и масштабы обучения
могут достигать миллиардов токенов и сотен языков.
-
В 2018 стало
применяться в NLP обучение с
подкреплением (reinforcement learning)
-
Обучение с
подкреплением эффективно в моделировании
диалога и машинном переводе.
Обучение с отрицательным
подкреплением оказалось полезно в
ситуациях, когда вознаграждение слишком сложно, чтобы его
указывать, например, в визуальном повествовании.
Слава
ученым!
Успех проекта
GPT
(Generative Pre-trained Transformer) в значительной
степени обеспечен не научными, а инженерными прорывами.
Разработчикам удалось эффективно масштабировав модель добиться
качественно более высоких показатей её работыи впечатляющих
улучшений производительности.
Это не ново с точки зрения исследований, но преобразующе с точки
зрения приложений.
Слава инженерам!
|
Оценка нейросетевых языковых моделей .
Качество и уровень
языковых моделей определяется многими факторами, прежде всего:
Для оценки и сравнения языковых
моделей используются:
-
Внешняя
оценка, на
основе решения с помощью модели
задачи, на которую она рассчитана (например, машинного
перевода текстов), и анализ итоговых показателей потерь/точности.
Это лучший подход к оцениванию моделей, так как это —
единственный способ реально оценить то, как разные модели
справляются с интересующей нас задачей. Но реализация этого
подхода может потребовать больших вычислительных мощностей,
его применение может оказаться медленным, так как для этого
нужно обучение всей анализируемой системы.
-
Внутренняя оценка, без учёта
конкретных задач, для решения которых их планируется
использовать на основе особой метрики.
Внутренняя оценка -
полезное средство для быстрого сравнения
моделей.
Основной метод внешней
оценки языковых моделей -
бенчмаркинг
Основной метод внутренней оценки
языковых моделей —
вычисление
перплексии.
|
Benchmarking
Benchmarking
(бенчмаркинг,
эталонное оценивание) — сопоставительного анализ результатов работы
информационной системы на основе эталонных показателей по итогам
выполнения стандартизованных наборов задач
https://ru.wikipedia.org/wiki/Бенчмаркинг
https://en.wikipedia.org/wiki/Benchmarking
Бенчмаркинг включает:
-
создание эталона (стандарта);
-
исследование (измерение) на соответствие эталону;
-
сравнение систем по результатам исследований;
-
применение самых удачных решений.
Обычно за
образец принимают «лучший» результат работы,
который является лишь ориентиром.
Benchmarking
играет
ключевую роль в развитии современной автоматической обработки
текстов
Актуальные системы бенчмаркина для направлений
NLP:
-
понимание естественного языка (GLUE,
SuperGLUE,
RUSSIAN
SUPERGLUE),
-
генерация текста на естественном языке (GEM),
-
перенос обучения между языками (XGLUE, XTREME),
-
диагностическое тестирование и интерпретация языковых
моделей (LINSPECTOR, SentEval),
-
определение ненависти и стереотипов в текстах (HateCheck,
StereoSet, HONEST)
-
устойчивость к атакам (RobustnessGym, AdvGLUE).
|
Perplexity
Для сравнения качества языковых моделей используется
перплексия.
Перплексия
(Perplexity)
— мера того, насколько хорошо распределение вероятностей
предсказывает выборку.
Перплексия
является
безразмерной
величиной
Низкий показатель перплексии
указывает на то, что распределение вероятности хорошо
предсказывает выборку.
Если предложения тестовой выборки
состоят из 1000 слов и могут быть закодированы с использованием
7,95 бита на слово, то перплексия модели составит 247 на слово.
Наименьшее значение перплексии,
которое было расcчитано для корпуса текстов Брауна (1
000 000 слов американского английского
различных тем и жанров), составляет 247 на слово.
Меньшей перплексии проще добиться
наспециализированных корпусах текстов, поскольку они более
предсказуемы.
Перплексия нейросетевой модели для
русского языка ruGPT-3 на тестовой выборке:
Perplexity in Language Models
|
Самая суть
Модель - фрагмент реальности, замещающий собой другой
фрагмент реальности
с ... разными целями (в т.ч. исследования, изучения,
использования)
Языковая модель,
является моделью ... чего?
-
В лингвистике,
языковая модель... может быть моделью чего угодно...
Будучи моделью .. чего угодно, она может
быть чем угодно...
Будучи чем угодно, она может быть (бес)полезна для чего
угодно!
-
В
CS,
языковая
модель, это модель языка (языковой машины)
Язык (в
CS)
- это
работающая
знаковая машина
(система),
производящая (творящая) текстовую реальность
Машина мчится в
неизвестное грядущее, а в её
салоне спит
человечество (грезящее,
замечтавшееся,
вообразившее себе и о себе невесть
что, наивно верящее, что все под
контролем...
Сладких снов,
"властелины мира" ))
|
Научные обсуждения языковых моделей
Для исследований
языковых моделей есть три крупнейшие конференции: , и .
ICML
ICLR
NeurIPS
DIALOG
|
|