КВАНТИТАТИВНЫЕ ЛИНГВИСТИЧЕСКИЕ МОДЕЛИ

 

 

Квантитативная модель

Квантитативный - количественный, численный (численно измеряемый), а не качественный.

Квантитативные модели основаны на использовании статистических данных о языке и лингвистических объектах (например, тексте).

 

Чтобы изучать с помощью численных методов лингвистические объекты (языки, тексты...) , необходимо:

  • выделить из объекта его свойства, которые представляются важными для изучения,

  • строго определить эти свойства.

Полученная таким образом абстракция будет квантитативной моделью реального объекта (формальным языком, векторной моделью текста и проч.)

 

 

Численные модели в истории лингвистики

Численные методы в языкознании активно пропагандировали Виктор Яковлевич Буняковский (1804-1889, российский математик, вице-президент академии наук в 1864—1889) и Грегор Иоганн Мендель (1822-1884, австрийский естествоиспытатель, основоположник учения о наследственности, ученый-ботаник, монах).

И.А. Бодуэн де Куртенэ («Количественность в языковом мышлении»):

  • Нужно чаще применять в языкознании количественное, математическое мышление и таким образом приблизить его все более к наукам точным.

И.А. Бодуэн де Куртенэ практически использовал квантитативную методику в исследованиях по фонетике (исчисление альтернаций) и по грамматике (описание типов склонения).

Евгений Дмитриевич Поливанов (1891–1938, теоретик языка, ученик И.А. Бодуэна де Куртенэ), говоря о точках соприкосновения между математикой и лингвистикой, особо выделял следующие сферы:

  • анализ кимографических кривых;

  • диалектологическая статистика;

  • приложение теории вероятностей к определению относительной вероятности этимологий — как достоверных, так и гипотетических и, наконец, фантастических.

Связь языкознания с математикой не была односторонней Используя методы математики, лингвистика в свою очередь питала математику плодотворными идеями.

Наблюдения известного математика Андрей Андреевич Марков (1856—1922, выдающийся математик, академик, внёсший большой вклад в теорию вероятностей, математический анализ и теорию чисел) в результате наблюдений над текстом «Евгения Онегина» (распределение доли гласных и согласных среди первых 20 тыс. букв –«испытания, связанные в цепь») пришел к открытию знаменитых «марковских цепей».

 

 

Квантитативная лингвистика

Квантитативная лингвистика (англ. quantitative linguistics) — раздел общей лингвистики и математической лингвистики, исследующий язык при помощи статистических методов и теории вероятностей.

Квантитативная лингвистика основывается на результатах языковой статистики, которая, в свою очередь, может интерпретироваться как статистика языков или статистика лингвистического объекта.

Квантитативные методы широко используются, в частности, для определения:

  • Частот как характеристик употребительности слова в тексте.

  • Изменчивостьи употребительности слова в синхронии.

  • Историческая изменчивости употребительности слова (употребительность и возраст слова).

  • Длины слова и его употребительности.

  • Полисемии слова и его употребительности.

  • Частеречной  и синтаксической разметки корпусов (автоматический тэггинг).

  • Оценки продуктивности аффиксов.

  • Продуктивности классов слов.

  • Однородности и регулярности отношений между единицами словаря.

  • Основных статистических критериев проверки зависимости / независимости признаков и однородности выборок, применяемые в лингвистических исследованиях.

  • Получения следствий Закон Ципфа — Мандельброта

  • Ключевых слов и терминов (автоматически).

  • Атрибуции текстов и в стилеметрии.

  • Лексикографической значимости слов и терминов.

 

Статистические категории

Статистическая совокупность – группа лингвистический объектов или явлений объединенных общей связью, но отличающихся друг от друга отдельными признаками. В совокупности как правило много частей или элементом (всегда больше одного), так еще все они в чем-то похожи. Похожесть и есть признак, по которому объединили эти элементы. Общее у элементов одно, и масса других характеристик отличающихся.

Задание. Предположим представлена совокупность слов (предложений). Опишите ее, почему она является совокупностью, какие есть признаки у слов. Нет ли в представлении (текстовом, графическом, аудиальном) лишних элементов, не относящихся к данной совокупности?

Генеральная совокупность — совокупность всех объектов (единиц), относительно которых предполагается делать выводы при изучении конкретной задачи.

Выборка (выборочная совокупность) — часть генеральной совокупности элементов, которая охватывается экспериментом (наблюдением, опросом).

Статистический показатель – это количественная (чаще) или качественная (реже) характеристика признака статистической совокупности.

Статистические показатели это те данные, которые мы собираем или то результаты исследования, которые мы получаем.

Показатель бывает индивидуальным, это когда мы собрали данные по одной единице совокупности, или расчетным (что вернее) он получается после обработки данных (суммирование, усреднение и т.п.).

Качественная сторона статистического показателя определяется признаком, который подлежит изучению и отражается в названии показателя, количественная сторона — в численном значении показателя.

Единица совокупности — каждая конкретная единица статистической совокупности. Одна и таже статистическая совокупность может быть однородна по одному признаку и неоднородна по другому.

Качественная однородность — сходство всех единиц совокупности по какому-либо признаку и несходство по всем остальным. В статистической совокупности отличия одной единицы совокупности от другой чаще имеют количественную природу.

Признак - свойство, характерная черта или иная особенность единиц, объектов и явлений, которая может быть наблюдаема или измерена. Признаки делятся на количественные и качественные. Многообразие и изменчивость величины признака у отдельных единиц совокупности называется вариацией.

Задание. Приведите примеры признаков, которые могут быть интересны для статистического изучения для следующих единиц совокупности – морфема, слово, аффикс, фраза, текст.

Вариация признака — количественное изменение признака (для количественного признака) при переходе от одной единицы совокупности к другой.

Размах вариации указывает на общие размеры вариации, но он не дает представления о степени колеблемости внутри совокупности

Дисперсия – это средняя арифметическая квадратов отклонений каждого значения признака от средней арифметической.

Среднеквадратическое отклонение (стандартное отклонение) – это обобщающая характеристика абсолютных размеров вариации признака в совокупности.

Средняя величинаобобщающая характеристика варьирующего признака качественно однородной совокупности.

Все виды средних величин, используемые в статистических исследованиях, подразделяются на 2 категории:

  • степенные (средняя арифметическая, средняя квадратическая и т.д.)

  • структурные (мода, медиана).

Доверительный интервал для среднего - интервал значений вокруг оценки, где с данным уровнем доверия, находится "истинное" (неизвестное) среднее генеральной совокупности.

Ширина доверительного интервала зависит от объема или размера выборки, а также от разброса данных. Увеличение размера выборки делает оценку среднего более надежной. Увеличение разброса наблюдаемых значений уменьшает надежность оценки. Вычисление доверительных интервалов основывается на предположении нормальности наблюдаемых величин. При увеличении объема выборки качество оценки улучшается и без предположения нормальности выборки.

Мода – величина признака, наиболее часто повторяющаяся в изучаемой совокупности.

Медиана – варианта, расположенная в середине вариационного ряда. Если дискретный ряд распределения имеет нечетное число членов, то медианой будет варианта, находящаяся в середине вариационного ряда, если четное – медианой будет среднее из двух вариант, находящихся в середине ряда.

Квартили. Нижняя квартиль переменной - это такое значение переменной, ниже которого попадают 25% значений переменной. Аналогично, верхняя квартиль - это такое значение переменной, ниже которого попадают 75% значений переменной.

Квартильный размах переменных равен разности значений верхней и нижней квартили. Таким образом, это тот диапазон вокруг медианы, который содержит 50% наблюдений.

 

 

 

Статистические модели в грамматике

В компьютерной лингвистике широко используются алгоритмы, основывающиеся на данных о частоте употребления:

  • фонем,

  • морфем,

  • лексических единиц

  • синтаксических конструкций.

Например, программы автоматической коррекции орфографии содержат словари (чаще всего) только наиболее частотных лексем.

Редкие слова пользователь может вводить в свой индивидуальный словарь.

Аналогичные словари используются в программах автоматического распознавания письменного текста и речи (типа Fine Reader).

 

Николаем Дмитриевичем Андреевым (1920-1997) предложено статистико-комбинаторное моделирование языка по данным речи, основанное на на теоретико-множественных, алгоритмических и вероятностных свойствах языка.

На основе статистико-комбинаторное моделирования рассмотрены вопросы:

  • Множества в языке как предмет структурного анализа

  • Трансформации и алгоритмы в исследовании и в употреблении

  • Парадигматическая и синтагматическая вероятности языковых элементов

  • Моделирование языка на основе системы речи

  • Морфология в статистико-комбинаторном моделировании

  • Объективное членение текста

  • Выявление вариативных групп словоизменительных типов

  • Позиционная сочетаемость словоформ и маргинальные подмножества

  • Разряды как объединения частей речи

  • Роль комбинаторной однородности типов в их группировке

  • Синтаксис в статистико-комбинаторном моделировании

  • Комбинаторно-вероятностная оппозиция частей речи и членов предложения

  • Лексика и семантика в статистико-комбинаторном моделировании

  • Частотность слова и равномерность его распределения

  • Статистико-комбинаторное определение термина

  • Комбинаторно-вероятностные критерии отбора слов в словари

  • Вероятностно-комбинаторная метрика семантического пространства

  • Компаративистика и квантитативная типология в словообразовании

  • Прикладные аспекты статистико-комбинаторного моделирования

  • Языковые и речевые универсалии в статистико-комбинаторном моделировании

  • Статистико-комбинаторные универсалии в грамматике, семантике и  лексике

 

 

Дистрибутивно-статистические модели

Дистрибуция языкознании, позиционное распределение) — множество всех окружений (контекстов), в которых встречается некоторый элемент, то есть множество всех (различных) возможных позиций элемента относительно позиций других элементов.

Понятие дистрибуции отражает свойство языковых единиц, состоящее в том, что сочетаемость каждой единицы (за исключением предложения) с другими подобными единицами более или менее ограничена.

Дистрибутивные свойства единиц широко используются при выделении вершин и зависимых в синтаксисе и морфологии.

Соединение статистических методов с идеями дистрибутивного анализа легло в основу дистрибутивно-статистических моделей опиания структуры языка и структуру текста на основе очень ограниченной исходной информации (например, принимая за данное письмен­ный текст без каких-либо сведений о его семантике).

В этом случае единицы языка и их отношения выделяются в процессе этого анализа, а не используются как готовый материал.

Зеллигом Саббеттай Харрисом была выдвинута «дистрибутивная гипотеза» о возможности распознания любого лингвистического явления путём изучения сочетаемости единиц «низшего уровня» и предложена идея алгоритма, устанавливающего границы между морфемами в тексте без пробела между словами.

Цель дистрибутивно-статистического анализа - открытие структуры языка на основе большого корпуса текстов.

 

 

Лингвистическая дешифровка

Дешифровка -  исследование сообщений или текстов для обнаружения информации, закодированной или представленной способом, не известным исследователю.

Открываемый в процессе дешифровки способ представления информации, содержащейся в тексте, называется ключом.

В процессе дешифровки могут использоваться данные о частоте употребления графем, морфем и слов, а также их взаимном расположении. К настоящему времени разработаны продуктивные алгоритмы дешифровки, основанные на частоте и дистрибуции элементов кодированного текста.

Прикладная лингвистическая дешифровка исследует, как правило, древние тексты, для которых неизвестны письменность или язык (или то и другое), используются не только сведения о сочетаемости элементов текста, но и «внешние» данные: наличие параллельных переводов («билингвы»), знание собственных имён и исторических событий, современных текстам, и т. д.

Значительный вклад в развитие дешифровки внесли советские учёные: Юрий Валентинович Кнорозов (работы по дешифровке письменности майя, а также древнеиндийских памятников из Мохенджо-Даро и Хараппы), Игорь Михайлович Дьяконов (исследования шумерского языка), Михаил Викторович Софронов (работы по хетто-лувийским языкам и языкам Центральной Азии).

 Борисом Викторовичем Сухотиным разработаны оптимизационные дешифровочные алгоритмы:

  • описывается множество возможных решений;

  • вводится «функция качества», позволяющая оценить каждое решение некоторым числом;

  • отыскивается решение, имеющее наивысшее «качество».

 Б. В. Сухотин:

  • Задачи выделения и классификации структурных единиц в тексте можно решать формальными методами, используя межъязыковые аналогии и различные критерии «устойчивости» символьных цепочек.

В книге  Б. В. Сухотин (Оптимизационные методы исследования языка. Изд.-во Наука, М., 1976. - 169 с.) приводятся результаты экспериментов (на материале русского языка) на ЭВМ БЭСМ-6 по обнаружению графов предложений без заранее заданной грамматики и по членению текста без пробелов на морфемы, слова, комбинации морфем.

 

 

Частотные словари, словари-индексы, машинные фонды лексики

Частотный словарь (или частотный список) — набор слов данного языка (подъязыка, текста, корпуса текстов) вместе с информацией о частоте их встречаемости

В частотном словаре словарные единицы располагаются не только в алфавитном порядке (алфавитный частотный словарь), но и в порядке убывающей частотности (ранговый частотный словарь).

Частотные словари характеризуются следующими параметрами:

  • объем текста (число словоупотреблений);

  • объем словаря словоформ;

  • объем словаря лексем.

Ляшевская О.Н., Шаров С.А. Частотный словарь НКРЯ: концепция и технология создания

Электронная версия издания: О. Н. Ляшевская, С. А. Шаров, Частотный словарь современного русского языка (на материалах Национального корпуса русского языка). М.: Азбуковник, 2009.

 

Cловари-индексы (приложения к каким-либо, обычно толковым, словарям).

К словарям - индексам относятся обратные словари. Обратный словарь, словарь, в котором заглавные слова располагаются с учётом алфавита не от начала слова к концу (как, например, в толковых словарях), а от конца слова к началу. Например, «борода» окажется в ряду слов на «а», а «столб» — в ряду слов на «б». При наборе слова выравниваются по правому краю:

О. с. позволяют классифицировать слова по грамматическим признакам, например в русском О. с. все существительные на -ние, -ение оказываются в одном ряду (как и наречия на -о, -е, прилагательные на -овый, глаголы на -еть и т.д.). О. с. составляются для языков, в которых суффиксы и окончания играют в словообразовании значительно большую роль, чем префиксы (многие индоевропейкие, тюркские языки).

Машинный фонд русского языка - программа комплексной информатизации исследований в русистике (см.); разработана в нач. 1980-х гг. А. П. Ершовым и Ю. Н. Карауловым; реализуется в Институте русского языка им. В. В. Виноградова РАН.

В рамках проекта М.ф. р. я. разрабатываются 9 фондов-составляющих (генеральный словник, словарный, текстовой, грамматический, терминологический, лингвогеографиче-ский, исторический, фонетический и лингвистический программно-источниковый фонды рус. языка) и одна программная система - типовой лингвистический программно-источниковый пакет UNILEX. Генеральный словник и словарный фонд сосредоточивают в своих базах данных все словари совр. рус. языка.

Словарный фонд создаётся одновременно и как информационная система по лексике, и как система автоматизации лексикографических работ.

 

 

Конкордансы

Конкорданс (англ. concordance) в корпусной лингвистике - список найденных примеров (вхождений) нужного токена (лексемы, леммы, морфемы...) в минимальном контексте.

Обычно такой контекст представляет собой фрагмент из нескольких единиц слева (L) и справа (R).

Многие современные корпуса предлагают конкорданс в качестве дополнительной возможности вывода найденной информации на экран, такой формат вывода называется KWIC (читается «квик», англ. key word іп context).

Конкордансер (англ. Concordancer) - программа для автоматического создания конкордансов

См. https://en.wikipedia.org/wiki/Concordancer

 

Коллокация - словосочетание, имеющее признаки синтаксически и семантически целостной единицы, в котором выбор одного из компонентов осуществляется по смыслу, а выбор второго зависит от выбора первого (например, ставить условия — выбор глагола ставить определяется традицией и зависит от существительного условия, при слове предложение будет другой глагол — вносить).

Коллокация -  устойчивые словосочетания, N-граммы.

В отличие от идиом Коллокации, в отличие от идиом, тотальны в языке и необходимы в речи.

Большая часть коллокаций выражает ограниченное количество стандартных смыслов, названных в модели «Смысл — Текст» лексическими функциями.

Различают:

  • неразрывные коллокации

  • разрывные  коллокации(могут включать второстепенные слова (жизнь кипит и жизнь его кипит, жизнь его постоянно кипит и пр.).

Коллокации выявляются при лексическом анализе текста с использованием статистических методов.

 

 

 

Квантитативные закономерности

В КЛ под законом понимается класс гипотез, выведенных из теоретических допущений, математически сформулированных, взаимосвязанных с другими законами в этой области и  проверенных на эмпирических данных/

Закон диверсификации:

  • Если лингвистические категории (такие, например, как части речи или грамматические окончания) появляются в различных формах, то можно сказать, что частоты их появления в текстах контролируются определёнными законами. Распределение длин (или, в более общем виде, многокомпонентности). Исследование частот различных языковых единиц с точки зрения их длин в текстах и словарях регулярно приводит к выявлению целого ряда распределений, в зависимости от изучаемой единицы.

Закон распределения длин морфов;

Закон распределения длин ритмических единиц;

Закон распределения длин предложений;

Закон распределения длин слогов;

Закон распределения длин слов;

Закон Менцерата:

  • размеры составляющих конструкции уменьшаются с увеличением самой изучаемой конструкции. Чем длиннее, например, предложение (измеренное количеством входящих в его состав придаточных предложений), тем короче входящие в его состав придаточные предложения (измеренные количеством слов), или: чем длиннее слово (в слогах или морфах), тем короче слоги или слова в звуках.

Закон текстового блока:

  • Лингвистические единицы (напр., слова, буквы, синтаксические функции и конструкции) демонстрируют определённое распределение частоты в одинаково больших блоках текстов.

Закон Ципфа:

  • Частота слова обратно пропорциональна его порядковому номеру в списках частотности.[7]

 

 

 

 

Ограниченность квантитативных моделей исследования языка

Привлечение методов измерения и подсчета языковых реализаций позволяет, существенно модифицировать представление о языковой системе и возможностях ее функционирования.

Грамотно выбранный и примененный математический аппарат позволяет обобщить полученные данные или представить материал в более организованном виде или создать модель явления.

Однако, модель неизбежно огрубляет действительность.

Не всякое применение чисел или математического аппарата или компьютеров делает результаты строгими и научными.

Дополнительным к квантитативному анализу является квалитативный анализ, который  предполагает выявление общих закономерностей использования метафор без их точного количественного описания.

 

kmp