Квантитативные методы в АОТ

 

 

Квантитативность

 

Квантитативность  —  логико-семантическая категория, актуализирующая представления о комплексе понятий количественного содержания (количество, число, множество, кратность и т. д.) на различных уровнях объективации.

Квантитативный  — количественный (численный, не качественный).

Квалитативный  —  качественный.

Квантитативные методы  —  методы обработки количественных данных (в том числе, статистически).

Объектом приложения квантитативных методов в АОТ является текст.

 

 

 

Квантитативные методы в лингвистике (история)

 

Буняковский В.Я.  (1804-1889, российский математик) писал о необходимости применения математики в области грамматических и этимологических разысканий.

Мендель Грегор Иоганн (1822-84, австрийский естествоиспытатель, основоположник учения о наследственности, ученый-ботаник, монах)  пытался применять статистические методики не только в области биологии, но и в языкознании.

Перспективные мысли высказаны Бодуэном де Куртенэ в статье «Количественность в языковом мышлении». Выдающийся лингвист практически использовал квантитативную методику в исследованиях по фонетике (исчисление альтернаций) и по грамматике
(описание типов склонения).

Бодуэн де Куртенэ И.А.:

  • Нужно чаще применять в языкознании количественное, математическое мышление
    и таким образом приблизить его все более к наукам точным.

Поливанов Е.Д.  (1891–1938, теоретик языка, ученик И.А. Бодуэна де Куртенэ), говоря о точках соприкосновения между математикой и лингвистикой, особо выделял следующие сферы:

  • анализ кимографических кривых;

  • диалектологическая статистика;

  • приложение теории вероятностей к определению относительной вероятности этимологий — как достоверных, так и гипотетических и, наконец, фантастических.

Марков А.А. (1856—1922, выдающийся математик, академик, внёсший большой вклад в теорию вероятностей, математический анализ и теорию чисел) в результате наблюдений над текстом «Евгения Онегина» (распределение доли гласных и согласных среди первых 20 000 букв –«испытания, связанные в цепь») пришел к открытию знаменитых «марковских цепей».

 

 

Квантитативные методы в лингвистике

 

Квантитативная лингвистика (англ. quantitative linguistics) — раздел общей лингвистики и математической лингвистики, исследующий язык при помощи статистических методов и теории вероятностей.

Квантитативная лингвистика основывается на результатах языковой статистики.

Языковая статистика  —  статистика языков или статистика лингвистического объекта.

Квантитативные методы широко используются, в частности, для определения:

  • Частот как характеристик употребительности слова в тексте.

  • Изменчивостьи употребительности слова в синхронии.

  • Историческая изменчивости употребительности слова (употребительность и возраст слова).

  • Длины слова и его употребительности.

  • Полисемии слова и его употребительности.

  • Частеречной  и синтаксической разметки корпусов (автоматический тэггинг).

  • Оценки продуктивности аффиксов.

  • Продуктивности классов слов.

  • Однородности и регулярности отношений между единицами словаря.

  • Основных статистических критериев проверки зависимости / независимости признаков и однородности выборок, применяемые в лингвистических исследованиях.

  • Получения следствий Закон Ципфа — Мандельброта

  • Ключевых слов и терминов (автоматически).

  • Атрибуции текстов и в стилеметрии.

  • Лексикографической значимости слов и терминов.

 

 

Статистические категории

 

Статистическая совокупность – группа лингвистический объектов или явлений объединенных общей связью, но отличающихся друг от друга отдельными признаками. В совокупности как правило много частей или элементом (всегда больше одного), так еще все они в чем-то похожи. Похожесть и есть признак, по которому объединили эти элементы. Общее у элементов одно, и масса других характеристик отличающихся.

Задание. Предположим представлена совокупность слов (предложений). Опишите ее, почему она является совокупностью, какие есть признаки у слов. Нет ли в представлении (текстовом, графическом, аудиальном) лишних элементов, не относящихся к данной совокупности?

Генеральная совокупность — совокупность всех объектов (единиц), относительно которых предполагается делать выводы при изучении конкретной задачи.

Выборка (выборочная совокупность) — часть генеральной совокупности элементов, которая охватывается экспериментом (наблюдением, опросом).

Статистический показатель – это количественная (чаще) или качественная (реже) характеристика признака статистической совокупности.

Статистические показатели это те данные, которые мы собираем или то результаты исследования, которые мы получаем.

Показатель бывает индивидуальным, это когда мы собрали данные по одной единице совокупности, или расчетным (что вернее) он получается после обработки данных (суммирование, усреднение и т.п.).

Качественная сторона статистического показателя определяется признаком, который подлежит изучению и отражается в названии показателя, количественная сторона — в численном значении показателя.

Единица совокупности — каждая конкретная единица статистической совокупности. Одна и таже статистическая совокупность может быть однородна по одному признаку и неоднородна по другому.

Качественная однородность — сходство всех единиц совокупности по какому-либо признаку и несходство по всем остальным. В статистической совокупности отличия одной единицы совокупности от другой чаще имеют количественную природу.

Признак - свойство, характерная черта или иная особенность единиц, объектов и явлений, которая может быть наблюдаема или измерена. Признаки делятся на количественные и качественные. Многообразие и изменчивость величины признака у отдельных единиц совокупности называется вариацией.

Задание. Приведите примеры признаков, которые могут быть интересны для статистического изучения для следующих единиц совокупности – морфема, слово, аффикс, фраза, текст.

Вариация признака — количественное изменение признака (для количественного признака) при переходе от одной единицы совокупности к другой.

Размах вариации указывает на общие размеры вариации, но он не дает представления о степени колеблемости внутри совокупности

Дисперсия – средняя арифметическая квадратов отклонений каждого значения признака от средней арифметической.

Среднеквадратическое отклонение (стандартное отклонение) – это обобщающая характеристика абсолютных размеров вариации признака в совокупности.

Средняя величинаобобщающая характеристика варьирующего признака качественно однородной совокупности.

Все виды средних величин, используемые в статистических исследованиях, подразделяются на 2 категории:

  • степенные (средняя арифметическая, средняя квадратическая и т.д.)

  • структурные (мода, медиана).

Доверительный интервал для среднего - интервал значений вокруг оценки, где с данным уровнем доверия, находится "истинное" (неизвестное) среднее генеральной совокупности.

Ширина доверительного интервала зависит от объема или размера выборки, а также от разброса данных. Увеличение размера выборки делает оценку среднего более надежной. Увеличение разброса наблюдаемых значений уменьшает надежность оценки. Вычисление доверительных интервалов основывается на предположении нормальности наблюдаемых величин. При увеличении объема выборки качество оценки улучшается и без предположения нормальности выборки.

Мода – величина признака, наиболее часто повторяющаяся в изучаемой совокупности.

Медиана – варианта, расположенная в середине вариационного ряда. Если дискретный ряд распределения имеет нечетное число членов, то медианой будет варианта, находящаяся в середине вариационного ряда, если четное – медианой будет среднее из двух вариант, находящихся в середине ряда.

Квартили. Нижняя квартиль переменной - это такое значение переменной, ниже которого попадают 25% значений переменной. Аналогично, верхняя квартиль - это такое значение переменной, ниже которого попадают 75% значений переменной.

Квартильный размах переменных равен разности значений верхней и нижней квартили. Таким образом, это тот диапазон вокруг медианы, который содержит 50% наблюдений.

 

 

 

Статистические методы в грамматике

В компьютерной лингвистике широко используются алгоритмы, основывающиеся на данных о частоте употребления

  • фонем,

  • морфем,

  • лексических единиц

  • синтаксических конструкций.

Например, программы автоматической коррекции орфографии содержат словари (чаще всего) только наиболее частотных лексем. Редкие слова пользователь может вводить в свой индивидуальный словарь. Аналогичные словари используются в программах автоматического распознавания письменного текста и речи (типа Fine Reader).

Николаем Дмитриевичем Андреевым (1920-1997) предложен статистико-комбинаторное моделирование языка по данным речи, основанное на на теоретико-множественных, алгоритмических и вероятностных свойствах языка, где рассмотрены вопросы:

  • Множества в языке как предмет структурного анализа

  • Трансформации и алгоритмы в исследовании и в употреблении

  • Парадигматическая и синтагматическая вероятности языковых элементов

  • Моделирование языка на основе системы речи

  • Морфология в статистико-комбинаторном моделировании

  • Объективное членение текста

  • Выявление вариативных групп словоизменительных типов

  • Позиционная сочетаемость словоформ и маргинальные подмножества

  • Разряды как объединения частей речи

  • Роль комбинаторной однородности типов в их группировке

  • Синтаксис в статистико-комбинаторном моделировании

  • Комбинаторно-вероятностная оппозиция частей речи и членов предложения

  • Лексика и семантика в статистико-комбинаторном моделировании

  • Частотность слова и равномерность его распределения

  • Статистико-комбинаторное определение термина

  • Комбинаторно-вероятностные критерии отбора слов в словари

  • Вероятностно-комбинаторная метрика семантического пространства

  • Компаративистика и квантитативная типология в словообразовании

  • Прикладные аспекты статистико-комбинаторного моделирования

  • Языковые и речевые универсалии в статистико-комбинаторном моделировании

  • Статистико-комбинаторные универсалии в грамматике, семантике и  лексике

 

 

Дистрибуция

 

Дистрибуция языкознании)  — позиционное распределение: множество всех окружений (контекстов), в которых встречается некоторый элемент, то есть множество всех (различных) возможных позиций элемента относительно позиций других элементов.

Понятие дистрибуции отражает свойство языковых единиц, состоящее в том, что сочетаемость каждой единицы (за исключением предложения) с другими подобными единицами более или менее ограничена.

Дистрибутивные свойства единиц широко используются при выделении вершин и зависимых в синтаксисе и морфологии.

Соединение статистических методов с идеями дистрибутивного анализа легло в основу дистрибутивно-статистического анализа, описывающего структуру языка и структуру текста на основе очень ограниченной исходной информации (например, принимая за данное письмен­ный текст без каких-либо сведений о его семантике).

В этом случае единицы языка и их отношения выделяются в процессе этого анализа, а не используются как готовый материал.

Цель дистрибутивно-статистического анализа   — открытие структуры языка на основе большого корпуса текстов.

 

 

 

Дистрибутивная семантика

 

Дистрибутивная семантика — область вычислений степени семантической близости между лингвистическими единицами на основании их распределения (дистрибуции) в больших массивах лингвистических данных (текстовых корпусах).

Каждому слову присваивается свой контекстный вектор (упорядоченный набор элементов)

Множество векторов формирует словесное векторное пространство.

Дистрибутивная семантика основывается на дистрибутивной гипотезе.

Дистрибутивная гипотеза   лингвистические единицы, встречающиеся в схожих контекстах, имеют близкие значения.

Дистрибутивная гипотеза предполагает возможность распознания любого лингвистического явления путём изучения сочетаемости единиц «низшего уровня».

Семантическое расстояние между понятиями, выраженными словами естественного языка, обычно вычисляется как косинусное расстояние между векторами словесного пространства.

 

 

 

Дешифровка

 

Дешифровка  — исследование сообщений или текстов для обнаружения информации, закодированной или представленной способом, не известным исследователю. Открываемый в процессе дешифровки способ представления информации, содержащейся в тексте, называется ключом.

 

В процессе дешифровки также могут использоваться данные о частоте употребления графем, морфем и слов, а также их взаимном расположении. К настоящему времени разработаны продуктивные алгоритмы дешифровки, основанные на частоте и дистрибуции элементов кодированного текста;

Прикладная лингвистическая дешифровка исследует, как правило, древние тексты, для которых неизвестны письменность или язык (или то и другое), используются не только сведения о сочетаемости элементов текста, но и «внешние» данные: наличие параллельных переводов («билингвы»), знание собственных имён и исторических событий, современных текстам, и т. д.

Значительный вклад в развитие дешифровки внесли советские учёные: Ю. В. Кнорозов (работы по дешифровке письменности майя, а также древнеиндийских памятников из Мохенджо-Даро и Хараппы), И. М. Дьяконов, М. В. Софронов (работы по хетто-лувийским языкам и языкам Центральной Азии).

 Б. В. Сухотиным для предложены оптимизационные дешифровочные алгоритмы, которые строятся по следующей схеме:

  • описывается множество возможных решений;

  • вводится «функция качества», позволяющая оценить каждое решение некоторым числом;

  • отыскивается решение, имеющее наивысшее «качество».

 Б. В. Сухотин:

  • Задачи выделения и классификации структурных единиц в тексте можно решать формальными методами, используя межъязыковые аналогии и различные критерии «устойчивости» символьных цепочек. Одна из таких постановок, касающаяся выделения морфем (элементарных смысловых единиц естественного языка) из слитного текста без пробелов и других разделителейСухотина Б. В.

В книге Б. В. Сухотина  (Оптимизационные методы исследования языка. Изд.-во Наука, М., 1976. - 169 с.) приводятся результаты трёх экспериментов (на материале русского языка) на ЭВМ БЭСМ-6 по обнаружению графа простого предложения без заранее заданной грамматики и одного эксперимента по членению текста без пробелов на морфемы, слова, комбинации морфем.

 

 

Словари-индексы, обратные словари

 

Cловари-индексы (приложения к каким-либо, обычно толковым, словарям).

К словарям - индексам относятся обратные словари.

Обратный словарь, словарь, в котором заглавные слова располагаются с учётом алфавита не от начала слова к концу (как, например, в толковых словарях), а от конца слова к началу.

Например, «борода» окажется в ряду слов на «а», а «столб» — в ряду слов на «б». При наборе слова выравниваются по правому краю:

Обратные словари позволяют классифицировать слова по грамматическим признакам.

Например,  в русском обратном словаре все существительные на -ние, -ение оказываются в одном ряду (как и наречия на -о, -е, прилагательные на -овый, глаголы на -еть и т.д.).

Обратные словари составляются для языков, в которых суффиксы и окончания играют в словообразовании значительно большую роль, чем префиксы (многие индоевропейкие, тюркские языки).

 

 

 

 

Машинные фонды лексики

 

Машинный фонд русского языка - программа комплексной информатизации исследований в русистике (см.); разработана в нач. 1980-х гг. А. П. Ершовым и Ю. Н. Карауловым; реализуется в Институте русского языка им. В. В. Виноградова РАН.

В рамках проекта М.ф. р. я. разрабатываются 9 фондов-составляющих (генеральный словник, словарный, текстовой, грамматический, терминологический, лингвогеографиче-ский, исторический, фонетический и лингвистический программно-источниковый фонды рус. языка) и одна программная система - типовой лингвистический программно-источниковый пакет UNILEX. Генеральный словник и словарный фонд сосредоточивают в своих базах данных все словари совр. рус. языка.

Словарный фонд создаётся одновременно и как информационная система по лексике, и как система автоматизации лексикографических работ.

 

 

Конкорданс

 

Конкорданс (англ. concordance) в корпусной лингвистике - список найденных примеров (вхождений) нужного токена (лексемы, леммы, морфемы...) в минимальном контексте.

Обычно такой контекст представляет собой фрагмент из нескольких единиц слева (L) и справа (R).

Многие современные корпуса предлагают конкорданс в качестве дополнительной возможности вывода найденной информации на экран, такой формат вывода называется KWIC (читается «квик», англ. key word іп context).

Конкордансер (англ. Concordancer) - программа для автоматического создания конкордансов

См. https://en.wikipedia.org/wiki/Concordancer

 

Коллокация - словосочетание, имеющее признаки синтаксически и семантически целостной единицы, в котором выбор одного из компонентов осуществляется по смыслу, а выбор второго зависит от выбора первого (например, ставить условия — выбор глагола ставить определяется традицией и зависит от существительного условия, при слове предложение будет другой глагол — вносить).

Коллокация -  устойчивые словосочетания, N-граммы.

В отличие от идиом Коллокации, в отличие от идиом, тотальны в языке и необходимы в речи.

Большая часть коллокаций выражает ограниченное количество стандартных смыслов, названных в модели «Смысл — Текст» лексическими функциями.

Различают:

  • неразрывные коллокации

  • разрывные  коллокации(могут включать второстепенные слова (жизнь кипит и жизнь его кипит, жизнь его постоянно кипит и пр.).

Коллокации выявляются при лексическом анализе текста с использованием статистических методов.

 

 

 

 

Квантитативные закономерности

В КЛ под законом понимается класс гипотез, выведенных из теоретических допущений, математически сформулированных, взаимосвязанных с другими законами в этой области и  проверенных на эмпирических данных/

Закон диверсификации:

  • Если лингвистические категории (такие, например, как части речи или грамматические окончания) появляются в различных формах, то можно сказать, что частоты их появления в текстах контролируются определёнными законами. Распределение длин (или, в более общем виде, многокомпонентности). Исследование частот различных языковых единиц с точки зрения их длин в текстах и словарях регулярно приводит к выявлению целого ряда распределений, в зависимости от изучаемой единицы.

Закон распределения длин морфов;

Закон распределения длин ритмических единиц;

Закон распределения длин предложений;

Закон распределения длин слогов;

Закон распределения длин слов;

Закон Менцерата:

  • размеры составляющих конструкции уменьшаются с увеличением самой изучаемой конструкции. Чем длиннее, например, предложение (измеренное количеством входящих в его состав придаточных предложений), тем короче входящие в его состав придаточные предложения (измеренные количеством слов), или: чем длиннее слово (в слогах или морфах), тем короче слоги или слова в звуках.

Закон текстового блока:

  • Лингвистические единицы (напр., слова, буквы, синтаксические функции и конструкции) демонстрируют определённое распределение частоты в одинаково больших блоках текстов.

Закон Ципфа:

  • Частота слова обратно пропорциональна его порядковому номеру в списках частотности.[7]

 

 

 

 

Ограниченность квантитативных методов исследования языка

 

Привлечение методов измерения и подсчета языковых реализаций позволяет, существенно модифицировать представление о языковой системе и возможностях ее функционирования.

Однако лингвистам не следует бездумно рассчитывать на гарантированное получение точных и объективных данных при применении какого-нибудь математического аппарата. На самом деле грамотно выбранный математический аппарат позволяет обобщить полученные данные или представить материал в более организованном виде или создать модель явления.

Тем не менее, нельзя забывать, что модель неизбежно огрубляет действительность. В действительности далеко не всякое применение чисел или математического аппарата или компьютеров делает результаты строгими и научными. Неверно также думать, что математика обязательно связана с количественными оценками и со статистикой. Современная математика изучает абстрактные системы, из которых лишь некоторые являются количественными, и вычисления часто играют лишь вспомогательную роль.

Дополнительным к квантитативному анализу является квалитативный анализ, который  предполагает выявление общих закономерностей использования метафор без их точного количественного описания.

 

 

 

 

kmp