kmp-NLP

Автоматическая обработка данных (АОД)

Текст как данные

Текст (в АОТ) - машина в техносфере (= текстосфере)

Архитектура фон Неймана (модель фон Неймана, Принстонская архитектура) — широко известный принцип совместного хранения команд и данных в памяти компьютера. Вычислительные машины такого рода часто обозначают термином «машина фон Неймана», однако соответствие этих понятий не всегда однозначно. В общем случае, когда говорят об архитектуре фон Неймана, подразумевают принцип хранения данных и инструкций в одной памяти.

Фон Нейман, Голдстайн и Бёркс перешли в Институт перспективных исследований, где решили создать свой компьютер «IAS-машина», подобный EDVACу, и использовать его для научно-исследовательской работы. В июне 1946 года они[2][3] изложили свои принципы построения вычислительных машин в ставшей классической статье «Предварительное рассмотрение логической конструкции электронно-вычислительного устройства»[4][5][6]. С тех пор прошло более полувека, но выдвинутые в ней положения сохраняют свою актуальность и сегодня. В статье убедительно обосновывается использование двоичной системы для представления чисел, а ведь ранее все вычислительные машины хранили обрабатываемые числа в десятичном виде. Авторы продемонстрировали преимущества двоичной системы для технической реализации, удобство и простоту выполнения в ней арифметических и логических операций. В дальнейшем ЭВМ стали обрабатывать и нечисловые виды информации — текстовую, графическую, звуковую и другие, но двоичное кодирование данных по-прежнему составляет информационную основу любого современного компьютера.

Троичные компьютеры
Ещё одной революционной идеей, значение которой трудно переоценить, является принцип «хранимой программы». Первоначально программа задавалась путём установки перемычек на специальной коммутационной панели. Это было весьма трудоёмким занятием: например, для изменения программы машины ЭНИАК требовалось несколько дней, в то время как собственно расчёт не мог продолжаться более нескольких минут — выходили из строя лампы, которых было огромное количество. Однако программа может также храниться в виде набора нулей и единиц, причём в той же самой памяти, что и обрабатываемые ею числа. Отсутствие принципиальной разницы между программой и данными дало возможность ЭВМ самой формировать для себя программу в соответствии с результатами вычислений.

Наличие заданного набора исполняемых команд и программ было характерной чертой первых компьютерных систем. Сегодня подобный дизайн применяют с целью упрощения конструкции вычислительного устройства. Так, настольные калькуляторы, в принципе, являются устройствами с фиксированным набором выполняемых программ. Их можно использовать для математических расчётов, но почти невозможно применить для обработки текста и компьютерных игр, для просмотра графических изображений или видео. Изменение встроенной программы для такого рода устройств требует практически полной их переделки, и в большинстве случаев невозможно. Впрочем, перепрограммирование ранних компьютерных систем всё-таки выполнялось, однако требовало огромного объёма ручной работы по подготовке новой документации, перекоммутации и перестройки блоков и устройств и т. п.

Всё изменила идея хранения компьютерных программ в общей памяти. Ко времени её появления использование архитектур, основанных на наборах исполняемых инструкций, и представление вычислительного процесса как процесса выполнения инструкций, записанных в программе, чрезвычайно увеличило гибкость вычислительных систем в плане обработки данных. Один и тот же подход к рассмотрению данных и инструкций сделал простой задачу изменения самих программ.

Принципы фон Неймана
Принцип однородности памяти
Команды и данные хранятся в одной и той же памяти и внешне в памяти неразличимы. Распознать их можно только по способу использования; то есть одно и то же значение в ячейке памяти может использоваться и как данные, и как команда, и как адрес в зависимости лишь от способа обращения к нему. Это позволяет производить над командами те же операции, что и над числами, и, соответственно, открывает ряд возможностей. Так, циклически изменяя адресную часть команды, можно обеспечить обращение к последовательным элементам массива данных. Такой приём носит название модификации команд и с позиций современного программирования не приветствуется. Более полезным является другое следствие принципа однородности, когда команды одной программы могут быть получены как результат исполнения другой программы. Эта возможность лежит в основе трансляции — перевода текста программы с языка высокого уровня на язык конкретной вычислительной машины.

Принцип адресности
Структурно основная память состоит из пронумерованных ячеек, причём процессору в произвольный момент доступна любая ячейка. Двоичные коды команд и данных разделяются на единицы информации, называемые словами, и хранятся в ячейках памяти, а для доступа к ним используются номера соответствующих ячеек — адреса.

Принцип программного управления
Все вычисления, предусмотренные алгоритмом решения задачи, должны быть представлены в виде программы, состоящей из последовательности управляющих слов — команд. Каждая команда предписывает некоторую операцию из набора операций, реализуемых вычислительной машиной. Команды программы хранятся в последовательных ячейках памяти вычислительной машины и выполняются в естественной последовательности, то есть в порядке их положения в программе. При необходимости, с помощью специальных команд, эта последовательность может быть изменена. Решение об изменении порядка выполнения команд программы принимается либо на основании анализа результатов предшествующих вычислений, либо безусловно.

ПАМЯТЬ И МЫШЛЕНИЕ ОДНО И ТОЖЕ

ЛЕНТА МЁБИУСА
НЕБО НОЧНОЕ И ДНЕВНОЕ (НЕБА НЕТ ВООБЩА)))
https://ru.wikipedia.org/wiki/MIME
https://developer.mozilla.org/ru/docs/Web/HTTP/Basics_of_HTTP/MIME_types
https://datatracker.ietf.org/doc/html/rfc6838

Все форматы файлов (включая и форматы для хранения текстовых документов в файлах) можно подразделить на бинарные и текстовые.

Текстовый формат файла – это формат, основанный на plain text. Вся информация представлена в виде текста. В текстовом формате можно представить любую информацию – но её нужно закодировать в текстовый вид.

Особенно популярны текстовые форматы, разумеется, для текстовых документов. Не следует, однако, путать “текстовый формат” с “форматом plain text”. В текстовом формате может быть представлена и любая дополнительная информация – но она особым образом оформляется, чтобы отделить её от собственно текста документа.

Формат файла, не основанный на plain text, называется бинарным (от binary – англ. “двоичный”, поскольку в нём может использоваться любая последовательность двоичных данных). Например, офисный пакет Microsoft Office хранит документы, как правило, в файлах бинарных форматов.

Наиболее известный (и достаточно простой) текстовый формат – HTMLHyperText Markup Language – “язык разметки гипертекста”. “Гипертекстом” называют сколь угодно большой набор текста, разные части которого содержат ссылки друг на друга. Практически, весь WWW представляет из себя один большой гипертекст.. Он используется для Web-страниц.

Заметим, что информация о курсиве, переводе строки и ссылке (на сайт www.ru) указана в виде текста, но не попала в сам текст страницы. Также важно, что обычный перевод строки в файле не попал в текст страницы – строка переведена там, где была последовательность

Последовательности, заключённые в угловые скобки < > – не части текста, а способ указания дополнительной информации.

В формате HTML предусмотрено указание только тех видов дополнительной информации, которые нужны именно на Web-страницах. Но в последнее время активно развивается формат XMLeXtensible Markup Language – “расширяемый язык разметки”, который построен по тому же принципу, но обеспечивает работу практически с любыми видами информации.Строго говоря, и HTML, и XML основаны на относительно старом и весьма развитом стандарте формата файлов SGML (Standard Generalized Markup Language). Формат SGML позволяет создать файлы весьма различной структуры. HTML – вариант SGML именно для Web-страниц. XML – как и SGML, универсальный формат файла, но несколько более ограниченный и более приспособленный для автоматической обработки

На основании формата XML, который является достаточно обобщённым, можно создать самые разные виды форматов файлов для разных целей. И многие современные программы хранят информацию именно в файлах формата XML. Так, офисный пакет OpenOffice.Org, с которым вам предстоит познакомиться в дальнейших уроках, использует файлы формата XML.

(Правда, OpenOffice.Org сжимает файлы при помощи встроенного архиватора, аналогичного Zip. Это нужно, чтобы уменьшить их размер; кроме того, внутри архива может быть несколько файлов, хотя они составляют один документ. Таким образом, формат OpenOffice.Org всё же является бинарным – но “раскрыв” содержимое архива при помощи стандартного архиватора Zip, можно получить данные в текстовом формате).

Большие данные

Все данные - текст!

Текст (в АОТ) - машина в техносфере (текстосфере)

Данные - формальны
Информация - содержательна и конкретна!

https://ru.wikipedia.org/wiki/Данные
Да́нные — зарегистрированная информация[1]:439; представление фактов, понятий или инструкций в форме, приемлемой для общения, интерпретации, или обработки человеком или с помощью автоматических средств (ISO/IEC/IEEE 24765-2010)[2].
В информатике и информационных технологиях:
Данные — поддающееся многократной интерпретации представление информации в формализованном виде, пригодном для передачи, связи или обработки (ISO/IEC 2382:2015)[3].
Данные — формы представления информации, с которыми имеют дело информационные системы и их пользователи (ISO/IEC 10746-2:1996)[4].
Хотя информация должна обрести некоторую форму представления (то есть превратиться в данные), чтобы ей можно было обмениваться, информация есть в первую очередь интерпретация (смысл) такого представления (ISO/IEC/IEEE 24765:2010)[6]. Поэтому в строгом смысле информация отличается от данных, хотя в неформальном контексте эти два термина очень часто используют как синонимы.

https://studfile.net/preview/5879150/
Данные - это совокупность сведений, зафиксированных на определенном носителе в форме, пригодной для постоянного хранения, передачи и обработки. Преобразование и обработка данных позволяет получить информацию.

Информация - это результат преобразования и анализа данных. Отличие информации от данных состоит в том, что данные - это фиксированные сведения о событиях и явлениях, которые хранятся на определенных носителях, а информация появляется в результате обработки данных при решении конкретных задач. Например, в базах данных хранятся различные данные, а по определенному запросу система управления базой данных выдает требуемую информацию.

Для решения задачи данные обрабатываются на основании имеющихся знаний, информация анализируется с помощью знаний. На основе анализа предлагаются варианты решения, принимвается лучшее, пополняет знания.

Принятия решений осуществляются на основе полученной информации и имеющихся знаний. Принятие решений – это выбор наилучшего в некотором смысле варианта решения из множества допустимых на основании имеющейся информации.

DIKW (англ. data, information, knowledge, wisdom — данные, информация, знания, мудрость) — информационная иерархия, где каждый уровень добавляет определённые свойства к предыдущему уровню.

Сама модель ведет свои истоки от работ философа Мортимера Адлера, однако впервые в приложении к теории управления знаниями она была формализована Николя Анри. В качестве дополнения в 1989 г. Расселом Акоффом было предложено расширение этой модели слоем «understanding» (понимание): понимание требует анализа и предопределения, благодаря чему оно помещено между знанием и мудростью. Относительно временного распределения слоев он указывает на краткость жизненного цикла информации по сравнению с жизненным циклом знания; понимание считается непостоянным, а мудрость принимается за константу

В основании находится уровень данных.

Информация добавляет контекст.

Знание добавляет «как» (механизм использования)

Мудрость добавляет «когда» (условия использования)

Машинные данные (Machine data) - это цифровая информация, созданная в результате работы вычислителей (компьютеров, встроенных систем и других сетевых устройств).

Машинные данные (Machine data) - это цифровая информация, созданная в результате работы вычислителей (компьютеров, встроенных систем и других сетевых устройств).

https://ru.wikipedia.org/wiki/Функция_активации

Модель нейрона из трех элементов:
Синапсы (характеризующиеся своим весом).
Сумматор (складывающий входные сигналы, взвешенные относительно соответствующих синапсов).
Математически, это сумма значений входных сигналов, умноженных на их вес («важность»).
Функция активации (определяет выходной сигнал на основе набора входных сигналов и результата работы сумматора).
Стандартная компьютерная микросхема может рассматриваться как цифровая сеть функций активации, которые могут принимать значения «ON» (1) или «OFF» (0) в зависимости от входа. Это похоже на поведение линейного перцептрона в нейронных сетях. Однако только нелинейные функции активации позволяют таким сетям решать нетривиальные задачи с использованием малого числа узлов. В искусственных нейронных сетях эта функция также называется передаточной функцией.

Искусственный нейрон считает взвешенную сумму на своих входах, добавляет смещение (bias) и решает, следует это значение исключать или использовать дальше (функция активации). Функция активации определяет выходное значение нейрона в зависимости от результата взвешенной суммы входов и порогового значения.

Центром нервной системы является мозг, представленный сетью нейронов. Специальные рецепторы преобразовывают сигналы от тела и из окружающей среды в электрические импульсы и передают ее в мозг. Мозг получает информацию от рецепторов в виде электроимпульсов, анализирует ее и выдает решения эффекторам в виде электроимпульсов. Эффекторы преобразовывают электрические импульсы, сгенерированные мозгом, в выходные сигналы. Каждая нервная клетка, нейрон, отдельно работает по такой же трехступенчатой модели. У нервных клеток есть дендриты и аксоны. Дендриты - рецепторы, зоны приема - похожи на дерево, представляют собой неровную поверхность со множеством окончаний. Аксон же у каждой нервной клетки один и похож на кабель или линию электропередачи, по которой дальше передается некий сигнал, полученный в результате прохождения через клетку совокупности сигналов от дендритов. Все поступившие сигналы как бы смешиваются, «суммируются», и полученный «обработанный» сигнал передается дальше.

Подход, используемый в нейронных сетях, называется коннективизм. Это значит, что нейронные сети “программируются” с помощью связей между нейронами (синапсы), а точнее силой этой связи. Сигнал, подаваемый на вход системы, проходя через синапс, умножается на его “вес”. К одному нейрону, как правило, подходит несколько синапсов, и значения их выходов суммируются, а к сумме применяется некоторая нелинейная функция. Таким образом, большая часть операций вычисления нейронной сети сводится к произведению и сложению (multiplication accumulation - MAC). Для нейронных процессоров MAC является одним из важнейших параметров для определения производительности.

«Подходит определение массовой истерии»: главный психиатр Москвы — о последствиях COVID-19
https://ru.rt.com/jz5j
Эта пандемия — отчётливо двухкомпонентная. Она инфекционно-информационная.
Информационный аспект пандемии даже более значим, чем инфекционный (особенно для психики).
Информационный компонент пандемии влияет как на заболевших, так и на тех, кто не болел.
Стрессовое состояние популяции способствовало снижению критического восприятия информации.
Сначала в структуре стрессового реагирования преобладали тревожные расстройства, теперь - депрессивный компонент.
Длительно выраженная тревога может привести к кардиологическим проблемам, стрессовой язве и др.
У каждого есть своё слабое звено в организме — locus minoris resistentiae (лат. «место наименьшего сопротивления»).
Антипрививочники не слышат никаких аргументов, т.к. у них сформировались устойчивые стереотипы.
Во многом представления формируются у людей при помощи социальных сетей, где есть свои авторитеты.
К официальной повестке часто относятся скептически, ищут другие источники, более достоверные для них.
Такая информация, преломлённая через якобы личный подход, воспринимается гораздо охотней.
Это свойство психики намеренно используют для манипуляций...
Любые процессы в нашей жизни — это континуум состояний, с крайними по полюсам формами и промежуточными.
С людьми на полюсах уже ничего не сделать. Остальная часть может одуматься...

Данные и знания

Если бы геометрические аксиомы задевали интересы людей, они бы опровергались
Томас Гоббс?

Данные — формализованная и закодированная информация.

Информация (в узком смысле) — субъективно интерпретируемые данные (основа знаний).

Знание — форма существования и систематизации результатов познавательной деятельности человека.

Знание — cубъективная модель внешнего и внутреннего мира в сознании человека (в форме представлений, понятий, суждений, теорий).

Знание (в широком смысле) — совокупность понятий, теоретических построений и представлений.

Знание (в узком смысле) — статус информации, отделяющий её от всей прочей информации по критерию способности к решению поставленной задачи.

Знание (в интеллектуальных системах) — это связи предметной области (модели, принципы, отношения, законы) позволяющеие ставить и решать задачи.

Знания от данных отличает внутренняя интерпретируемость (семантическая, прагматическая, синтаксическая...) и личностный характер.

Личностные (неявные, скрытые) знания — знания, полученные из информационно неформализованной практики и опыта.

Формализованные (явные) знания — знания, полученные из информационно формализованной практики.

Формализованные знания объективизируются в данных (текстах) знаковыми средствами языка, охватывают те знания, о которых мы знаем, их можно
записать, сообщить другим.

Прагматические знания предопределяют наиболее вероятные связи, описывающие данные с точки зрения решаемой задачи (обобщенный или «объективный» контекст), например с учетом действующих в данной задаче специфических критериев и соглашений.

Декларативные знания содержат в себе представление о структуре понятий. Эти знания приближены к данным, фактам.

Процедурные знания определяют представления о средствах и путях получения новых знаний, проверке знаний. Это алгоритмы разного рода.

С развитием информатики все большую часть знаний формируют тексты (структуры данных).

Остроух А. В. Системы искусственного интеллекта : монография / А. В. Остроух, Н. Е. Суркова. — 2-е изд. — Санкт-
Петербург : Лань, 2021. — 228 с.

Гёте И.В. и Пушкин А.С. о знании

Гёте Иоганн Вольфганг - абсолютный гений, автор "Фауста" (абсолютного шедевра).

Историко-критическое издание Фауста Гете (2009-2014) http://faustedition.net/

Faust - Der Tragödie erster Teil (https://de.wikisource.org/wiki/Faust_-_Der_Tragödie_erster_Teil)
Faust - Der Tragödie zweiter Teil (https://de.wikisource.org/wiki/Faust_-_Der_Tragödie_zweiter_Teil)

Der Tragödie Erster Theil. Nacht.	Фауст (Перевод: Борис Пастернак) » Первая часть » Ночь

Faust. Such’ Er den redlichen Gewinn! Sey er kein schellenlauter Thor! Es trägt Verstand und rechter Sinn Mit wenig Kunst sich selber vor; Und wenn’s euch Ernst ist was zu sagen, Ist’s nöthig Worten nachzujagen? Ja, eure Reden, die so blinkend sind, In denen ihr der Menschheit Schnitzel kräuselt, Sind unerquicklich wie der Nebelwind, Der herbstlich durch die dürren Blätter säuselt!	Фауст Учитесь честно достигать успеха И привлекать благодаря уму. А побрякушки, гулкие, как эхо, Подделка и не нужны никому. Когда всерьез владеет что-то вами, Не станете вы гнаться за словами, А рассужденья, полные прикрас, Чем обороты ярче и цветистей, Наводят скуку, как в осенний час Вой ветра, обрывающего листья.

Faust. Das Pergament, ist das der heilge Bronnen, Woraus ein Trunk den Durst auf ewig stillt? Erquickung hast du nicht gewonnen, Wenn sie dir nicht aus eigner Seele quillt.	Фауст Пергаменты не утоляют жажды. Ключ мудрости не на страницах книг. Кто к тайнам жизни рвется мыслью каждой, В своей душе находит их родник.

Wagner. Allein die Welt! des Menschen Herz und Geist! Möcht’ jeglicher doch was davon erkennen. Faust. Ja was man so erkennen heißt! Wer darf das Kind beym rechten Namen nennen?	Вагнер Но мир! Но жизнь! Ведь человек дорос, Чтоб знать ответ на все свои загадки. Фауст Что значит знать? Вот, друг мой, в чем вопрос. На этот счет у нас не все в порядке.

Пушкин Александр Сергеевич, "Сцена из Фауста":

Фауст

В глубоком знанье жизни нет —
Я проклял знаний ложный свет...

Тёмные века (период европейской истории с VI по X века) - эпоха отказа от ложного света во имя сияния Истины, Добра и Красоты.

Машинная метафора текста

Текст - цепочка символов некоторого языка.

Текст - машина в техносфере...

Программа - машина... работающая в вычислительной среде...

В АОТ текст рассматривается как машина

структура,

детали,

характеристики

параметры

возможности

Автомобиль, как метафора текста.

Описать автомобиль можно различным образом...
Число признаков для возможных описаний и классификаций бесконечно.
Суть метода (способа, подхода, парадигмы) в абстрагировании от одних признаков и внимание к другим.
Важно понять: что есть автомобиль? Откуда и куда от нас везёт?

АОТ не столько о языке и тексте... сколько о машинах и мире взаимодействующих машин (по поводу языка и текста)...

Лингвистика не столько о языке и тексте... сколько о человеке, мире людей и их отношениях людей (по поводу языка и текста)...

Символьный тип данных

https://ru.wikipedia.org/wiki/Символьный_тип

Символьный тип (Сhar) — тип данных, предназначенный для хранения одного символа в определённой кодировке.

Может являться как однобайтовым (для стандартной таблицы символов), так и многобайтовым (к примеру, для Юникода ).

Основным применением является обращение к отдельным знакам строки.

https://en.wikipedia.org/wiki/Character_(computing)

In computer and machine-based telecommunications terminology, a character is a unit of information that roughly corresponds to a grapheme, or symbol, such as in an alphabet or syllabary in the written form of a natural language.

Examples of characters include letters, numerical digits, common punctuation marks, whitespace, includes control characters, which do not correspond to visible symbols but rather to instructions to format or process the text.

Characters are typically combined into strings.

Historically, the term character was also used to just denote a specific number of contiguous bits.

https://ru.wikipedia.org/wiki/Графема
Графе́ма (др.-греч. γράφω, «пишу» + суффикс «-ема») — минимальная единица письменности: в алфавитных системах письма — буква (или другое отражение фонемы), в неалфавитных системах письма — слоговой знак, иероглиф, идеограмма и другие[1]. Графема однозначно отличима от любой другой единицы этой же письменности; варианты одной и той же графемы называются аллографами (от греч. άλλος, «другой» и греч. γράφω, «пишу»). Реально встречающиеся в печатных и рукописных источниках варианты записи называются начертаниями[2] (ср. глифы), графема тем самым объединяет в одну группу начертания, которые отличаются «несущественно»; начертания с «существенными» отличиями относятся к разным графемам.

https://en.wikipedia.org/wiki/Grapheme
The concept of graphemes is abstract and similar to the notion in computing of a character.
Понятие графем абстрактно и похоже на понятие при вычислении символа.

https://ru.wikipedia.org/wiki/Орфография_английского_языка
Орфография английского языка — совокупность правил, регламентирующих написание слов английского языка. Хотя современный английский алфавит содержит 26 букв, английская орфография является одной из самых сложных в мире, поскольку согласно самым современным исследованиям 1120 графем используются для передачи звучания 62 фонем.
https://en.wikipedia.org/wiki/English_orthography
https://en.wikipedia.org/wiki/German_orthography
https://de.wikipedia.org/wiki/Deutsche_Rechtschreibung

Орфогра́фия ру́сского языка́ — правописание, система правил, определяющих единообразие способов передачи речи (слов и грамматических форм) на письме.
https://ru.wikipedia.org/wiki/Орфография_русского_языка

Орфогра́фия ( прямой+писать) — единообразие передачи форм устной речи на письме.
Благодаря единообразию написания сглаживаются индивидуальные и диалектные особенности произношения и упрощается взаимопонимание.

Седжвик Р., Уэ

с другими текстами)

геометрическая фигура на плоскости (от лат. figura) — произвольное множество точек ( конечное множество линий).

Математическая абстракция — абстракция в математике, мысленное отвлечение. Типы абстрагирования, применяемых в математике: "чистое" отвлечение, идеализация и их различные вариации[1].

"Чистое" отвлечение
"Чистое" отвлечение, как мысленный акт, представляет из себя фиксирование внимания лишь на определенных, существенных для цели или задачи, свойствах объектов рассмотрения. Другие свойства, связи и отношения нашим сознанием игнорируются, как несущественные. Результатом такого акта абстрагирования является некое общее понятие, закрепленное с помощью необходимых языковых средств.

Идеализация
Основная статья: Идеализация
Идеализация, как мысленный акт, это порождение некоторого понятия, становящегося для нас предметом рассмотрения. Причем данное понятие наделяется нашим сознанием не только свойствами исходных объектов, но и другими, воображаемыми, свойствами, которые могут быть как и отражающими свойства исходных объектов в измененном виде, так и вообще отсутствующими у них.

Примером одной из наиболее часто используемых идеализации является абстракция актуальной бесконечности, ведущая к идее актуальной бесконечности. Данная абстракция является основой теоретико-множественного построения математики. Другая традиционная идеализация — это абстракция потенциально осуществимости — приводящая к идее потенциальной бесконечности. Данная абстракция совместно с отказом от применения абстракции актуальной бесконечности является основой конструктивного построения математики.

Наиболее значительный вклад в анализ абстракции внесли математики: Давид Гильберт, Андрей Марков (младший), Герман Вейль, Лёйтзен Брауэр.

Язык - полнпывающ

Сусов Иван Павлович
История языкознания

Европейские системы письма являются алфавитными, а такое письмо представляет собой, как известно, наиболее совершенную систему звукового письма для языков фонемного строя. Оно строится на одно-однозначном соответствии между графемами и фонемами, т.е. стремится к реализации идеальной формулы графической системы. И тем не менее часто наблюдаются отклонения от идеала, состоящие: а) в наличии множества графем ("аллографов" или "графемных рядов") для обозначения одной фонемы; б) в использовании разных графем для передачи обязательных и факультативных аллофонов одной фонемы; в) в употреблении одной графемы для обозначения разных фонем — нередко с учётом позиции в слове; г) в наличии ряда позиционных вариантов одной графемы. Оптимальное решение проблемы графики заключается в построении если и не исчерпывающего, то вполне достаточного и вместе с этим экономного набора правил фиксации фонематически существенных для данного языка звуковых различий (фонологических дифференциальных признаков).

Формирование письменностей на основе латиницы представляло собой долгий и противоречивый процесс стихийного приспособления знаков латиницы к иного рода системам фонем, протекавший при отсутствии на начальном этапе предварительного осмысления принципов отбора имевшихся графем и придания им в необходимых случаях других функций, при отсутствии заранее составленного свода правил графики, регулирующей соответствия между графемами и фонемами, и тем более при отсутствии орфографии, унифицирующей написание конкретных слов. Между культурными центрами (как правило, монастырями) и школами переписчиков шла острая конкурентная борьба, связанная с отстаиванием тех или иных графических приёмов.

Основные понятия теории письма
Естественный человеческий язык возникает и функционирует как система звуковых знаков, денотатами которых являются прежде всего элементы нашего опыта, т.е. разноообразные явления действительности. Звуковая материя является первичной и основной формой её существования. Инвентарные единицы этой системы (слова и морфемы, а также фразеологизмы) и правила их комбинирования в речи воспроизводимы в бесчисленном множестве конструктивных образований типа словосочетаний, предложений и текстов.
Письмо предназначено для того, чтобы фиксировать посредством графических знаков в целях передачи на большие расстояния и сохранения во времени звучащей речи. Благодаря членораздельности речи, т.е. её членимости на воспроизводимые инвентарные единицы, оно становится (на определённой ступени социальной эволюции) второй ипостасью того или иного конкретного языка. Оно представляет собой коммуникативную систему, элементами которой являются графические знаки, имеющие своими денотатами не явления действительности, а воспроизводимые в речи инвентарные единицы языка. Письмо в собственном смысле, подобно языку, в принципе должно содержать в своём инвентаре конечное число стандартных, воспроизводимых графических единиц (графем) и правил их комбинирования.
Основной единицей системы письма является графема. Как единица знаковой системы, она вступает в парадигматические отношения с другими графемами этой же системы и в оппозициях другим графемам обнаруживает свои различительные (дифференциальные) признаки, благодаря совокупности которых она опознаётся как таковая и не смешивается с другими графемами. Так, русская графема В отличается от графемы Ь и графемы Р наличием двух полушарий справа, в то время как Ь и Р характеризуются, в отличие от В, наличием лишь одного полушария справа, а между собой различаются расположением этого полушария в нижней или верхней части вертикальной черты. Наличие этой черты оказывается общим (интегрирующим) признаком трёх указанных графем.
Вместе с тем каждая графема выступает членом синтагматического ряда и может иметь начертательные варианты в зависимости от своей позиции. Так, в греческом письме графема сигма выступает в виде двух аллографов, один из которых встречается только в конечном положении (в исходе слова), а другой во всех остальных положениях. Этот принцип был повторён в готском письме, а также в так называемой фрактуре - готическом шрифте, который использовался прежде всего в Германии до середины 20 в. В арабском письме одна графема может выступать в виде четырёх аллографов (соединение с другой графемой справа, соединение слева, соединение с обеих сторон, отсутствие соединения).
Главными элементами алфавитной графической системы являются буквы. Они могут иметь свои имена, обладают начертательной формой, звуковым значением, а в ряде систем письма и числовым значением. В качестве аллографов одной буквы выступают её рукописные и печатные (машинописные и типографские) начертания. Так, об аллографии можно говорить в случаях прямого и наклонного начертаний буквы д (д и д). Аллографы печатных букв могут нести черты определённого шрифта. В какой-то степени аллографами одной и той же буквы можно признать её начертание как заглавной (прописной) буквы (в начале имён собственных, в начале существительных в немецкой графике, знаменательных слов в ряде графических систем) и как маленькой (строчной) буквы в других случаях. Однако при этом не следует забывать, что заглавные буквы часто несут дополнительную (помимо передачи звуковых значений) знаковую нагрузку.
Что касается звуковых значений букв, то в правилах графики данного языка обычно различаются их первичная и вторичные функции. Так, основная функция русской буквы д состоит в обозначении смычной звонкой переднеязычной непалатализованной фонемы /d/: дот, сдал, дуть, дым. Вместе с тем (по законам русской графики, учитывающей и слоговой принцип) буква д обозначает перед и, е, ё, ю смычную звонкую переднеязычную палатализованную фонему /d'/: идёт, дядя, дюны, дети, дичь. Вторичная функция этой буквы (в соответствии с морфемным, или морфологическим, принципом русской графики) заключается в передаче смычной глухой переднеязычной непалатализованной фонемы /t/ (пруд, лёд) и смычной глухой переднеязычной палатализованной фонемы /t'/: (сядь, ведь), причём обе эти фонемы чередуются (по закону ассимиляции перед глухими согласными или в исходе слова) с соответствующими им звонкими. Если вести анализ в направлении от буквы к обозначаемым ею фонемам, можно говорить о полисемии буквы. Если же вести анализ в обратном направлении - от данной фонемы к набору обозначающих её графем, например, устанавливая такие способы графического отображения русской фонемы /t'/, как т, д, ть, дь (полёт, лёд, лететь, медведь), то мы вправе говорить об омонимии соответствующих букв.
Графика формулирует правила соответствий между буквами и фонемами, т.е. правила чтения и правила написания. Выбор же между возможными в графике данного языка способами фиксации на письме конкретных слов и морфем предписывает орфография.
Правила графики соответствующего языка могут ставить в соответствие какой-то фонеме сочетание двух или большего числа букв. Так, во французском языке фонема /S/ передаётся диграфом ch (chat 'кот'), английская фонема /S/ обозначается диграфом sh (shine 'блеск'), немецкая фонема /S/ требует для своего обозначения трёхбуквенного сочетания (триграфа) sch (Schatz 'сокровище'). В ряде графических систем встречаются лигатуры (например, соединение во французском языке в одном знаке о и е, соединение а и е в одном знаке в датской графике; многочисленные лигатуры в письме деванагари, обслуживающем санскрит, хинди и некоторые другие языки Индии). Нередки и буквы, обзначающие последовательности фонем (например, греческие буквы пси и кси, буква х в латинской графике и во многих системах письма, опирающихся на неё).
Графика того или иного языка включает в свой состав не только буквы, но и надстрочные или подстрочные диакритические знаки, которые либо, сочетаясь с буквами основного инвентаря, обеспечивают передачу фонем, либо служат обозначению просодических свойств (ударение, тон, долгота), либо обеспечивают разграничение на письме слов-омонимов. В русском письме диакритизированными буквами являются й и ё. Диакритические знаки используются в графике таких европейских языков, как эстонский, финский, венгерский, латышский, литовский, чешский, польский, сербскохорватский, немецкий, нидерландский, норвежский, шведский, датский, исландский, французский, итальянский, испанский, португальский, румынский и многие другие. В арабском и еврейском письме диакритики служат для обозначения не имеющих собственных букв гласных элементов, т.е. для информации о соответствующей огласовке. В деванагари диакритические знаки появляются при фиксации слогов, в которых за согласной фонемой следует не /a/, а какая-то другая гласная фонема.
К числу графем могут быть отнесены и знаки препинания, выполняющие скорее вспомогательные функции (членение высказывания и указание на характер связи между выделенными фрагментами высказывания, цитация, различение коммуникативной целеустановки предложения). Делимитативную (разграничительную) функцию выполняет также пробел.

Выстраивание общей концепции письма под сенью лингвистики и культурологии началось со второй половины 20 в. Одним из первых за создание специальной науки о письме выступил в50-е гг. И. Гельб9, предложивший называть ее «грамматологией» (до этого существовали такие понятия, как графемика и филография). Его книга Опыт изучения письма (основы грамматологии), М., 1982, несмотря на некоторую тенденциозность, выражает свежий взгляд на науку о письме в целом и ставит перед ней новые задачи. Особый интерес вызывает небольшой раздел в книге Гельба о новейшем письмотворчестве в развивающихся странах.

В книгах А.А. Волкова «Грамматология. Семиотика письменной речи», М., 1982 и Т.А. Амировой «К истории и теории графемики». М., 1977; ее же «Функциональная взаимосвязь письменного и звукового языка», М., 1985 делается акцент на лингвистической составляющей грамматологии. Письмо рассматривается, как графическая речь, существующая параллельно речи устной. Подобное рассмотрение делает возможным переносить уже сложившиеся лингвистические термины и схемы на только еще складывающуюся грамматологическую науку. А. А. Волков, охватывая довольно большое количество восточных алфавитов (что, как уже отмечалось выше, не является характерным для отечественных исследователей письма), прорабатывает понятия «графического ареала», «организации алфавита и «графических универсалий».

Характерен также взгляд на письмо через призму психо- и нейролингвистики (А.Р. Лурия «Очерки психофизиологии письма», М., 1950; Л.Р. Зиндер «Очерк общей теории письма», М., 1987).

Текст и язык

Практический интерес представляет особая категория цепочек символов (текстов), цепочки символов языка.

Текст - цепочка символов некоторого языка.

Язык - множество всех подмножеств определенных над некоторым конечным множеством.

Язык - множество всех текстов, определенных над некоторым алфавитом.

Алфавит - некоторое конечное множество элементов

Текст - некоторое (допустимое, разрешенное) подмножество элементов алфавита

Атрибутами (необходимыми свойствами) текста являются связность и полнота.

Определяет связность (пределы допустимого сочетания) подмножества - грамматика (синтаксис) языка.

Грамматика (синтаксис) - набор правил, определяющий связность текста (возможность (допустимость) определенных структур (последовательностей, цепочек) элементов алфавита для данного языка)

Грамматика (синтаксис) выделяет из множества всех возможных подмножеств некоторые допустимые (связные) подмножества, образуя новое (связное) множество (множество всех подмножеств) и оставляя прочие (запрещенные, запредельные, недопустимые) подмножества за его пределами.

Седжвик Р., Уэйн К. (Computer Science: основы программирования..., алгоритмы и структуры данных. — СПб.: Питер, 2018. — 1072 с.):

Символом может быть все, что угодно, что можно отличить от любого другого символа.
Алфавит представляет собой конечное множество символов.
Строка представляет собой конечную последовательность алфавитных символов.
Формальный представляет собой множество строк (возможно, бесконечное), принадлежащих одному алфавиту.
Первые два определения могут показаться настолько простыми и очевидными, что даже не требуют отдельного упоминания, но за ними стоят фундаментальные концепции, поэтому они должны иметь четкие и однозначные определения.
Третье определение, возможно, покажется вам новым; поразмыслите и постарайтесь понять его суть.
Это простое определение, и в дальнейшем мы будем использовать термины «множество строк» и «формальный язык» как синонимы.

Полнота текста содержится и раскрывается в языке (его цельности и целостности) как единство всех возможных контекстов.

Текст (в совокупности своих свойств полностью определяется языковым контекстом (соотнесённостью с другими текстами)

Язык - полнота текста (выраженного в контекстах)

https://ru.wikipedia.org/wiki/Контекст

Контекст (от лат. вместе + текст) соединение (связь, сплетение, сцепление) текстов.
Контекст способ рассмотрения текста как элемента более широкого текста.
Контекст есть текст текстов (состоящий из текстов).
Любой текст может быть понят как контекст. Любой контекст может быть понят как текст.
Контекстуальность — обусловленность контекстом (самообусловленость текста)

https://en.wikipedia.org/wiki/Context

Язык - образует полноту текста (символа) и определяет его исчерпывающий контекст

В полноте сообщества (команды разработчиков) всегда есть понимание символа в контексте языка.
Что не исключает (предполагает с необходимостью) отсутствие такого понимания у 90% элементов (членов) множества (сообщества).

Текст, как абстракция

Эвальд Васильевич Ильенков Абстракция, Всеобщее
http://flibusta.is/b/228951/read

Абстракция (от лат. abstractio — отвлечение), — один из моментов процесса познания, который заключается в мысленном отвлечении от ряда несущественных свойств, связей изучаемого предмета и выделении основных, общих его свойств, связей и отношений. Результатом абстракции являются понятия, категории, например материя, движение, развитие, закон, стоимость и т. п.

Таким образом возникла теория категорий как новый раздел
математики для изучения самой математики. В некотором
смысле теория категорий — это высшая степень абстракции.
Для абстрактного изучения мира мы используем науку, для
абстрактного изучения науки мы используем математику, для
абстрактного изучения математики мы используем теорию
категорий.

Теория категорий основывается на отношениях между вещами
и разными способами изучает такие отношения: характеризует вещи посредством свойств, которыми они обладают, находит
пруд, где эти вещи становятся самой жирной рыбой, помещает вещи в контекст или предполагает, что эти вещи являются
«более-менее одним и тем же». А многомерная версия теории
категорий делает все то же самое с самими отношениями. Так
мы переходим на другой уровень абстракции и попадаем в многомерную теорию категорий.

Почему все так сложно?

Ищи ответы с Юджинией Ченг в книге Математический беспредел. От элементарной математики к возвышенным абстракциям. — СПб.: Питер, 2019. — 336 с.

http://flibusta.is/b/541020

КАТЕГОРИИ ТЕКСТА
© Ф. У. Жаббарова
Метаязык, используемый при изучении категорий текста, находится в настоящее время в процессе формирования.
https://cyberleninka.ru/article/n/kategorii-teksta

https://gtmarket.ru/concepts/7008

Абстра́кция (лат. abstractio «отвлечение»[1]) — процесс отвлечения (абстрагирования) от тех или иных характеристик объекта для их избирательного анализа; при этом наблюдаемый объект замещается его идеализированным теоретическим образом – абстрактным объектом. Абстракции являются универсальным методом научного познания, они необходимы для формирования понятий, узнавания и классификации объектов исследования на всех уровнях формирования знаний[2].

Абстраги́рование — операция мышления, состоящая в отвлечении от несущественных сторон, свойств, связей объекта (предмета или явления) с целью выделения их существенных, закономерных признаков. Результат абстрагирования — абстрактные понятия, например: цвет, кривизна, масса, красота и т. д.

В европейской философии и логике абстрагирование трактуется как способ поэтапного продуцирования понятий, которые образуют всё более общие модели — иерархию абстракций. Наиболее развитой системой абстракций обладает математика. Степень отвлечённости обсуждаемого понятия называется уровнем абстракции. В зависимости от целей и задач, можно рассуждать об одном и том же объекте на разных уровнях абстракции[2].

екст, ставший объектом разнопланового лингвистического изучения лишь в последней трети ХХ в., не имеет к настоящему времени однозначного определения. Не последнюю роль играет в данном случае отсутствие устоявшегося мнения в отношении состава и понимания текстовых категорий и признаков. Несомненно, следует согласиться с И. Р. Гальпериным, стоявшим, по сути, у истоков развития лингвистики текста и утверждавшим, что «нельзя говорить о каком-либо объекте исследования, в данном случае о тексте, не назвав его категорий» [1, с. 4].

Что касается сущности термина «категория» (гр. kategoria - доказательство, показание), то в энциклопедических работах обращается внимание на два основных момента в его трактовании: с точки зрения философии и с позиции лингвистики. В частности, утверждается, что категория - это « 1) фил. общее понятие, отражающее наиболее существенные свойства и отношения предметов, явлений объективного мира (материя, время, пространство, движение, причинность, качество, количество т.д.); 2) разряд, группа предметов, явлений, лиц, объединенных общностью каких-л. признаков; 3) лингв. совокупность ряда противопоставленных друг другу грамматических значений (напр., категория падежа образуется совокупностью всех падежей данного языка)» [2, с. 221].

В широком плане под категорией понимается «одна из познавательных форм мышления человека, позволяющая обобщать его опыт и осуществлять его классификацию» [3, с. 45]. В соответствующих научных исследованиях выделяются различные типы общенаучных категорий, актуальных для любой области научного знания, например, категории объективного и субъективного, общего и частного, формы и содержания, времени, пространства и т.д.

Широкое толкование грамматической категории характерно прежде всего для отечественного языкознания Х1Х в. (Л. В. Щерба, А. А. Потебня) и зарубежной лингвистики начала ХХ в. (Ф. де Сос-сюр, М. Докулил, М. А. К. Халлидей, Н. Хомский). В рамках данного толкования категориями считают и части речи и группировки слов (форм) внутри частей речи или между ними (грамматическая категория имени, причастия и др.), члены предложения,

разновидности членов предложения. Для более узкого толкования категории характерно установление явлений внутренней группировки в пределах определенной части речи: у существительных категория числа, вещественности и т.п., в пределах глагола - категории залога, вида и др. Так, грамматические формы, выражающие противопоставленные друг другу грамматические значения единственного и множественного числа, в своей совокупности образуют грамматическую категорию числа.

К настоящему времени в лингвистике имеется определенный опыт изучения грамматической категорий как совокупности «взаимопротивопостав-ленных грамматических форм с однородными грамматическими значениями» [4, с. 317]. Все грамматические категории подразделяются на морфологические и синтаксические, при этом вопрос о синтаксических категориях является по существу открытым, поскольку требованию включать в себя систему противопоставленных друг другу синтаксических конструкций (К. Г. Крушельницкая,

А. В. Бондарко) удовлетворяют, например, лишь оппозиции активных и пассивных, повествовательных и вопросительных конструкций.

Что касается статуса текстовых категорий, то в современных исследованиях их интерпретируют как текстовые качества, как единицу анализа, как полевую структуру. Анализ показывает, что терминологический аппарат данного направления исследования текста еще во многом не сложился. Об этом свидетельствует прежде всего терминологическое разнообразие в плане использования даже основных понятий. В частности, в некоторых работах как синонимы используются термины категории, свойства, параметры текста [5, с. 40-45], либо текстовые признаки и категории [6, с. 131; 7, с. 364], качества и категории текста [8, с. 66], несмотря на постулируемую в некоторых случаях «необходимость различать текстообразующие категории и свойства текста» [5, с. 41].

В настоящее время текстовые категории определяются либо как «специфические признаки речевого целого, отличающие это целое (текст) от других языковых явлений» [7, с. 364], либо как «один из взаимосвязанных существенных признаков текста, представляющий собой отражение определен-

1238

ФИЛОЛОГИЯ и ИСКУССТВОВЕДЕНИЕ

ной части общетекстового смысла различными языковыми, речевыми и собственно текстовыми (композитивными) средствами» [9, с. 533]. С учетом универсальных смыслов художественного текста категории трактуются как «такая ступень абстрагирования его содержания, при которой вычленяются идеальные сущности, соотносимые с содержанием всех конкретных художественных текстов» [10, с. 6], в то время, как Н. С. Болотнова понимает под категориями текста «текстовые качества, важнейшие признаки текста, имеющие типизированный и обобщающий характер» [6, с. 161].

Рассмотрим количественный состав категорий текста, выявленных в исследованиях отечественных и зарубежных лингвистов. В монографии И. Р. Гальперина были названы десять текстообразующих категорий: информативность, членимость, когезия (внутритекстовые связи), континуум, автосемантия отрезков текста, ретроспекция и проспекция, модальность, интеграция и завершенность текста [1].

Применительно к художественным текстам в исследованиях выделяются 14 текстообразующих категорий, а именно: целостность (или цельность), связность, завершенность, абсолютная антропоцен-тричность, социологичность, диалогичность, развернутость и последовательность, статичность и динамичность, напряженность, эстетичность, образность, интерпретируемость. При этом подчеркивается, что целостность и связность являются фундаментальными текстообразующими категориями, которые «притягивают к себе и группируют вокруг себя категории, соотнесенные с ними» [5, с. 42].

Зарубежные текстологи [11-12] рассматривают в своих работах семь критериев текстуальности (ТехШаІіІШзкгкегіеп), в число которых включают когезию, когерентность, интенциональность, приемлемость, информативность, ситуативность и межтекстуальную связь.

Не существует в настоящее время единого мнения и в отношении градации текстообразующих категорий, поскольку в лингвистической литературе представлены различные точки зрения в отношении выделения главных (ведущих) и факультативных категорий текста. Так, по мнению одних авторов, «ведущими текстовыми свойствами являются целостность, членимость и модальность», которые «могут быть названы основными категориями текста, подчиняющими себе более частные его признаки» [7, с. 366]. Другие авторы полагают, что «основу универсальных категорий текста составляют целостность (план содержания) и связность (план выражения), вступающие друг с другом в отношения дополнительности, диархии» [5, с. 41]. Н. С. Болотнова, напротив, выделяет «глобальные категории событие, время и пространство», которые определяют «основные параметры лингвистически материализованного текстового мира» и «глобальную категорию диалогичности», которая реализуется «в категориях субъективности и адре-сованности, связанных с субкатегориями образа автора и адресата» [6, с. 162].

В работах зарубежных исследователей текста [11] основными критериями текстуальности считаются когезия как формальная связанность на уровне формы и когерентность как содержательная связность на уровне содержания речевого произведения.

Безусловно, категория связности (связанности) относится к числу обязательных категорий любого текста, поскольку связность - это свойство текста, с помощью которого обеспечивается его смысловая целостность. Даже само понятие «текст» в переводе с латинского (1ай textum) означает ткань, т.е. связь элементов внутри целого. В лингвистических исследованиях, как правило, наблюдается разделение двух понятий - когезии и когерентности. Под когезией понимают при этом все формальные связи, существующие в поверхностной структуре текста и являющиеся внешним выражением его когерентности, т.е. глубинных, логико-смысловых связей. Таким образом, происходит разграничение формальных и содержательных характеристик категории связности текста.

Средства, осуществляющие связность письменного текста, могут быть лексическими, морфологическими, синтаксическими и стилистическими. Лексические повторы слов и сочетаний слов, отдельных фраз, использование местоимений, союзов, артиклей, различного рода отсылок, парентез, анафор, эпифор, эллиптических конструкций - все эти средства языка могут выполнять связующую роль в тексте. Частотность использования названных языковых средств связности зависит от целого ряда факторов, а одним из основных является принадлежность текста к художественным или нехудожественным произведениям. Категория связности, наряду с такими категориями, как информативность, модальность, временная перспектива включается в число сугубо текстовых категорий, поскольку содержание любого речевого произведения излагается последовательно, линейно в цепочке взаимосвязанных предложений.

Проведенный нами анализ работ, посвященных признакам текста, свидетельствует о том, что проблема определения текстовых признаков также остается дискуссионной, а их перечень может значительно варьироваться. Кроме того, текстовые категории и признаки могут не дифференцироваться. По мнению В. А. Масловой, всем текстам свойственны определенные конститутивные (дифференциальные, различительные) признаки, которые автор называет категориями и обусловливает их зависимость от соответствующего подхода к тексту, который может быть, например, собственно лингвистическим, или коммуникативным подходом. Указывая на необходимость систематизации основных понятий и категорий текста, автор выделяет ключевые, формальные (композиция, члени-мость, когезия), семантико-прагматические и жанрово-стилистические категории текста и подчеркивает, что «формальная связность текста (когезия) коррелирует с содержательной связностью (когерентностью), выступающей в свою очередь подкатегорией целостности текста» [13, с. 27].

К системным универсальным признакам текста относят также информативность, структурность, регулятивность и интегративность [8, с. 6]. При этом регулятивность текста имеет прагматическую основу и соотносится, по мнению авторов, с рядом свойств текста: модальностью, эмотивно-стью, экспрессивностью и прагматичностью.

На наш взгляд, целесообразно разграничивать признаки и категории текста, поскольку текстообразующие категории, в отличие от его признаков, имеют абстрагированный, более обобщающий характер. Категории текста имеют полевую структуру, поскольку репрезентируются разноуровневыми текстовыми единицами.

Учитывая коммуникативную природу текста и выполняемые им коммуникативно-прагматические функции, следует признать в рамках текста и наличие категории вариативности, интерес к понятийному содержанию которой неизменно возрастает.

На текстовом уровне представлена вариативность двух типов [14]. Во-первых, вариативность, действующая в текстах, приводит к образованию разных видов (подвидов) текстов, которые используются в различных дискурсах: официально-

деловом, деловом, научном, научно-техническом, публицистическом, юридическом, политическом, обиходно-бытовом и др. В данном случае представлен первый тип коммуникативно-прагматической вариативности - «внешняя» вариативность, благодаря которой создаются и разграничиваются разные виды (подвиды) текстов, являющиеся моделями речевого поведения коммуникантов в социуме.

Второй тип коммуникативно-прагматической вариативности можно считать «внутренней» вариативностью, поскольку она действует в самих текстах и реализуется при помощи использования, либо неиспользования в них как средств различных языковых уровней, так и некоторых экстралингвис-тических явлений. На основе внутренней вариативности достигается известное многообразие изложения информации в каждом отдельном виде (подвиде) текста.

Несомненно, составить универсальный перечень признаков и категорий текста чрезвычайно сложно, ибо насколько бесконечно многообразие текстов, образующих различные дискурсы, настолько и различны их характеристики. Безусловно, некоторые категории присущи всем текстам. К по-

добным можно отнести, в частности, категорию связности (связанности), независимо от того, считается ли связность, наряду с категориями члени-мости и законченности, лишь частной категорией по отношению к категории целостности, или напротив, сама трактуется как макрокатегория.

Обращение в настоящей статье к вопросу о текстовых категориях и признаках предопределено недостаточной разработанностью и явной дискус-сионностью названной проблематики. В настоящее время в лингвистике не существует единой точки зрения относительно понимания текстообразующих категорий и признаков текста, а также их систематизации, что обусловлено разными подходами к изучению текста и различными аспектами его рассмотрения и анализа. Названные факторы, несомненно, оказывают негативное влияние на развитие лингвистики текста в целом, поскольку адекватное и наиболее полное определение любого лингвистического объекта, в нашем случае текста, может быть составлено только с учетом его различительных характеристик.

ЛИТЕРАТУРА

1. Гальперин И. Р. Текст как объект лингвистического исследования. М.: Наука, 1981. 13 с.

2. Словарь иностранных слов. М.: Русский язык, 1988. 608 с.

3. Кубрякова Е. С. Категория // Краткий словарь когнитивных терминов / Под ред. Е. С. Кубряковой, В. З. Демьянкова, Ю. Г. Панкрац. М., 1997, С. 45-47.

4. Алефиренко Н. Ф. Теория языка. Вводный курс. М.: ИЦ Академия, 2010. 384 с.

5. Бабенко Л. Г., Казарин Ю. В. Лингвистический анализ художественного текста. М.: Флинта; Наука, 2008. 496 с.

6. Болотнова Н. С. Филологический анализ текста. М.: Флинта; Наука, 2009. 520 с.

7. Ильенко С. Г. Русистика: Избранные труды. СПб: изд-во РГПУ им. А. И. Герцена, 2003.

8. Сидоров Е. В. Коммуникативный принцип исследования текста // Изв. АН СССР. Сер. лит. 1986. Т. 45. №5. С. 425-432.

9. Матвеева Т. В. Функциональные стили в аспекте текстовых категорий. Свердловск: изд-во Уральского гос. ун-та, 1990. 134 с.

10. Чернухина И. Я. Общие особенности поэтического текста. Воронеж: изд-во ВГУ, 1987. 187 с.

11. Beaugrande D. R.-A.de, Dressier W. Einfuhrung in die Tex-tlinguistik. Tubingen: Niemeyer, 1981. 290 S.

12. Vater H. Einfuhrung in die Textlinguistik. Munchen: W. Fink, 1994. S. 207.

13. Маслова В. А. Современные направления в лингвистике. М.: ИЦ Академия, 2008. 272 с.

14. Таюпова О. И. Введение в коммуникативно-прагматическую вариативность. Уфа: РИЦ БашГУ, 2009. 130 с.

Метаязык для языка

https://ru.wikipedia.org/wiki/Метаязык
https://gtmarket.ru/concepts/7029
Метаязык — это любой естественный или искусственный язык (язык «второго уровня»), на котором описывается другой язык (язык «первого уровня»).

Из каких элементов состоит метаязык
лингвистики?1
What kind of elements does the metalanguage
of linguistics consist of?
http://www.dialog-21.ru/media/1664/39.pdf

Метаязы́к — язык, предназначенный для описания другого языка, называемого объектным языком[en]. Метаязык — язык лингвистики. Лингвистическая лексика, на основе которой формируются словари. Язык построения теории, слов, фраз в сфере грамматической лингвистики.
Понятие метаязыка используется:
в лингвистике, при описании естественных языков — метаязык как язык для описания языка. Естественный язык может являться своим же метаязыком (например, для описания русского языка можно использовать тот же русский язык), или отличаться лишь частично, например, специальной терминологией (русская лингвистическая терминология — элемент метаязыка для описания русского языка);
при исследовании языков различных логико-математических исчислений (напр., Форма Бэкуса — Наура);
в информатике — дополнительные данные (метаданные), служащие для описания имеющихся.
в математике — формальный логико-математический язык для формулирования метатеории или в расширенном значении — неформализованный язык для представления утверждений метаматематики.

Понятие «метаязык» было введено польским математиком Альфредом Тарским.
C помощью него можно избавиться от таких логических парадоксов, как парадокс лжеца и самореферентные парадоксы.

Первым уровнем (обычным языком) являются утверждения об объектах, например: «У Земли есть спутник». В языке низшей ступени нет понятий «ложь» и «истина». Такие понятия, как оценка истинности утверждений об объектах, являются привилегией метаязыка — следующей ступеньки лестницы. Таким образом предложение «Утверждение „снег белый“ истинно» имеет смысл в метаязыке. Однако о его истинности можно говорить лишь в следующей надстройке — метаметаязыке. При этом метаязык является объектным языком для этой следующей ступени. Можно построить метаязык, для которого метаязык будет объектным и т. д.

Текст, как предмет АОТ

Объект — фрагмент реальности.

Предмет — аспект (сторона, грань) объекта, выделяемый во взаимодействии с ним.

Текст (в АОТ) - цепочка символов (любой природы)

В качестве символа в АОТ могут выступать: буква, слово, текст, язык, танец, река, кирпич, дворец...

АОТ - автоматическая обработка... всего (букв, слов, текстов, языков, танцев, рек, кирпичей, дворцов...).

АОТ (в некоторых отношениях) — автоматическая обработка всего (что может быть представлено в виде текста).

В виде текста может быть представлено всё (стоит только это всё помыслить).

АОТ может быть сведена к решению ряда простых задач, решаемых на разных уровнях:

уровне символов (элементов цепочек, знаков)

уровне цепочек (текстов)

уровне синтаксиса (структур цепочек)

В АОТ не существует (запредельно, находится за пределами, в области человеческой интерпретации получаемых результатов):

внетекстовой реальности

противоречивой двойственности знака

различения означаемого и означающего

различения плана содержания и плана выражения

Ганегедара Т. (Обработка естественного языка с TensorFlow / М.: ДМК Пресс, 2020. – 382 с.):

Понимание текста заключается в том, чтобы интерпретировать его как последовательность символов (С. 33.)

Васильев Юлий (Обработка естественного языка. Python и spaCy на практике. — СПб.: Питер, 2021. — 256 с.):

Текстовое содержимое — это группа символов, составляющих токен (цепочку, слово, n-грамму, терм)

Базовые задачи АОТ:

распознавания (выделению) символов (в цепочках), цепочек и их структур (порядка следования)

идентификации (соотнесения) символов (в цепочках), цепочек и их структур (порядка следования)

распределения (классификации) символов (в цепочках), цепочек и их структур (порядка следования)

замещения (преобразования) одних символов (в цепочках), цепочек и их структур (порядка следования) другими (в другие)

генерации новых символов (в цепочках), цепочек и их структур (порядка следования)

Текст, как символическая машина

Текст - цепочка символов некоторого языка.

текст - машина в техносфере... в экосистеме...

Программа - машина... работающая в вычислительной среде...

Эмуляция... машины...

В АОТ текст рассматривается как машина

структура,

детали,

характеристики

параметры

возможности

В лингвистике рассматривается как "Машина Ивана Лукича":

любимая и родная ..

которая...

которую всегда...

о которой ...

в которой никогда....

В разговоре о Машине Ивана Лукича... ручь идёт не столько о машине, сколько о Иване Лукиче (его культуре, окружении, семье, образе жизни, мечтах, характере, привычках, желаниях... в их развитии, изменении) и его представлении об "Идеальной Машине"

Машине Ивана Лукича существенно отличается от Машины Людмилы Николаевны ... от машины ПП, от машины СВ, от машины...:

по возможностям

по функциональности

.....

даже терминологией...

Лингвистика не столько о языке и тексте... сколько о человеке, мире людей и их отношениях людей (по поводу языка и текста)...

Иерархия АОТ

идея (концепт)
модель (результат осмысления идеи и выражения ее на языке ... математики)
алгоритм (....
программа (текст на языке программирования, в котором реализуется алгоритм, работающий в некоторой программно-аппаратной среде)
сервис (услуга, предоставляемая программой на основе пользовательского интерфейса)

Методы и объекты АОТ

Методы должны соответствовать объектам.

Методы определяют объекты.

Анатомия и литература - два метода познания человека...

Человек с т.з. физики....

Различие наук определяется не объектами, а методами, которые из единой реальности выделяют (как трафаретом) свои предметы исследования.

Любой факт теортетиески нагружен (классика, неклассика (+наблюдатель), постнеклассика (....

Основные методы АОТ

Основные алгоритмические методы:

статистика (даже явное отсутствие модели есть, на самом деле, такая модель (неструктурированная, аморфная, хаотическая)
разметка
моделирование

Все сводится к одному (моделированию)

Статистика есть моделирование.... Даже явное отсутствие модели есть, на самом деле, такая модель (неструктурированная, аморфная, хаотическая)

Разметка есть моделирование конструкта (текста) путем внедрения модели в текст. А модель, есть удаленная разметка, которая прикладывается к тексту...

Современный нейросетевой подход к АОТ реализуется на основе машинного обучения.

Алгоритмы

АОТ осуществляется на основе вычислений.

Вычисление — преобразование структуры данных.

Вычисления реализуются с помощью алгоритмов.

Алгоритм: текст (набор инструкций), определяющий порядок действий для решения задачи

Алгоритм - машина (текст), генерирующая решение задачи
(на основе определенного порядка действий исполнителя в соответствующей вычислительной среде)

Основные категории задач, которые выполняют алгоритмы:

Расстановка приоритетов (например, составление упорядоченного списка)

Классификация (например, выбор категории)

Ассоциирование (поиск и описание взаимосвязи между объектами)

Фильтрация (выделение важной информации)

Обобщение (выделение и формализация общих признаков)

Обычно сначала (на уровне идеи) алгоритм описывается словами, но по мере приближения к реализации он обретает всё более формальные очертания и формулировку на языке, понятном исполнителю (машинный код).

Формы записи алгоритма:

вербальная: на национальном языке;

в математической нотации;

схематическая (графическая);

на алгоритмическом языке (языке программирования);

в машинном коде;

Два основных типа алгоритмов:

Алгоритмы, основанные на системе правил: точное описание строгой последовательности действий (пример: рецепт пирога)

Алгоритмы машинного обучения: ввод данных, постановка цели, обеспечение обратной связи, предоставление машине самостоятельно искать оптимальное решение (пример: обучить собаку давать лапу)

Оба типа имеют свои достоинства и ограничения:

Алгоритмы, основанные на системе правил, просты для восприятия и понятны (поскольку инструкции пишут люди).
Основанные на системе правил алгоритмы решат задачу только в том случае, если люди знают, какую инструкцию для них написать.

Алгоритмы машинного обучения отлично (!) справляются тогда, когда набор команд не помогает (в трудно формализуемых задачах). Сложно (невозможно?) понять каким путем машина пришла к конечному результату и является ли полученный результат надежным.

Jiawei Su, Danilo Vasconcellos Vargas and Kouichi Sakurai, One pixel attack for fooling deep neural networks, arXiv:1719.08864v4 [cs.LG], 22 Feb. 2018, https://arxiv.org/pdf/1710.08864.pdf

One pixel attack. Или как обмануть нейронную сеть
https://habr.com/ru/post/498114/
Достаточно изменить один пиксель переднего колеса на изображении, приведенном ниже, чтобы алгоритм машинного обучения передумал и увидел собаку там, где прежде видел автомобиль...

Алгоритмические методы АОТ

Основные алгоритмические методы:

статистика (даже явное отсутствие модели есть, на самом деле, такая модель (неструктурированная, аморфная, хаотическая)
разметка
моделирование

Все сводится к одному (моделированию)

Современный нейросетевой подход к АОТ реализуется на основе машинного обучения.

Нейросетевой методы АОТ

Основные алгоритмические методы:

статистика (даже явное отсутствие модели есть, на самом деле, такая модель (неструктурированная, аморфная, хаотическая)
разметка
моделирование

Все сводится к одному (моделированию)

Современный нейросетевой подход к АОТ реализуется на основе машинного обучения.