Текст в АОТ

 

 

Текст

Текст (в АОТ) - машина в техносфере (текстосфере)

 

 

 

Простая дефиниция текста

 

Текст - цепочка символов

Цепочка - последовательность; упорядоченное множество; совокупность элементов, расположенных в некотором порядке.

Символ - любой различимый фрагмент реальности

Символ - то, что обладает признаком различительности - что можно отличить от другого

Свойство различимости - единственный атрибут символа.

Различимость делает любой фрагмент реальности символом


Такая дефиниция вполне инструментальна, является эффективным рабочим инструментом для 90% разработчиков, исследователей АОТ

Для 10% разработчиков, исследователей АОТ существенно важно рассмотрение текста в языковом контексте

В полноте сообщества (команды разработчиков) всегда есть понимание символа в контексте языка.
Что не исключает (предполагает с необходимостью) отсутствие такого понимания у 90% элементов (членов) множества (сообщества).

 

 

 

Символьный тип данных

 

https://ru.wikipedia.org/wiki/Символьный_тип

Символьный тип (Сhar) — тип данных, предназначенный для хранения одного символа в определённой кодировке.

Может являться как однобайтовым (для стандартной таблицы символов), так и многобайтовым (к примеру, для Юникода ).

Основным применением является обращение к отдельным знакам строки.

https://en.wikipedia.org/wiki/Character_(computing)

  • In computer and machine-based telecommunications terminology, a character is a unit of information that roughly corresponds to a grapheme, or symbol, such as in an alphabet or syllabary in the written form of a natural language.

  • Examples of characters include letters, numerical digits, common punctuation marks, whitespace, includes control characters, which do not correspond to visible symbols but rather to instructions to format or process the text.

  • Characters are typically combined into strings.

  • Historically, the term character was also used to just denote a specific number of contiguous bits.

 

 

 

https://ru.wikipedia.org/wiki/Графема
Графе́ма (др.-греч. γράφω, «пишу» + суффикс «-ема») — минимальная единица письменности: в алфавитных системах письма — буква (или другое отражение фонемы), в неалфавитных системах письма — слоговой знак, иероглиф, идеограмма и другие[1]. Графема однозначно отличима от любой другой единицы этой же письменности; варианты одной и той же графемы называются аллографами (от греч. άλλος, «другой» и греч. γράφω, «пишу»). Реально встречающиеся в печатных и рукописных источниках варианты записи называются начертаниями[2] (ср. глифы), графема тем самым объединяет в одну группу начертания, которые отличаются «несущественно»; начертания с «существенными» отличиями относятся к разным графемам.







https://en.wikipedia.org/wiki/Grapheme
The concept of graphemes is abstract and similar to the notion in computing of a character.
Понятие графем абстрактно и похоже на понятие при вычислении символа.








https://ru.wikipedia.org/wiki/Орфография_английского_языка
Орфография английского языка — совокупность правил, регламентирующих написание слов английского языка. Хотя современный английский алфавит содержит 26 букв, английская орфография является одной из самых сложных в мире, поскольку согласно самым современным исследованиям 1120 графем используются для передачи звучания 62 фонем.
https://en.wikipedia.org/wiki/English_orthography
https://en.wikipedia.org/wiki/German_orthography
https://de.wikipedia.org/wiki/Deutsche_Rechtschreibung


Орфогра́фия ру́сского языка́ — правописание, система правил, определяющих единообразие способов передачи речи (слов и грамматических форм) на письме.
https://ru.wikipedia.org/wiki/Орфография_русского_языка

Орфогра́фия ( прямой+писать) — единообразие передачи форм устной речи на письме.
Благодаря единообразию написания сглаживаются индивидуальные и диалектные особенности произношения и упрощается взаимопонимание.

Седжвик Р., Уэ

с другими текстами)

 геометрическая фигура на плоскости (от лат. figura) — произвольное множество точек ( конечное множество линий).

Математическая абстракция — абстракция в математике, мысленное отвлечение. Типы абстрагирования, применяемых в математике: "чистое" отвлечение, идеализация и их различные вариации[1].

"Чистое" отвлечение
"Чистое" отвлечение, как мысленный акт, представляет из себя фиксирование внимания лишь на определенных, существенных для цели или задачи, свойствах объектов рассмотрения. Другие свойства, связи и отношения нашим сознанием игнорируются, как несущественные. Результатом такого акта абстрагирования является некое общее понятие, закрепленное с помощью необходимых языковых средств.

Идеализация
Основная статья: Идеализация
Идеализация, как мысленный акт, это порождение некоторого понятия, становящегося для нас предметом рассмотрения. Причем данное понятие наделяется нашим сознанием не только свойствами исходных объектов, но и другими, воображаемыми, свойствами, которые могут быть как и отражающими свойства исходных объектов в измененном виде, так и вообще отсутствующими у них.

Примером одной из наиболее часто используемых идеализации является абстракция актуальной бесконечности, ведущая к идее актуальной бесконечности. Данная абстракция является основой теоретико-множественного построения математики. Другая традиционная идеализация — это абстракция потенциально осуществимости — приводящая к идее потенциальной бесконечности. Данная абстракция совместно с отказом от применения абстракции актуальной бесконечности является основой конструктивного построения математики.

Наиболее значительный вклад в анализ абстракции внесли математики: Давид Гильберт, Андрей Марков (младший), Герман Вейль, Лёйтзен Брауэр.

 

Язык - полнпывающ

 

 

 



Сусов Иван Павлович
История языкознания

Европейские системы письма являются алфавитными, а такое письмо представляет собой, как известно, наиболее совершенную систему звукового письма для языков фонемного строя. Оно строится на одно-однозначном соответствии между графемами и фонемами, т.е. стремится к реализации идеальной формулы графической системы. И тем не менее часто наблюдаются отклонения от идеала, состоящие: а) в наличии множества графем ("аллографов" или "графемных рядов") для обозначения одной фонемы; б) в использовании разных графем для передачи обязательных и факультативных аллофонов одной фонемы; в) в употреблении одной графемы для обозначения разных фонем — нередко с учётом позиции в слове; г) в наличии ряда позиционных вариантов одной графемы. Оптимальное решение проблемы графики заключается в построении если и не исчерпывающего, то вполне достаточного и вместе с этим экономного набора правил фиксации фонематически существенных для данного языка звуковых различий (фонологических дифференциальных признаков).

Формирование письменностей на основе латиницы представляло собой долгий и противоречивый процесс стихийного приспособления знаков латиницы к иного рода системам фонем, протекавший при отсутствии на начальном этапе предварительного осмысления принципов отбора имевшихся графем и придания им в необходимых случаях других функций, при отсутствии заранее составленного свода правил графики, регулирующей соответствия между графемами и фонемами, и тем более при отсутствии орфографии, унифицирующей написание конкретных слов. Между культурными центрами (как правило, монастырями) и школами переписчиков шла острая конкурентная борьба, связанная с отстаиванием тех или иных графических приёмов.


Основные понятия теории письма
Естественный человеческий язык возникает и функционирует как система звуковых знаков, денотатами которых являются прежде всего элементы нашего опыта, т.е. разноообразные явления действительности. Звуковая материя является первичной и основной формой её существования. Инвентарные единицы этой системы (слова и морфемы, а также фразеологизмы) и правила их комбинирования в речи воспроизводимы в бесчисленном множестве конструктивных образований типа словосочетаний, предложений и текстов.
Письмо предназначено для того, чтобы фиксировать посредством графических знаков в целях передачи на большие расстояния и сохранения во времени звучащей речи. Благодаря членораздельности речи, т.е. её членимости на воспроизводимые инвентарные единицы, оно становится (на определённой ступени социальной эволюции) второй ипостасью того или иного конкретного языка. Оно представляет собой коммуникативную систему, элементами которой являются графические знаки, имеющие своими денотатами не явления действительности, а воспроизводимые в речи инвентарные единицы языка. Письмо в собственном смысле, подобно языку, в принципе должно содержать в своём инвентаре конечное число стандартных, воспроизводимых графических единиц (графем) и правил их комбинирования.
Основной единицей системы письма является графема. Как единица знаковой системы, она вступает в парадигматические отношения с другими графемами этой же системы и в оппозициях другим графемам обнаруживает свои различительные (дифференциальные) признаки, благодаря совокупности которых она опознаётся как таковая и не смешивается с другими графемами. Так, русская графема В отличается от графемы Ь и графемы Р наличием двух полушарий справа, в то время как Ь и Р характеризуются, в отличие от В, наличием лишь одного полушария справа, а между собой различаются расположением этого полушария в нижней или верхней части вертикальной черты. Наличие этой черты оказывается общим (интегрирующим) признаком трёх указанных графем.
Вместе с тем каждая графема выступает членом синтагматического ряда и может иметь начертательные варианты в зависимости от своей позиции. Так, в греческом письме графема сигма выступает в виде двух аллографов, один из которых встречается только в конечном положении (в исходе слова), а другой во всех остальных положениях. Этот принцип был повторён в готском письме, а также в так называемой фрактуре - готическом шрифте, который использовался прежде всего в Германии до середины 20 в. В арабском письме одна графема может выступать в виде четырёх аллографов (соединение с другой графемой справа, соединение слева, соединение с обеих сторон, отсутствие соединения).
Главными элементами алфавитной графической системы являются буквы. Они могут иметь свои имена, обладают начертательной формой, звуковым значением, а в ряде систем письма и числовым значением. В качестве аллографов одной буквы выступают её рукописные и печатные (машинописные и типографские) начертания. Так, об аллографии можно говорить в случаях прямого и наклонного начертаний буквы д (д и д). Аллографы печатных букв могут нести черты определённого шрифта. В какой-то степени аллографами одной и той же буквы можно признать её начертание как заглавной (прописной) буквы (в начале имён собственных, в начале существительных в немецкой графике, знаменательных слов в ряде графических систем) и как маленькой (строчной) буквы в других случаях. Однако при этом не следует забывать, что заглавные буквы часто несут дополнительную (помимо передачи звуковых значений) знаковую нагрузку.
Что касается звуковых значений букв, то в правилах графики данного языка обычно различаются их первичная и вторичные функции. Так, основная функция русской буквы д состоит в обозначении смычной звонкой переднеязычной непалатализованной фонемы /d/: дот, сдал, дуть, дым. Вместе с тем (по законам русской графики, учитывающей и слоговой принцип) буква д обозначает перед и, е, ё, ю смычную звонкую переднеязычную палатализованную фонему /d'/: идёт, дядя, дюны, дети, дичь. Вторичная функция этой буквы (в соответствии с морфемным, или морфологическим, принципом русской графики) заключается в передаче смычной глухой переднеязычной непалатализованной фонемы /t/ (пруд, лёд) и смычной глухой переднеязычной палатализованной фонемы /t'/: (сядь, ведь), причём обе эти фонемы чередуются (по закону ассимиляции перед глухими согласными или в исходе слова) с соответствующими им звонкими. Если вести анализ в направлении от буквы к обозначаемым ею фонемам, можно говорить о полисемии буквы. Если же вести анализ в обратном направлении - от данной фонемы к набору обозначающих её графем, например, устанавливая такие способы графического отображения русской фонемы /t'/, как т, д, ть, дь (полёт, лёд, лететь, медведь), то мы вправе говорить об омонимии соответствующих букв.
Графика формулирует правила соответствий между буквами и фонемами, т.е. правила чтения и правила написания. Выбор же между возможными в графике данного языка способами фиксации на письме конкретных слов и морфем предписывает орфография.
Правила графики соответствующего языка могут ставить в соответствие какой-то фонеме сочетание двух или большего числа букв. Так, во французском языке фонема /S/ передаётся диграфом ch (chat 'кот'), английская фонема /S/ обозначается диграфом sh (shine 'блеск'), немецкая фонема /S/ требует для своего обозначения трёхбуквенного сочетания (триграфа) sch (Schatz 'сокровище'). В ряде графических систем встречаются лигатуры (например, соединение во французском языке в одном знаке о и е, соединение а и е в одном знаке в датской графике; многочисленные лигатуры в письме деванагари, обслуживающем санскрит, хинди и некоторые другие языки Индии). Нередки и буквы, обзначающие последовательности фонем (например, греческие буквы пси и кси, буква х в латинской графике и во многих системах письма, опирающихся на неё).
Графика того или иного языка включает в свой состав не только буквы, но и надстрочные или подстрочные диакритические знаки, которые либо, сочетаясь с буквами основного инвентаря, обеспечивают передачу фонем, либо служат обозначению просодических свойств (ударение, тон, долгота), либо обеспечивают разграничение на письме слов-омонимов. В русском письме диакритизированными буквами являются й и ё. Диакритические знаки используются в графике таких европейских языков, как эстонский, финский, венгерский, латышский, литовский, чешский, польский, сербскохорватский, немецкий, нидерландский, норвежский, шведский, датский, исландский, французский, итальянский, испанский, португальский, румынский и многие другие. В арабском и еврейском письме диакритики служат для обозначения не имеющих собственных букв гласных элементов, т.е. для информации о соответствующей огласовке. В деванагари диакритические знаки появляются при фиксации слогов, в которых за согласной фонемой следует не /a/, а какая-то другая гласная фонема.
К числу графем могут быть отнесены и знаки препинания, выполняющие скорее вспомогательные функции (членение высказывания и указание на характер связи между выделенными фрагментами высказывания, цитация, различение коммуникативной целеустановки предложения). Делимитативную (разграничительную) функцию выполняет также пробел.
 

 

 

 

 

Выстраивание общей концепции письма под сенью лингвистики и культурологии началось со второй половины 20 в. Одним из первых за создание специальной науки о письме выступил в50-е гг. И. Гельб9, предложивший называть ее «грамматологией» (до этого существовали такие понятия, как графемика и филография). Его книга Опыт изучения письма (основы грамматологии), М., 1982, несмотря на некоторую тенденциозность, выражает свежий взгляд на науку о письме в целом и ставит перед ней новые задачи. Особый интерес вызывает небольшой раздел в книге Гельба о новейшем письмотворчестве в развивающихся странах.

В книгах А.А. Волкова «Грамматология. Семиотика письменной речи», М., 1982 и Т.А. Амировой «К истории и теории графемики». М., 1977; ее же «Функциональная взаимосвязь письменного и звукового языка», М., 1985 делается акцент на лингвистической составляющей грамматологии. Письмо рассматривается, как графическая речь, существующая параллельно речи устной. Подобное рассмотрение делает возможным переносить уже сложившиеся лингвистические термины и схемы на только еще складывающуюся грамматологическую науку. А. А. Волков, охватывая довольно большое количество восточных алфавитов (что, как уже отмечалось выше, не является характерным для отечественных исследователей письма), прорабатывает понятия «графического ареала», «организации алфавита и «графических универсалий».

Характерен также взгляд на письмо через призму психо- и нейролингвистики (А.Р. Лурия «Очерки психофизиологии письма», М., 1950; Л.Р. Зиндер «Очерк общей теории письма», М., 1987).

 

 

Математические нотации

 

Практический инте

Нота́ция (от лат. notatio «записывание; замечание») - система условных обозначений, принятая в какой-либо области знаний или деятельности. Включает множество символов, используемых для представления понятий и их взаимоотношений, составляющее алфавит нотации, а также правила их применения.

https://ru.wikipedia.org/wiki/Математические_обозначения
Математические обозначения («язык математики») — графическая система обозначений, служащая для изложения абстрактных математических идей и суждений в человеко-читаемой форме. Составляет (по своей сложности и разнообразию) значительную долю неречевых знаковых систем, применяемых человечеством. В данной статье описывается общепринятая международная система обозначений, хотя различные культуры прошлого имели свои собственные, и некоторые из них даже имеют ограниченное применение до сих пор.

Отметим, что математические обозначения, как правило, применяются совместно с письменной формой какого-то из естественных языков.

Помимо фундаментальной и прикладной математики, математические обозначения имеют широкое применение в физике, а также (в неполном своём объёме) в инженерии, информатике, экономике, да и вообще во всех областях человеческой деятельности, где применяются математические модели. Различия между собственно математическим и прикладным стилем обозначений будут оговорены по ходу текста.


https://ru.wikipedia.org/wiki/История_математических_обозначений

https://ru.wikipedia.org/wiki/Таблица_математических_символов
https://en.wikipedia.org/wiki/Glossary_of_mathematical_symbols
 

Седжвик Р., Уэйн К. (Computer Science: основы программирования..., алгоритмы и структуры данных. — СПб.: Питер, 2018. — 1072 с.):

  • Символом может быть все, что угодно, что можно отличить от любого другого символа.

  • Алфавит представляет собой конечное множество символов.

  • Строка представляет собой конечную последовательность алфавитных символов.

  • Формальный представляет собой множество строк (возможно, бесконечное), принадлежащих одному алфавиту.

  • Первые два определения могут показаться настолько простыми и очевидными, что даже не требуют отдельного упоминания, но за ними стоят фундаментальные концепции, поэтому они должны иметь четкие и однозначные определения.

  • Третье определение, возможно, покажется вам новым; поразмыслите и постарайтесь понять его суть.

  • Это простое определение, и в дальнейшем мы будем использовать термины «множество строк» и «формальный язык» как синонимы.

Полнота текста содержится и раскрывается в языке (его цельности и целостности) как единство всех возможных контекстов.

Текст (в совокупности своих свойств полностью определяется языковым контекстом (соотнесённостью с другими текстами)

Язык - полнота текста (выраженного в контекстах)

 

https://ru.wikipedia.org/wiki/Контекст

Контекст (от лат. вместе + текст) соединение (связь, сплетение, сцепление) текстов.
Контекст способ рассмотрения текста как элемента более широкого текста.
Контекст есть текст текстов (состоящий из текстов).
Любой текст может быть понят как контекст. Любой контекст может быть понят как текст.
Контекстуальность — обусловленность контекстом (самообусловленость текста)

https://en.wikipedia.org/wiki/Context

Язык - образует полноту текста (символа) и определяет его исчерпывающий контекст

В полноте сообщества (команды разработчиков) всегда есть понимание символа в контексте языка.
Что не исключает (предполагает с необходимостью) отсутствие такого понимания у 90% элементов (членов) множества (сообщества).

 

 

Текст и язык

 

Практический интерес представляет особая категория цепочек символов (текстов), цепочки символов языка.

Текст - цепочка символов некоторого языка.

Язык - множество всех подмножеств определенных над некоторым конечным множеством.

Язык - множество всех текстов, определенных над некоторым алфавитом.

Алфавит - некоторое конечное множество элементов

Текст - некоторое (допустимое, разрешенное) подмножество элементов алфавита

Атрибутами (необходимыми свойствами) текста являются связность и полнота.

Определяет связность (пределы допустимого сочетания) подмножества - грамматика (синтаксис) языка.

Грамматика (синтаксис) - набор правил, определяющий связность текста (возможность (допустимость) определенных структур (последовательностей, цепочек) элементов алфавита для данного языка)

Грамматика (синтаксис) выделяет из множества всех возможных подмножеств некоторые допустимые (связные) подмножества, образуя новое (связное) множество (множество всех подмножеств) и оставляя прочие (запрещенные, запредельные, недопустимые) подмножества за его пределами.

Седжвик Р., Уэйн К. (Computer Science: основы программирования..., алгоритмы и структуры данных. — СПб.: Питер, 2018. — 1072 с.):

  • Символом может быть все, что угодно, что можно отличить от любого другого символа.

  • Алфавит представляет собой конечное множество символов.

  • Строка представляет собой конечную последовательность алфавитных символов.

  • Формальный представляет собой множество строк (возможно, бесконечное), принадлежащих одному алфавиту.

  • Первые два определения могут показаться настолько простыми и очевидными, что даже не требуют отдельного упоминания, но за ними стоят фундаментальные концепции, поэтому они должны иметь четкие и однозначные определения.

  • Третье определение, возможно, покажется вам новым; поразмыслите и постарайтесь понять его суть.

  • Это простое определение, и в дальнейшем мы будем использовать термины «множество строк» и «формальный язык» как синонимы.

Полнота текста содержится и раскрывается в языке (его цельности и целостности) как единство всех возможных контекстов.

Текст (в совокупности своих свойств полностью определяется языковым контекстом (соотнесённостью с другими текстами)

Язык - полнота текста (выраженного в контекстах)

 

https://ru.wikipedia.org/wiki/Контекст

Контекст (от лат. вместе + текст) соединение (связь, сплетение, сцепление) текстов.
Контекст способ рассмотрения текста как элемента более широкого текста.
Контекст есть текст текстов (состоящий из текстов).
Любой текст может быть понят как контекст. Любой контекст может быть понят как текст.
Контекстуальность — обусловленность контекстом (самообусловленость текста)

https://en.wikipedia.org/wiki/Context

Язык - образует полноту текста (символа) и определяет его исчерпывающий контекст

В полноте сообщества (команды разработчиков) всегда есть понимание символа в контексте языка.
Что не исключает (предполагает с необходимостью) отсутствие такого понимания у 90% элементов (членов) множества (сообщества).

 

 

 

Текст, как абстракция

 

Эвальд Васильевич Ильенков Абстракция, Всеобщее
http://flibusta.is/b/228951/read

Абстракция (от лат. abstractio — отвлечение), — один из моментов процесса познания, который заключается в мысленном отвлечении от ряда несущественных свойств, связей изучаемого предмета и выделении основных, общих его свойств, связей и отношений. Результатом абстракции являются понятия, категории, например материя, движение, развитие, закон, стоимость и т. п.




Таким образом возникла теория категорий как новый раздел
математики для изучения самой математики. В некотором
смысле теория категорий — это высшая степень абстракции.
Для абстрактного изучения мира мы используем науку, для
абстрактного изучения науки мы используем математику, для
абстрактного изучения математики мы используем теорию
категорий.

Теория категорий основывается на отношениях между вещами
и разными способами изучает такие отношения: характеризует вещи посредством свойств, которыми они обладают, находит
пруд, где эти вещи становятся самой жирной рыбой, помещает вещи в контекст или предполагает, что эти вещи являются
«более-менее одним и тем же». А многомерная версия теории
категорий делает все то же самое с самими отношениями. Так
мы переходим на другой уровень абстракции и попадаем в многомерную теорию категорий.

 

Почему все так сложно?

Ищи ответы с Юджинией Ченг в книге Математический беспредел. От элементарной математики к возвышенным абстракциям. — СПб.: Питер, 2019. — 336 с.

http://flibusta.is/b/541020

 


КАТЕГОРИИ ТЕКСТА
© Ф. У. Жаббарова
Метаязык, используемый при изучении категорий текста, находится в настоящее время в процессе формирования.
https://cyberleninka.ru/article/n/kategorii-teksta
 

 

 

 

https://gtmarket.ru/concepts/7008


Абстра́кция (лат. abstractio «отвлечение»[1]) — процесс отвлечения (абстрагирования) от тех или иных характеристик объекта для их избирательного анализа; при этом наблюдаемый объект замещается его идеализированным теоретическим образом – абстрактным объектом. Абстракции являются универсальным методом научного познания, они необходимы для формирования понятий, узнавания и классификации объектов исследования на всех уровнях формирования знаний[2].

Абстраги́рование — операция мышления, состоящая в отвлечении от несущественных сторон, свойств, связей объекта (предмета или явления) с целью выделения их существенных, закономерных признаков. Результат абстрагирования — абстрактные понятия, например: цвет, кривизна, масса, красота и т. д.

В европейской философии и логике абстрагирование трактуется как способ поэтапного продуцирования понятий, которые образуют всё более общие модели — иерархию абстракций. Наиболее развитой системой абстракций обладает математика. Степень отвлечённости обсуждаемого понятия называется уровнем абстракции. В зависимости от целей и задач, можно рассуждать об одном и том же объекте на разных уровнях абстракции[2].




екст, ставший объектом разнопланового лингвистического изучения лишь в последней трети ХХ в., не имеет к настоящему времени однозначного определения. Не последнюю роль играет в данном случае отсутствие устоявшегося мнения в отношении состава и понимания текстовых категорий и признаков. Несомненно, следует согласиться с И. Р. Гальпериным, стоявшим, по сути, у истоков развития лингвистики текста и утверждавшим, что «нельзя говорить о каком-либо объекте исследования, в данном случае о тексте, не назвав его категорий» [1, с. 4].

Что касается сущности термина «категория» (гр. kategoria - доказательство, показание), то в энциклопедических работах обращается внимание на два основных момента в его трактовании: с точки зрения философии и с позиции лингвистики. В частности, утверждается, что категория - это « 1) фил. общее понятие, отражающее наиболее существенные свойства и отношения предметов, явлений объективного мира (материя, время, пространство, движение, причинность, качество, количество т.д.); 2) разряд, группа предметов, явлений, лиц, объединенных общностью каких-л. признаков; 3) лингв. совокупность ряда противопоставленных друг другу грамматических значений (напр., категория падежа образуется совокупностью всех падежей данного языка)» [2, с. 221].

В широком плане под категорией понимается «одна из познавательных форм мышления человека, позволяющая обобщать его опыт и осуществлять его классификацию» [3, с. 45]. В соответствующих научных исследованиях выделяются различные типы общенаучных категорий, актуальных для любой области научного знания, например, категории объективного и субъективного, общего и частного, формы и содержания, времени, пространства и т.д.

Широкое толкование грамматической категории характерно прежде всего для отечественного языкознания Х1Х в. (Л. В. Щерба, А. А. Потебня) и зарубежной лингвистики начала ХХ в. (Ф. де Сос-сюр, М. Докулил, М. А. К. Халлидей, Н. Хомский). В рамках данного толкования категориями считают и части речи и группировки слов (форм) внутри частей речи или между ними (грамматическая категория имени, причастия и др.), члены предложения,

разновидности членов предложения. Для более узкого толкования категории характерно установление явлений внутренней группировки в пределах определенной части речи: у существительных категория числа, вещественности и т.п., в пределах глагола - категории залога, вида и др. Так, грамматические формы, выражающие противопоставленные друг другу грамматические значения единственного и множественного числа, в своей совокупности образуют грамматическую категорию числа.

К настоящему времени в лингвистике имеется определенный опыт изучения грамматической категорий как совокупности «взаимопротивопостав-ленных грамматических форм с однородными грамматическими значениями» [4, с. 317]. Все грамматические категории подразделяются на морфологические и синтаксические, при этом вопрос о синтаксических категориях является по существу открытым, поскольку требованию включать в себя систему противопоставленных друг другу синтаксических конструкций (К. Г. Крушельницкая,

А. В. Бондарко) удовлетворяют, например, лишь оппозиции активных и пассивных, повествовательных и вопросительных конструкций.

Что касается статуса текстовых категорий, то в современных исследованиях их интерпретируют как текстовые качества, как единицу анализа, как полевую структуру. Анализ показывает, что терминологический аппарат данного направления исследования текста еще во многом не сложился. Об этом свидетельствует прежде всего терминологическое разнообразие в плане использования даже основных понятий. В частности, в некоторых работах как синонимы используются термины категории, свойства, параметры текста [5, с. 40-45], либо текстовые признаки и категории [6, с. 131; 7, с. 364], качества и категории текста [8, с. 66], несмотря на постулируемую в некоторых случаях «необходимость различать текстообразующие категории и свойства текста» [5, с. 41].

В настоящее время текстовые категории определяются либо как «специфические признаки речевого целого, отличающие это целое (текст) от других языковых явлений» [7, с. 364], либо как «один из взаимосвязанных существенных признаков текста, представляющий собой отражение определен-

1238

ФИЛОЛОГИЯ и ИСКУССТВОВЕДЕНИЕ

ной части общетекстового смысла различными языковыми, речевыми и собственно текстовыми (композитивными) средствами» [9, с. 533]. С учетом универсальных смыслов художественного текста категории трактуются как «такая ступень абстрагирования его содержания, при которой вычленяются идеальные сущности, соотносимые с содержанием всех конкретных художественных текстов» [10, с. 6], в то время, как Н. С. Болотнова понимает под категориями текста «текстовые качества, важнейшие признаки текста, имеющие типизированный и обобщающий характер» [6, с. 161].

Рассмотрим количественный состав категорий текста, выявленных в исследованиях отечественных и зарубежных лингвистов. В монографии И. Р. Гальперина были названы десять текстообразующих категорий: информативность, членимость, когезия (внутритекстовые связи), континуум, автосемантия отрезков текста, ретроспекция и проспекция, модальность, интеграция и завершенность текста [1].

Применительно к художественным текстам в исследованиях выделяются 14 текстообразующих категорий, а именно: целостность (или цельность), связность, завершенность, абсолютная антропоцен-тричность, социологичность, диалогичность, развернутость и последовательность, статичность и динамичность, напряженность, эстетичность, образность, интерпретируемость. При этом подчеркивается, что целостность и связность являются фундаментальными текстообразующими категориями, которые «притягивают к себе и группируют вокруг себя категории, соотнесенные с ними» [5, с. 42].

Зарубежные текстологи [11-12] рассматривают в своих работах семь критериев текстуальности (ТехШаІіІШзкгкегіеп), в число которых включают когезию, когерентность, интенциональность, приемлемость, информативность, ситуативность и межтекстуальную связь.

Не существует в настоящее время единого мнения и в отношении градации текстообразующих категорий, поскольку в лингвистической литературе представлены различные точки зрения в отношении выделения главных (ведущих) и факультативных категорий текста. Так, по мнению одних авторов, «ведущими текстовыми свойствами являются целостность, членимость и модальность», которые «могут быть названы основными категориями текста, подчиняющими себе более частные его признаки» [7, с. 366]. Другие авторы полагают, что «основу универсальных категорий текста составляют целостность (план содержания) и связность (план выражения), вступающие друг с другом в отношения дополнительности, диархии» [5, с. 41]. Н. С. Болотнова, напротив, выделяет «глобальные категории событие, время и пространство», которые определяют «основные параметры лингвистически материализованного текстового мира» и «глобальную категорию диалогичности», которая реализуется «в категориях субъективности и адре-сованности, связанных с субкатегориями образа автора и адресата» [6, с. 162].

В работах зарубежных исследователей текста [11] основными критериями текстуальности считаются когезия как формальная связанность на уровне формы и когерентность как содержательная связность на уровне содержания речевого произведения.

Безусловно, категория связности (связанности) относится к числу обязательных категорий любого текста, поскольку связность - это свойство текста, с помощью которого обеспечивается его смысловая целостность. Даже само понятие «текст» в переводе с латинского (1ай textum) означает ткань, т.е. связь элементов внутри целого. В лингвистических исследованиях, как правило, наблюдается разделение двух понятий - когезии и когерентности. Под когезией понимают при этом все формальные связи, существующие в поверхностной структуре текста и являющиеся внешним выражением его когерентности, т.е. глубинных, логико-смысловых связей. Таким образом, происходит разграничение формальных и содержательных характеристик категории связности текста.

Средства, осуществляющие связность письменного текста, могут быть лексическими, морфологическими, синтаксическими и стилистическими. Лексические повторы слов и сочетаний слов, отдельных фраз, использование местоимений, союзов, артиклей, различного рода отсылок, парентез, анафор, эпифор, эллиптических конструкций - все эти средства языка могут выполнять связующую роль в тексте. Частотность использования названных языковых средств связности зависит от целого ряда факторов, а одним из основных является принадлежность текста к художественным или нехудожественным произведениям. Категория связности, наряду с такими категориями, как информативность, модальность, временная перспектива включается в число сугубо текстовых категорий, поскольку содержание любого речевого произведения излагается последовательно, линейно в цепочке взаимосвязанных предложений.

Проведенный нами анализ работ, посвященных признакам текста, свидетельствует о том, что проблема определения текстовых признаков также остается дискуссионной, а их перечень может значительно варьироваться. Кроме того, текстовые категории и признаки могут не дифференцироваться. По мнению В. А. Масловой, всем текстам свойственны определенные конститутивные (дифференциальные, различительные) признаки, которые автор называет категориями и обусловливает их зависимость от соответствующего подхода к тексту, который может быть, например, собственно лингвистическим, или коммуникативным подходом. Указывая на необходимость систематизации основных понятий и категорий текста, автор выделяет ключевые, формальные (композиция, члени-мость, когезия), семантико-прагматические и жанрово-стилистические категории текста и подчеркивает, что «формальная связность текста (когезия) коррелирует с содержательной связностью (когерентностью), выступающей в свою очередь подкатегорией целостности текста» [13, с. 27].

К системным универсальным признакам текста относят также информативность, структурность, регулятивность и интегративность [8, с. 6]. При этом регулятивность текста имеет прагматическую основу и соотносится, по мнению авторов, с рядом свойств текста: модальностью, эмотивно-стью, экспрессивностью и прагматичностью.

На наш взгляд, целесообразно разграничивать признаки и категории текста, поскольку текстообразующие категории, в отличие от его признаков, имеют абстрагированный, более обобщающий характер. Категории текста имеют полевую структуру, поскольку репрезентируются разноуровневыми текстовыми единицами.

Учитывая коммуникативную природу текста и выполняемые им коммуникативно-прагматические функции, следует признать в рамках текста и наличие категории вариативности, интерес к понятийному содержанию которой неизменно возрастает.

На текстовом уровне представлена вариативность двух типов [14]. Во-первых, вариативность, действующая в текстах, приводит к образованию разных видов (подвидов) текстов, которые используются в различных дискурсах: официально-

деловом, деловом, научном, научно-техническом, публицистическом, юридическом, политическом, обиходно-бытовом и др. В данном случае представлен первый тип коммуникативно-прагматической вариативности - «внешняя» вариативность, благодаря которой создаются и разграничиваются разные виды (подвиды) текстов, являющиеся моделями речевого поведения коммуникантов в социуме.

Второй тип коммуникативно-прагматической вариативности можно считать «внутренней» вариативностью, поскольку она действует в самих текстах и реализуется при помощи использования, либо неиспользования в них как средств различных языковых уровней, так и некоторых экстралингвис-тических явлений. На основе внутренней вариативности достигается известное многообразие изложения информации в каждом отдельном виде (подвиде) текста.

Несомненно, составить универсальный перечень признаков и категорий текста чрезвычайно сложно, ибо насколько бесконечно многообразие текстов, образующих различные дискурсы, настолько и различны их характеристики. Безусловно, некоторые категории присущи всем текстам. К по-

добным можно отнести, в частности, категорию связности (связанности), независимо от того, считается ли связность, наряду с категориями члени-мости и законченности, лишь частной категорией по отношению к категории целостности, или напротив, сама трактуется как макрокатегория.

Обращение в настоящей статье к вопросу о текстовых категориях и признаках предопределено недостаточной разработанностью и явной дискус-сионностью названной проблематики. В настоящее время в лингвистике не существует единой точки зрения относительно понимания текстообразующих категорий и признаков текста, а также их систематизации, что обусловлено разными подходами к изучению текста и различными аспектами его рассмотрения и анализа. Названные факторы, несомненно, оказывают негативное влияние на развитие лингвистики текста в целом, поскольку адекватное и наиболее полное определение любого лингвистического объекта, в нашем случае текста, может быть составлено только с учетом его различительных характеристик.

ЛИТЕРАТУРА

1. Гальперин И. Р. Текст как объект лингвистического исследования. М.: Наука, 1981. 13 с.

2. Словарь иностранных слов. М.: Русский язык, 1988. 608 с.

3. Кубрякова Е. С. Категория // Краткий словарь когнитивных терминов / Под ред. Е. С. Кубряковой, В. З. Демьянкова, Ю. Г. Панкрац. М., 1997, С. 45-47.

4. Алефиренко Н. Ф. Теория языка. Вводный курс. М.: ИЦ Академия, 2010. 384 с.

5. Бабенко Л. Г., Казарин Ю. В. Лингвистический анализ художественного текста. М.: Флинта; Наука, 2008. 496 с.

6. Болотнова Н. С. Филологический анализ текста. М.: Флинта; Наука, 2009. 520 с.

7. Ильенко С. Г. Русистика: Избранные труды. СПб: изд-во РГПУ им. А. И. Герцена, 2003.

8. Сидоров Е. В. Коммуникативный принцип исследования текста // Изв. АН СССР. Сер. лит. 1986. Т. 45. №5. С. 425-432.

9. Матвеева Т. В. Функциональные стили в аспекте текстовых категорий. Свердловск: изд-во Уральского гос. ун-та, 1990. 134 с.

10. Чернухина И. Я. Общие особенности поэтического текста. Воронеж: изд-во ВГУ, 1987. 187 с.

11. Beaugrande D. R.-A.de, Dressier W. Einfuhrung in die Tex-tlinguistik. Tubingen: Niemeyer, 1981. 290 S.

12. Vater H. Einfuhrung in die Textlinguistik. Munchen: W. Fink, 1994. S. 207.

13. Маслова В. А. Современные направления в лингвистике. М.: ИЦ Академия, 2008. 272 с.

14. Таюпова О. И. Введение в коммуникативно-прагматическую вариативность. Уфа: РИЦ БашГУ, 2009. 130 с.


 

 

 

Метаязык для языка

 

 


https://ru.wikipedia.org/wiki/Метаязык
https://gtmarket.ru/concepts/7029
Метаязык — это любой естественный или искусственный язык (язык «второго уровня»), на котором описывается другой язык (язык «первого уровня»).

Из каких элементов состоит метаязык
лингвистики?1
What kind of elements does the metalanguage
of linguistics consist of?
http://www.dialog-21.ru/media/1664/39.pdf



Метаязы́к — язык, предназначенный для описания другого языка, называемого объектным языком[en]. Метаязык — язык лингвистики. Лингвистическая лексика, на основе которой формируются словари. Язык построения теории, слов, фраз в сфере грамматической лингвистики.
Понятие метаязыка используется:
в лингвистике, при описании естественных языков — метаязык как язык для описания языка. Естественный язык может являться своим же метаязыком (например, для описания русского языка можно использовать тот же русский язык), или отличаться лишь частично, например, специальной терминологией (русская лингвистическая терминология — элемент метаязыка для описания русского языка);
при исследовании языков различных логико-математических исчислений (напр., Форма Бэкуса — Наура);
в информатике — дополнительные данные (метаданные), служащие для описания имеющихся.
в математике — формальный логико-математический язык для формулирования метатеории или в расширенном значении — неформализованный язык для представления утверждений метаматематики.

Понятие «метаязык» было введено польским математиком Альфредом Тарским.
C помощью него можно избавиться от таких логических парадоксов, как парадокс лжеца и самореферентные парадоксы.

Первым уровнем (обычным языком) являются утверждения об объектах, например: «У Земли есть спутник». В языке низшей ступени нет понятий «ложь» и «истина». Такие понятия, как оценка истинности утверждений об объектах, являются привилегией метаязыка — следующей ступеньки лестницы. Таким образом предложение «Утверждение „снег белый“ истинно» имеет смысл в метаязыке. Однако о его истинности можно говорить лишь в следующей надстройке — метаметаязыке. При этом метаязык является объектным языком для этой следующей ступени. Можно построить метаязык, для которого метаязык будет объектным и т. д.


 

 

 

 

 

Текст, как предмет АОТ

 

Объект — фрагмент реальности.

Предмет — аспект (сторона, грань) объекта, выделяемый во взаимодействии с ним.

Текст (в АОТ) - цепочка символов (любой природы)

В качестве символа в АОТ могут выступать: буква, слово, текст, язык, танец, река, кирпич, дворец...

АОТ - автоматическая обработка... всего (букв, слов, текстов, языков, танцев, рек, кирпичей, дворцов...).

АОТ (в некоторых отношениях)  — автоматическая обработка всего (что может быть представлено в виде текста).

В виде текста может быть представлено всё (стоит только это всё помыслить).

АОТ может быть сведена к решению ряда простых задач, решаемых на разных уровнях:

  • уровне символов (элементов цепочек, знаков)

  • уровне цепочек (текстов)

  • уровне синтаксиса (структур цепочек)

В АОТ не существует (запредельно, находится за пределами, в области человеческой интерпретации получаемых результатов):

  • внетекстовой реальности

  • противоречивой двойственности знака

  • различения означаемого и означающего

  • различения плана содержания и плана выражения

Ганегедара Т. (Обработка естественного языка с TensorFlow / М.: ДМК Пресс, 2020. – 382 с.):

  • Понимание текста заключается в том, чтобы интерпретировать его как последовательность символов (С. 33.)

Васильев Юлий (Обработка естественного языка. Python и spaCy на практике. — СПб.: Питер, 2021. — 256 с.):

  • Текстовое содержимое — это группа символов, составляющих токен (цепочку, слово, n-грамму, терм)

Базовые задачи АОТ:

  • распознавания (выделению) символов (в цепочках), цепочек и их структур (порядка следования)

  • идентификации (соотнесения) символов  (в цепочках), цепочек и их структур (порядка следования)

  • распределения (классификации) символов (в цепочках), цепочек и их структур (порядка следования)

  • замещения (преобразования) одних символов  (в цепочках), цепочек и их структур (порядка следования) другими (в другие)

  • генерации новых  символов (в цепочках), цепочек и их структур (порядка следования)

 

 

 

Текст, как символическая машина

 

Текст - цепочка символов некоторого языка.

текст - машина в техносфере... в экосистеме...

Программа - машина... работающая в вычислительной среде...

Эмуляция... машины...

 


В АОТ текст рассматривается как машина

  • структура,

  • детали,

  • характеристики

  • параметры

  • возможности

В лингвистике рассматривается как "Машина Ивана Лукича":

  • любимая и родная ..

  • которая...

  • которую всегда...

  • о которой ...

  • в которой никогда....

В разговоре о Машине Ивана Лукича... ручь идёт не столько о машине, сколько о Иване Лукиче (его культуре, окружении, семье, образе жизни, мечтах, характере, привычках, желаниях... в их развитии, изменении) и его представлении об "Идеальной Машине"

Машине Ивана Лукича существенно отличается от Машины Людмилы Николаевны ... от машины ПП,  от машины СВ, от машины...:

  • по возможностям

  • по функциональности

  • .....

  • даже терминологией...

Лингвистика не столько о языке и тексте... сколько о человеке, мире людей и их отношениях людей (по поводу языка и текста)...

 

Иерархия АОТ

 

 

  • идея (концепт)

  • модель (результат осмысления идеи и выражения ее на языке ... математики)

  • алгоритм (....

  • программа (текст на языке программирования, в котором реализуется алгоритм, работающий в некоторой программно-аппаратной среде)

  • сервис (услуга, предоставляемая программой на основе пользовательского интерфейса)

 

 

 

Методы и объекты АОТ

 

Методы должны соответствовать объектам.

Методы определяют объекты.

 

Анатомия и литература - два метода познания человека...

Человек с т.з. физики....

Различие наук определяется не объектами, а методами, которые из единой реальности выделяют (как трафаретом) свои предметы исследования.

Любой факт теортетиески нагружен (классика, неклассика (+наблюдатель), постнеклассика (....

 

 

 

Основные методы АОТ

Основные алгоритмические методы:

  • статистика (даже явное отсутствие модели есть, на самом деле, такая модель (неструктурированная, аморфная, хаотическая)

  • разметка

  • моделирование

Все сводится к одному (моделированию)

Статистика есть моделирование.... Даже явное отсутствие модели есть, на самом деле, такая модель (неструктурированная, аморфная, хаотическая)

Разметка есть моделирование конструкта (текста) путем внедрения модели в текст. А модель, есть удаленная разметка, которая прикладывается к тексту...

 

Современный нейросетевой подход к АОТ реализуется на основе машинного обучения.

 

 

 

 

 

 

Алгоритмы

 

АОТ осуществляется на основе вычислений.

Вычисление — преобразование структуры данных.

Вычисления реализуются с помощью алгоритмов.

Алгоритм: текст (набор инструкций), определяющий порядок действий для решения задачи

Алгоритм - машина (текст), генерирующая решение задачи
(на основе определенного порядка действий исполнителя в соответствующей вычислительной среде)

 

 

Основные категории задач, которые выполняют алгоритмы:

  • Расстановка приоритетов (например, составление упорядоченного списка)

  • Классификация (например, выбор категории)

  • Ассоциирование (поиск и описание взаимосвязи между объектами)

  • Фильтрация (выделение важной информации)

  • Обобщение (выделение и формализация общих признаков)

Обычно сначала (на уровне идеи) алгоритм описывается словами, но по мере приближения к реализации он обретает всё более формальные очертания и формулировку на языке, понятном исполнителю (машинный код).

Формы записи алгоритма:

  • вербальная: на национальном языке;

  • в математической нотации;

  • схематическая (графическая);

  • на алгоритмическом языке (языке программирования);

  • в машинном коде;

Два основных типа алгоритмов:

  • Алгоритмы, основанные на системе правил: точное описание строгой последовательности действий (пример: рецепт пирога)

  • Алгоритмы машинного обучения: ввод данных, постановка цели, обеспечение обратной связи, предоставление машине самостоятельно искать оптимальное решение (пример: обучить собаку давать лапу)

Оба типа имеют свои достоинства и ограничения:

  • Алгоритмы, основанные на системе правил, просты для восприятия и понятны (поскольку инструкции пишут люди).
    Основанные на системе правил алгоритмы решат задачу только в том случае, если люди знают, какую инструкцию для них написать.

  • Алгоритмы машинного обучения отлично (!) справляются тогда, когда набор команд не помогает (в трудно формализуемых задачах). Сложно (невозможно?) понять каким путем машина пришла к конечному результату и является ли полученный результат надежным.

 

Jiawei Su, Danilo Vasconcellos Vargas and Kouichi Sakurai, One pixel attack for fooling deep neural networks, arXiv:1719.08864v4 [cs.LG], 22 Feb. 2018, https://arxiv.org/pdf/1710.08864.pdf

One pixel attack. Или как обмануть нейронную сеть
https://habr.com/ru/post/498114/
Достаточно изменить один пиксель переднего колеса на изображении, приведенном ниже, чтобы алгоритм машинного обучения передумал и увидел собаку там, где прежде видел автомобиль...

 

 

Алгоритмические методы АОТ

Основные алгоритмические методы:

  • статистика (даже явное отсутствие модели есть, на самом деле, такая модель (неструктурированная, аморфная, хаотическая)

  • разметка

  • моделирование

Все сводится к одному (моделированию)

Статистика есть моделирование.... Даже явное отсутствие модели есть, на самом деле, такая модель (неструктурированная, аморфная, хаотическая)

Разметка есть моделирование конструкта (текста) путем внедрения модели в текст. А модель, есть удаленная разметка, которая прикладывается к тексту...

 

Современный нейросетевой подход к АОТ реализуется на основе машинного обучения.

 

 

 

 

 

 

Нейросетевой методы АОТ

Основные алгоритмические методы:

  • статистика (даже явное отсутствие модели есть, на самом деле, такая модель (неструктурированная, аморфная, хаотическая)

  • разметка

  • моделирование

Все сводится к одному (моделированию)

Статистика есть моделирование.... Даже явное отсутствие модели есть, на самом деле, такая модель (неструктурированная, аморфная, хаотическая)

Разметка есть моделирование конструкта (текста) путем внедрения модели в текст. А модель, есть удаленная разметка, которая прикладывается к тексту...

 

Современный нейросетевой подход к АОТ реализуется на основе машинного обучения.

 

 

 

 

 

 

kmp