Текст в АОТ

 

 

Текст

Вы тексты от каких затерянных страниц?
Эмиль Верхарн

Текст (в АОТ) - машина в техносфере (текстосфере)

 

 

 

Простая дефиниция текста

Если это выглядит глупо, но это работает, то это не глупо
(инженерный подход)

Текст - цепочка символов

Цепочка  —  последовательность; упорядоченное множество; совокупность элементов, расположенных в некотором порядке.

Символ (в АОТ)  —  любой различимый фрагмент реальности

Символ (в АОТ)  —  то, что обладает признаком различительности (то, что можно отличить от другого)

Свойство различимости  —  единственный атрибут символа (его единственное необходимое свойство, качество)

Различимость делает любой фрагмент реальности символом.

Это работает!


Такая дефиниция вполне инструментальна, является эффективным рабочим инструментом для 90% разработчиков, исследователей АОТ

Для 10% разработчиков, исследователей АОТ существенно важно рассмотрение текста в языковом контексте

В полноте сообщества (команды разработчиков) всегда есть понимание символа в контексте языка.
Что не исключает (предполагает с необходимостью) отсутствие такого понимания у 90% элементов (членов) множества (сообщества).

 

 

 

 

Символ

 

Текст - цепочка символов

Символ (др.-греч. — совместное бросание, сигнал) — условный знак, изображение, не имеющее видимого сходства с обозначаемым предметом.

Символ (в семиотике) — имеющий смысл коннотат без денотата; обозначающее, не имеющее обозначаемого предмета.


А. Ф. Лосев:

  • Символ  —  субстанциальное тождество идеи и вещи.

  • Всякий символ заключает в себе образ, но не сводится к нему, поскольку подразумевает присутствие некоего смысла, нераздельно слитого с образом, но ему не тождественного. Образ и смысл образуют два элемента символа, немыслимые друг без друга. Посему символы существуют как символы (а не как вещи) только внутри интерпретаций.

В научной, религиозной, художественной, технической практике символы используют, чтобы прояснять связь конкретного и абстрактного, видимого и невидимого, материального и трансцендентного..

 

 

 

Машинная метафора текста

 

Текст - цепочка символов некоторого языка.

Текст - машина в техносфере...

Программа - машина... работающая в вычислительной среде...


В АОТ текст рассматривается как машина

  • структура,

  • детали,

  • характеристики

  • параметры

  • возможности

Автомобиль, как метафора текста.

Описать автомобиль можно различным образом...

Число признаков для возможных описаний и классификаций бесконечно.

Суть метода (способа, подхода, парадигмы) в абстрагировании от одних признаков и внимание к другим.

Важно понять: что есть автомобиль? Откуда и куда от нас везёт?

АОТ не  столько о языке и тексте... сколько о машинах и мире взаимодействующих машин (по поводу языка и текста)...

Лингвистика не столько о языке и тексте... сколько о человеке, мире людей и их отношениях людей (по поводу языка и текста)...

 

 

Символьный тип данных

 

https://ru.wikipedia.org/wiki/Символьный_тип

Символьный тип (Сhar) — тип данных, предназначенный для хранения одного символа в определённой кодировке.

Может являться как однобайтовым (для стандартной таблицы символов), так и многобайтовым (к примеру, для Юникода ).

Основным применением является обращение к отдельным знакам строки.

https://en.wikipedia.org/wiki/Character_(computing)

  • In computer and machine-based telecommunications terminology, a character is a unit of information that roughly corresponds to a grapheme, or symbol, such as in an alphabet or syllabary in the written form of a natural language.

  • Examples of characters include letters, numerical digits, common punctuation marks, whitespace, includes control characters, which do not correspond to visible symbols but rather to instructions to format or process the text.

  • Characters are typically combined into strings.

  • Historically, the term character was also used to just denote a specific number of contiguous bits.

 

 

 

Текст и язык

 

Практический интерес представляет особая категория цепочек символов (текстов), цепочки символов языка.

Текст - цепочка символов некоторого языка.

Язык - множество всех подмножеств определенных над некоторым конечным множеством.

Язык - множество всех текстов, определенных над некоторым алфавитом.

Алфавит - некоторое конечное множество элементов

Текст - некоторое (допустимое, разрешенное) подмножество элементов алфавита

Атрибутами (необходимыми свойствами) текста являются связность и полнота.

Определяет связность (пределы допустимого сочетания) подмножества - грамматика (синтаксис) языка.

Грамматика (синтаксис) - набор правил, определяющий связность текста (возможность (допустимость) определенных структур (последовательностей, цепочек) элементов алфавита для данного языка)

Грамматика (синтаксис) выделяет из множества всех возможных подмножеств некоторые допустимые (связные) подмножества, образуя новое (связное) множество (множество всех подмножеств) и оставляя прочие (запрещенные, запредельные, недопустимые) подмножества за его пределами.

Седжвик Р., Уэйн К. (Computer Science: основы программирования..., алгоритмы и структуры данных. — СПб.: Питер, 2018. — 1072 с.):

  • Символом может быть все, что угодно, что можно отличить от любого другого символа.

  • Алфавит представляет собой конечное множество символов.

  • Строка представляет собой конечную последовательность алфавитных символов.

  • Формальный представляет собой множество строк (возможно, бесконечное), принадлежащих одному алфавиту.

  • Первые два определения могут показаться настолько простыми и очевидными, что даже не требуют отдельного упоминания, но за ними стоят фундаментальные концепции, поэтому они должны иметь четкие и однозначные определения.

  • Третье определение, возможно, покажется вам новым; поразмыслите и постарайтесь понять его суть.

  • Это простое определение, и в дальнейшем мы будем использовать термины «множество строк» и «формальный язык» как синонимы.

Полнота текста содержится и раскрывается в языке (его цельности и целостности) как единство всех возможных контекстов.

Текст (в совокупности своих свойств полностью определяется языковым контекстом (соотнесённостью с другими текстами)

Язык - полнота текста (выраженного в контекстах)

 

https://ru.wikipedia.org/wiki/Контекст

Контекст (от лат. вместе + текст) соединение (связь, сплетение, сцепление) текстов.
Контекст способ рассмотрения текста как элемента более широкого текста.
Контекст есть текст текстов (состоящий из текстов).
Любой текст может быть понят как контекст. Любой контекст может быть понят как текст.
Контекстуальность — обусловленность контекстом (самообусловленость текста)

https://en.wikipedia.org/wiki/Context

Язык - образует полноту текста (символа) и определяет его исчерпывающий контекст

В полноте сообщества (команды разработчиков) всегда есть понимание символа в контексте языка.
Что не исключает (предполагает с необходимостью) отсутствие такого понимания у 90% элементов (членов) множества (сообщества).

 

 

 

 

Текст, как предмет АОТ

 

Объект — фрагмент реальности.

Предмет — аспект (сторона, грань) объекта, выделяемый во взаимодействии с ним.

Текст (в АОТ) - цепочка символов (любой природы)

В качестве символа в АОТ могут выступать: буква, слово, текст, язык, танец, река, кирпич, дворец...

АОТ - автоматическая обработка... всего (букв, слов, текстов, языков, танцев, рек, кирпичей, дворцов...).

АОТ (в некоторых отношениях)  — автоматическая обработка всего (что может быть представлено в виде текста).

В виде текста может быть представлено всё (стоит только это всё помыслить).

АОТ может быть сведена к решению ряда простых задач, решаемых на разных уровнях:

  • уровне символов (элементов цепочек, знаков)

  • уровне цепочек (текстов)

  • уровне синтаксиса (структур цепочек)

В АОТ не существует (запредельно, находится за пределами, в области человеческой интерпретации получаемых результатов):

  • внетекстовой реальности

  • противоречивой двойственности знака

  • различения означаемого и означающего

  • различения плана содержания и плана выражения

Ганегедара Т. (Обработка естественного языка с TensorFlow / М.: ДМК Пресс, 2020. – 382 с.):

  • Понимание текста заключается в том, чтобы интерпретировать его как последовательность символов (С. 33.)

Васильев Юлий (Обработка естественного языка. Python и spaCy на практике. — СПб.: Питер, 2021. — 256 с.):

  • Текстовое содержимое — это группа символов, составляющих токен (цепочку, слово, n-грамму, терм)

Базовые задачи АОТ:

  • распознавания (выделению) символов (в цепочках), цепочек и их структур (порядка следования)

  • идентификации (соотнесения) символов  (в цепочках), цепочек и их структур (порядка следования)

  • распределения (классификации) символов (в цепочках), цепочек и их структур (порядка следования)

  • замещения (преобразования) одних символов  (в цепочках), цепочек и их структур (порядка следования) другими (в другие)

  • генерации новых  символов (в цепочках), цепочек и их структур (порядка следования)

 

 

 

Текст, как символическая машина

 

Текст - цепочка символов некоторого языка.

текст - машина в техносфере... в экосистеме...

Программа - машина... работающая в вычислительной среде...

Эмуляция... машины...

 


В АОТ текст рассматривается как машина

  • структура,

  • детали,

  • характеристики

  • параметры

  • возможности

В лингвистике рассматривается как "Машина Ивана Лукича":

  • любимая и родная ..

  • которая...

  • которую всегда...

  • о которой ...

  • в которой никогда....

В разговоре о Машине Ивана Лукича... ручь идёт не столько о машине, сколько о Иване Лукиче (его культуре, окружении, семье, образе жизни, мечтах, характере, привычках, желаниях... в их развитии, изменении) и его представлении об "Идеальной Машине"

Машине Ивана Лукича существенно отличается от Машины Людмилы Николаевны ... от машины ПП,  от машины СВ, от машины...:

  • по возможностям

  • по функциональности

  • .....

  • даже терминологией...

Лингвистика не столько о языке и тексте... сколько о человеке, мире людей и их отношениях людей (по поводу языка и текста)...

 

kmp