Графематическая обработка текста |
О важном
)
Графематическая обработка текста -
хороший повод подумать о важном и понять необходимое (в АОТ)
|
Простая дефиниция графемы
Дефиниция
https://ru.wikipedia.org/wiki/Графема
Текст
—
цепочка символов
Базовые
символы
письменного текста (в системе письма)
—
графемы.
Графема (др.-греч. пишу) —
базовая
единица письменности (буква, слоговой знак,
иероглиф, идеограмма и др.),
однозначно отличимая от любой
другой единицы этой же письменности
Различимость — единственный атрибут (неотъемлемое свойство)
графемы.
В постструктурализме (парадигмальной
основе АОТ) "различие" (различение,
Differance) обретает парадигмальный статус подлинного
философского начала
|
Графема, как предмет АОТ
Письменная форма представления текста
является основной в вычислительных системах и в АОТ.
Другие формы (устный текст, внутренняя
речь) могут быть преобразованы к письменной форме и закодированы в
ней.
Формально АОТ может быть понята как
преобразование графем (символов) и их цепочек.
The concept of graphemes is abstract and similar to the notion in
computing of a character. Понятие графем абстрактно и похоже на понятие при вычислении символа.
https://en.wikipedia.org/wiki/Grapheme
Китайская
комната
— мысленный
эксперимент Джона Сёрла, показывающий, что АОТ может быть полностью
сведена к манипулированию символами (графемами и их цепочками)
https://ru.wikipedia.org/wiki/Китайская_комната
https://en.wikipedia.org/wiki/Chinese_room
Выход из «Китайской комнаты» или может
ли машина думать
https://habr.com/ru/post/405941/
Базовые задачи АОТ могут быть
редуцированы к манипулированию графемами (символами системы письма).
Редукционизм (от лат. reductio —
приведение обратно) — методологический принцип, объясняющий
явления высших уровней реальности связями и отношениями на
низших уровнях (социальное объясняется физическим, билогическое
- химическим и т.п.).
Базовые задачи АОТ:
-
распознавания (выделению) графем
(в цепочках), цепочек графем и их структур (порядка следования)
-
идентификации (соотнесения)
графем (в цепочках), цепочек графем и их структур (порядка
следования)
-
распределения (классификации)
графем (в цепочках), цепочек графем и их структур (порядка
следования)
-
замещения (преобразования) одних
графем (в цепочках), цепочек графем и их структур (порядка
следования) другими (в другие)
-
генерации новых графем (в
цепочках), цепочек графем и их структур (порядка следования)
Успешность решения базовых задач АОТ
предполагает:
-
чёткое и ясное понимания сущности
и системной совокупности базовых характеристик графем,
-
их связей и отношений различного
уровня (графического, знакового, семантического,
прагматического, парадигмального).
|
Графема, глиф, аллограф
Графема
— элемент (символ) письменной формы текста
Графема
— абстрактный элемент,
объединяющий в
одну группу реальные начертания (глифы), которые отличаются «несущественно»
Начертания
(глифы) с
«существенными» отличиями относятся к разным графемам.
Глиф
(др.-греч. вырезаю) — конкретный
элемент письма, реальный графический вариант записи графемы
в
рукописных и печатных источниках.
Глиф может
представлять и
часть
графемы, например: диакритический знак.
Глиф
— конкретный (реальный,
единичный) си, отличный от абстрактного (идеального, обобщенного)
символа графемы.
Глиф (в вычислительной технике) —
элемент компьютерного символа, соответствующий графеме или
графемоподобной единице текста: это может быть буква, число, знак
пунктуации или пиктограмма, декоративный символ, графическая метка.
Глифы,
представляющие один и тот же символ, используемые попеременно или
выбранные в зависимости от контекста, называются
аллографами
друг друга.
Аллограф
(от греч. другой +
пишу) — вариант (стиль написания, характер начертания) графемы
В шрифтовой графике
графеме соответствует шрифт (система графем),
аллографу соответствуют гарнитура шрифта и
применяемый стиль начертания, глифу соответствует
конкретное изображение.
|
Аллограф
— символ (рисунок, глиф, образ), который считается вариантом
другого символа (рисунка, глифа, образа) и соответствует одной
графеме.
Для алфавитного письма это различные
способы, стили и конкретные реализации написания одного символа.
Графема
— абстракция, обобщение, идеализация (глифов и аллографов).
Треугольник
(геометрическая фигура)
—
идеализация реальных изображений (с тремя углами, образованной
из прямых отрезков).
Пары
строчных
и заглавных разновидностей буквы не считаются аллографами.
|
Письмо (в традиции)
Письмо
(письменность, система письма) — система символов,
предназначенная для упорядочения, закрепления и передачи различных текстовых
данных (речевой информации).
Письменность —
одна из форм реализации человеческого языка и речи.
Письменность
—
множество графем
(элементов) связанных определенными отношениями и операциями.
Графема —
базовая (элементарная) единица письма (письменности).
Письменность
— алгебраическая система
(множество графем с определенными на нём операциями и отношениями)
В традиции
(культурной, философской, языковедческой,
лингвистической) письмо:
-
вторичный феномен, периферийный по отношению к устной речи
-
всего
лишь «знак знака»: графический знак, замещающий устный в его
отсутствие
-
служебный компонент языка
-
вспомогательная техника запоминания
Подобный (логоцентричный) подход ...
не эффективен (не результативен) в АОТ и преодолевается в парадигме
постструктурализма и ООО.
|
Письмо (в АОТ)
Письмо
в АОТ может быть адекватно понято в парадигме
постстуктурализма.
В постструктурализме (в
контексте концепции «смерти автора»,
и рождении
скриптора, как парадигмальном основании АОТ) обращение к феномену
письма обусловлено отказом от идеи связи
языка с человеком как его началом и источником.
В
грамматологии
Деррида идея
письма фундирована отказом от тезиса
единства звука и смысла.
Между человеком и истиной
существует весьма значимая череда посредников,
располагающаяся в основном в сфере языка.
Область данного и несомненного отступило в
бесконечность
следов, отличающихся друг от
друга только тем, что возможно обозначать как
«различие». (differance).
Способом осуществления differance и выступает
письмо (как
собственно сам принцип расчленения; как
возможность записи, условие любой
дискурсивности, любой
артикулированности).
Письмо,
не располагаясь в оппозиции к речи, акцентированно предположено
языку (условно первично по отношению к нему).
Письмом являются самые различные феномены
артикуляций — со(рас)членений.
Письмо
объемлет любую «графию»: от стенографии до
спектрографии, любую программу.
Зрительное начертание (gramme,
графема) делается наиболее общим понятием семиотики.
Графема (gramme, символ, знак знака, след
знака — звено-посредник в бесконечности и безграничности отсылок
текстов к текстам в ситуации
универсальной текстуализации.
Письмо
(в АОТ):
-
первично
(по отношению к устной речи)
-
автономно (по отношению к человеку)
-
активно
(по отношению к скриптору)
-
неисчерпаемо (замкнуто на себя? открыто только в себя...
-
саморазличительно (дискретно - дифферинциально)
-
ризоматично (постструктурно ацентрично)
-
фрактально (самоподобно и рекурсивно)
-
нескончаемо (нельзя завершить, можно только написать:
завершаю)
-
интертекстуально (гулко)
-
акцидентно (принципиально поверхностно наигрываемо)
|
Орфография
Орфография
(др.-греч. прямой + писать) — система единообразной передачи базовых
элементов речи (слов) на письме.
Орфография
— правильное,
соответствующее нормам письмо.
Орфография
определяет эталонное (образцовое, идеальное) исполнение графем и
их цепочек.
Правописание
= орфография + пунктуация.
Орфография служит для упрощения
письменной коммуникации за счет сглаживания её индивидуальных и
коллективных особенностей.
Орфография существенно важна для
упрощения решения задач АОТ
Любое упрощение имеет свою
ценность, цель, цену!
Любому упрощению своя мера, своё время и своё место!
Фонематическая орфография
—
орфография, в которой графемы письма соответствуют фонемам языка.
Фонематическая орфография редка среди национальных систем письма.
Орфографические системы значительно стабильнее, чем динамичная
разговорная речевые практики.
Идеальным случаем для АОТ является полное взаимно однозначное
соответствие ( биекция ) между графемами (буквами) и фонемами
языка. Если каждая фонема всегда представлена соответствующей
ей графемой, написание слова однозначно и ясно указывало бы на
его произношение (акустический образ), и, наоборот.
Орфография английского языка
— совокупность графем и правил, регламентирующих написание слов
английского языка.
Английская орфография в значительной степени нефонематична.
Современный английский
алфавит содержит 26 букв.
Современная английская орфография
включает
1120 графем
для
передачи звучания 62 фонем (и является одной из самых сложных в
мире).
https://ru.wikipedia.org/wiki/Орфография_английского_языка
https://en.wikipedia.org/wiki/English_orthography
Орфография немецкого языка:
https://de.wikipedia.org/wiki/Deutsche_Rechtschreibung
|
Данные. Кодировки. Цифры.
Текст может
рассматриваться как данные (формализованная и закодированная информация)
Кодировка символов
(!) —
однозначное соответствие между набором
символов (графем) и набором чисел.
https://en.wikipedia.org/wiki/Character_encoding
Символьный тип
(Сhar)
— тип данных, предназначенный для хранения одного символа в
определённой кодировке.
Может являться как однобайтовым (для стандартной
таблицы символов), так и многобайтовым (к примеру, для Юникода).
Основным применением является обращение к
отдельным знакам строки.
https://ru.wikipedia.org/wiki/Символьный_тип
Character
(https://en.wikipedia.org/wiki/Character_(computing):
-
In computer and machine-based telecommunications terminology,
a character is a unit of information that roughly
corresponds to a
grapheme,
or symbol, such as in an alphabet or syllabary in the
written form of a natural language.
-
Examples of characters include letters,
numerical digits, common punctuation marks, whitespace,
includes control characters, which do not correspond to
visible symbols but rather to instructions to format or
process the text.
-
Characters are typically combined into
strings.
-
Historically, the term character was also
used to just denote a specific number of contiguous bits.
Число —
базовое понятие математики, используемое для количественной
характеристики, сравнения, нумерации.
Письменными знаками для обозначения
чисел служат цифры и символы математических операций.
Цифра (от
арабского sifra — «пустота») — идеографическая логограмма
(обозначает целое слово (имя числительное), не предопределяя его
звуковой стороны).
В отличие от обычных письменных
знаков, которые применяются для записи любой речи, цифры служат для
краткой записи чисел.
|
Нотация
Нотация (от лат.
notatio «записывание)
—
система условных обозначений области знаний.
Включает
множество графем (символов), для представления понятий и их
взаимоотношений, также правила их
применения.
https://ru.wikipedia.org/wiki/Математические_обозначения
Математическая
нотация («язык математики») — графическая система
обозначений, служащая для изложения абстрактных математических идей и
суждений (в человеко-читаемой) форме.
Математическая нотация
составляет (по своей сложности и
разнообразию) значительную долю неречевых знаковых систем
человечества.
Математическая нотация, как правило, применяются
совместно с письменной формой национального языка.
https://ru.wikipedia.org/wiki/История_математических_обозначений
https://ru.wikipedia.org/wiki/Таблица_математических_символов
https://en.wikipedia.org/wiki/Glossary_of_mathematical_symbols
Фонетическая нотация
— система графем (символов, знаков) для записи транскрипции на
основе латинского алфавита.
Международный фонетический алфавит
(International Phonetic Alphabet, IPA, МФА) включает 163 графемы
(107 символов-букв, 52 символа — диакритических знака и 4 символа —
знака просодии) и отображает
различительные параметры устной речи (фонемы, интонация, разделение
слов и слогов). Для передачи дополнительных особенностей речи
(скрипа зубов, шепелявости, звуков, вызванных расщеплением нёба)
используется дополнительный набор символов — расширения МФА.
https://ru.wikipedia.org/wiki/Международный_фонетический_алфавит
https://ru.wikipedia.org/wiki/Фонетический_алфавит_ИКАО
https://unicode-table.com/ru/
|
План выражения. План
содержания
В тексте можно выделить два плана:
-
План выражения
— организованная область материальных средств, служащих для
передачи текстовых сообщений.
-
План содержания
— воплощаемый в тексте (и передаваемый в речи) «мир мысли»
АОТ (машинная обработка,
автономная от человека) относится исключительно к плану
выражения.
Планом
содержания возникает в системе (множестве) "машина - человек"
План выражения текста реализуется в
звуковой (устная речь) и письменной (письмо, письменность) форме.
|
Означаемое и означающее
Знак образуется
отношением двух элементов — «воспринимаемого» и «понимаемого».
Означающее (обозначающее)
— формальная сторона языкового знака (выражающая его содержательную
сторону) и представленная акустическим (в устном тексте) или
визуальным (в письменном тексте) образом.
Принцип
различимости означающих: для обеспечения противопоставленности знаков релевантны лишь дифференциальные
признаки — свойства, отличающие одни означающие от других.
https://ru.wikipedia.org/wiki/Означающее
https://en.wikipedia.org/wiki/Denotation
Означаемое (обозначаемое)
— содержательная сторона языкового
знака (выраженная его формальной стороной: означающим).
Означаемыми
могут выступать:
-
элементы внеязыкового опыта
(кодируемые
языковыми знаками),
-
синтаксис (отношения знаков друг с другом).
https://ru.wikipedia.org/wiki/Означаемое
https://en.wikipedia.org/wiki/Signified_and_signifier
Означающее многослойно: включает сведения о внеязыковой
(внеречевой) реальности и различные аспекты речевого
акта (денотативный, сигнификативный, прагматический и
синтаксический).
|
Графема:
абстракция
https://gtmarket.ru/concepts/7008
Абстракция
(от лат. abstractio — отвлечение) — универсальный методом
научного познания.
Абстракция необходима для
узнавания и классификации объектов исследования, формирования
понятий.
Абстрагирование
— операция мышления, состоящая в:
-
абстрагировании (отвлечении от
несущественных сторон, свойств, связей объекта
-
выделении их существенных, закономерных признаков
-
замещении объекта его
идеализированным теоретическим образом – абстрактным объектом
(понятием, категорией).
Результат абстрагирования — абстрактные понятия, например:
графема, текст, автомат, обработка, синтаксис, перевод и т. д.
Текст, ставший объектом разнопланового лингвистического изучения лишь
в последней трети ХХ в., не имеет к настоящему времени однозначного
определения. Не последнюю роль играет в данном
случае отсутствие устоявшегося мнения в отношении
состава и понимания текстовых категорий и признаков.
|
Графема —
абстрактный
(идеальный) элемент системы письма, выражающийся глифами (посредством
аллографов).
Глиф —
конкретный (реальный)
элемент системы письма, выражающий графемы (посредством аллографов).
Графема -
означаемое в "плане выражения" (то, что выражается глифом)
Глиф - означающее в "плане
содержания" (то, что выражет графему)
|
Почему все так сложно? Ищи ответы с Юджинией Ченг в
книге Математический беспредел. От элементарной математики к
возвышенным абстракциям. — СПб.: Питер, 2019. — 336 с.
|
Графема: текст, машина, фрактал
Текст
(в АОТ)
—
цепочка символов некоторого языка.
|
<?xml version="1.0" encoding="ISO-8859-1"?>
<ttFont sfntVersion="OTTO" ttLibVersion="2.3">
<GlyphOrder>
<GlyphID name=".notdef"/>
<GlyphID name="SPACE"/>
<GlyphID name="EXCLAMATION MARK"/>
<GlyphID name="QUOTATION MARK"/>
<GlyphID name="NUMBER SIGN"/>
<GlyphID name="DOLLAR SIGN"/>
<GlyphID name="PERCENT SIGN"/>
<GlyphID name="AMPERSAND"/>
<GlyphID name="APOSTROPHE"/>
<GlyphID name="LEFT PARENTHESIS"/>
<GlyphID name="RIGHT PARENTHESIS"/>
......................
<mtx name="RIGHT CURLY BRACKET"
width="20" lsb="20"/>
<mtx name="TILDE" width="20" lsb="20"/>
</hmtx>
</ttFont> |
Текст
(в OОО,
онтикологии)
—
машина (составная сущность, состоящая из других субмашин (до
бесконечности)).
Каждая часть текста (машины) является (текстом) машиной, не исключая
исходные (базовые, элементарные) машины.
Текст представляет собой рекурсивную самоподобную
систему машин - фрактал (см.
здесь "Фрактальная графика").
Фрактал – (от лат. fractus, состоящий из фрагментов) – самоподобная
рекурсивная структура.
https://ru.wikipedia.org/wiki/Фрактал
Кретов. А.А.:
-
Фрактальность языка предполагает в
нем наличие самоподобия (масштабной инвариантности) и рекурсии
(использования на каждом шаге порождения порождённого ранее). В
2009 году при участии Наума Хомского проведена конференция,
посвященная рекурсии в языке и познании. Полагают, что отличие
человека от животных состоит в его способности к рекурсии (здесь)
Программа
—
машина, работающая в вычислительной среде...
|
Графематическое моделирование в образовании
Графематический
анализ представляет собой важнейший начальный этап работы с текстом
(как для человека, так и для систем автоматической обработки
текста).
Формально графема моет быть описана как линейно-осевая структура
буквенного знака.
В ходе
графематического анализа, осуществляется:
-
определение элементов грамматической структуры (слова, знаки
пунктуации, числа, сокращения и т. д.),
-
разбивка
текста на графемы,
-
определение границ предложений,
-
различение слов и служебных графем,
-
распознавание собственных имен,
-
сокращений и др.
Реализовать возможности
графематического анализа в процессе языкового образования можно
посредством графематического компьютерного моделирования на основе
специальных программных средств.
Glyphr Studio
- бесплатный редактор шрифтов, основанный на HTML5, предоставляет
инструментарий
-
для
выделения графем
любой
формы
-
использования моделей графем в других символах
-
создания
на основе готовых графем сложных форм.
-
копирования и вставки, поворотов и переворотов,
перетаскивания и масштабирования, указания путей при помощи
кривых Безье с опорными точками, заданными в двух- или
трехмерном пространстве.
В результате
графематического моделиро-вания в Glyphr Studio получается единый
HTML-файл малого размера. Экспорт проекта осуществляется в файл *.txt.
Приложение
Glyphr Studio бесплатное, с открытым исходным кодом, его можно
использовать онлайн или скопировать себе в виде одного HTML-файла и
работать локально.
Графематическое
моделирование рукописных шрифтов предоставляет значимые возможности
в лингвистической, дидактической, реабилитационной работе.е.
DMTHWriter
предоставляет возможность задания различных вариантов написания
символа, эмулирует написание текста различными инструментами (ручка,
карандаш, фламастер, перо), реализует большое количество полезных
эффектов написания, в том числе:
– статичный
или случайный съезд написания вниз или вверх, возникающий при
случайном повороте листа;
– эффект «прыгающих букв», придающий псевдо-рукописному тексту
более естественный вид;
– статический наклон символов влево или вправо, который также
может быть случайным для каждой буквы;
– эффект дрожащей руки, делающий модель почерка на основе
рукописного шрифта абсолютно неповторимой;
– случайный отступ от края листа, устраняющих однотонность и
точность полей;
– случайный размер символов (вариативный кегль на основе
отдельных графем)
– случайное расстояние между буквами (вариативность прошей);
– случайный наклон для каждой из букв и задаваемый статический
наклон для всех букв;
– случайное расстояние между строк (вариативный интерлиньяж).
Актуальным направлением
графематического моделирования является
Kinetic typography
(кинетическая типографика) – оформление текста в движении.
Простейший вариант кинетичекой типографики – анимация из букв.
Движущиеся надписи
могут быть самостоятельным произведением или входить в состав более
сложной анимации с фигурами или персонажами.
Кинетическая
типографика расширяет визуальные возможности и эмоциональное
воздействие текста, позволяет проще и оригинальнее доносить
необходимые смыслы и по-новому выполнять поставленные учебные
задачи.
Учебный текст
является вторичным по своей природе моделью образовательной
речевой ситуации.
Автор и адресат
учебного текста –типизированные отчуждаемые от своих личностных
качеств субъекты.
Письменный учебный
текст является односторонним по своему воздействию, сугубо
вербальным по языковому коду. Он не отображает полноты ситуации
учебного общения, которая воплощается в учебном тексте другого
типа.
Кинетическая
типографика призвана стать инструментом частичного нивелирования
принципиальных ограничений письменного учебного текста и
повысить эффективность образовательного процесса.
Реализация
учебного потенциала кинетической типографики основывается на
избранной концепции текстового дизайна (адекватной
образовательным целям и условиям педагогического процесса),
качественном инструментарии и навыкам дизайнера.
Необходимый
инструментарий для моделирования учебного текста посредством
кинетической типографики доступен онлайн.
Примеры такого
инструментария, использование которого требует только наличие
браузера:
|
Инструментальность графемы в контексте АОТ
Инструментальность
—
ориентированность
исключительно на эффективность, техническую рациональность в
достижении целей.
Понимание
графемы:
-
её
знаковой природы и абстрактной сущности,
-
её
положения в бинарных оппозициях "означаемого - значающего" и
"плана содержания - плана выражения",
-
её
материализации в глифе посредством аллографа,
-
её
акцидентности в роли символической различительности,
-
её
необходимой включённости в системы письма, орфографии и
нотации,
-
её
текстуальности,
-
её
машинной метафоры
-
её
фрактальной структурности
а также, понимание символического
характера АОТ
является,
в контексте искусственного интеллекта
и АОТ, эффективным
инструментом, предотвращения/минимизации негативных последствий:
Понимание
графемы не является гарантией решения указанной задачи, но
предполагает, что данный инструмент находится "в умелых руках" и
применяется с умом и по назначению.
Понимание
графемы является не единственным и не обязательным инструментом для
решения указанной задачи (набор инструментов подобного рода
достаточно широк и разнообразен)
Вместе с тем, решение подобной задачи
с высокой вероятность обеспечивает понимание адекватное АОТ
понимание графемы.
|
|