Автоматическая обработка текста (АОТ) |
Текст как данные
Текст в АОТ может быть понят
как данные
(формализованная информация)
Данные
—
формализованная и закодированнвя информация.
Текст
—
машина (в техносфере, текстосфере).
Подробнее о тексте
|
Обработка
Обработка
—
воздействие на объект с
целью придания ему новых свойств
Обработка данных
(Data processing, Performing data) - процесс выполнения
последовательности операций над данными. Обработка данных может осуществляться в интерактивном и фоновом режимах.
Обработка текста
— придание тексту новых свойств
на основе изменения его структуры.
Свойство объекта
(предмета) — проявление качества объекта (предмета)
Закон Лейбница (Principium
identitatis indiscernibilium): две вещи тождественны, если все их
свойства общие.
Следствие: придание тексту новых свойств
есть преобразование текста в
новый текст (в некотором отношении: графематическом, фонетическом,
лексическом, семантическом, синтаксическом, прагматическом...)
|
Обработка текста
Обработка
текста —
воздействие на текст с
целью придания ему новых свойств
Продумать:
-
воздействовать
на текст можно только текстом?
-
является ли обработкой текста
преобразование
не-текста
в текст?
-
является ли обработкой текста
преобразование его в
не-текст?
-
является ли обработкой текста
преобразование формы его представления?
-
являются ли обработкой текста его
восприятие,
анализ, интерпретация
(при которых сам текст остается неизменным)?
|
Обработка текста
—
придание тексту новых свойств по отношению:
-
к другим текстам, т
-
к субъекту
(слушания, говорения, чтения, письма, перевода, анализа, интерпретации,
понимания)
Свойство объекта
(текста) — проявление качества объекта (текста).
Качество объекта (текста) всегда проявляется для
кого-то (субъекта, объекта (взаимодействующего с ним).
Свойство
парадоксально (обработка текста —
парадоксальна)
|
Свойства объекта зависят от вида
взаимодействия объекта и субъекта.
Если на яблоко смотреть — оно имеет
цвет и форму; если его откусить — имеет твёрдость и вкус; если его
взвешивать — имеет вес; если оценивать его габариты — имеет размеры,
если трогать — имеет шероховатость.
|
Автомат
Автомат - устройство,
самостоятельно (без непосредственного участия человека)
реализующее по программе процессы получения, преобразования, передачи и
использования энергии, материала и информации.
Теория
автоматов —
раздел дискретной математики, изучающий абстрактные автоматы —
вычислительные машины, представленные в виде математических моделей — и
задачи, которые они могут решать.
Теория автоматов наиболее тесно связана с теорией алгоритмов: автомат
преобразует дискретную информацию по шагам в дискретные моменты времени
и формирует результат по шагам заданного алгоритма.
|
Автоматизация
Автоматизация
— внедрение и системное применение автоматов и математических
методов в целях:
-
освобождения человека от участия в процессах
обработки (получения, преобразования, передачи, анализа, использования информации,
энергии, материалов, изделий),
-
существенного уменьшения степени
этого участия или трудоёмкости выполняемых операций.
Автоматизация
обработки текста
( АОТ)
— внедрение и системное применение автоматов и математических
методов с целью освобождения человека от участия в процессах
получения, преобразования, передачи и использования текстовых данных, либо существенного уменьшения степени
этого участия.
Роль человека в
автоматизации заключается в:
-
подготовке исходных данных,
-
выборе
(настройке) методов решения,
-
анализе
и интерпретации полученных результатов.
Каждый этап участия человека
(подготовка, настройка, интерпретация) также может быть
автоматизирован.
Первое
правило технологии: автоматизация
эффективной деятельности увеличивает её эффективность.
Второе
правило технологии: автоматизация
неэффективной деятельности увеличивает её неэффективность.
|
Автоматизмы
Автоматизм
(др.-греч. самодействующий)) — способность к самопроизвольной
деятельности.
Автоматизм
(психология)
— психические действия, выполняемые без их осознания.
Автоматизм
(психиатрия)
— осуществление
психической деятельности и соматических функций без контроля
воли.
Существенная часть
речевой деятельности человека (слушание, говорение, чтение, письмо)
осваивается и осуществляется в режиме автоматизмов:
-
речевая личность
ребенка формируется посредством непроизвольного
и неосознаваемого им усвоения языковых структур
в своей активной речевой деятельности и на её
основе
-
реальное речевое
поведение человека осуществляется в ситуации
непроизвольного и неосознаваемого им применения
языковых структур
в своей активной речевой
деятельности
-
в реальном
мышлении и общении человек не вычленяем из
конкретных употреблений фундирующую их систему
правил, которой владеет как компетентный
говорящий/слушающий.
-
вычление в
реальном повседневном (а не специальном
исследовательском или учебном) мышлении и
общении из конкретных употреблений фундирующей
их системы правил, является примером и
свидетельством недостаточного владения языком
(отсутствия
speech fluency)!
|
Языковая
компетенция
—
термин Ноама Абрамовича Хомского (в контексте его «грамматизма»),
обозначающий часть дихотомии competence / performance,
используемой для интерпретации языковой способности и речевой
деятельности человека без учета социальных, ситуативных и других
факторов.
Ноам Хомский:
Следует различать (!):
-
знание языка (языковую компетенцию, способность к
непринужденному его использованию (в мышлении и
коммуникации)
-
использование языка
в конкретных ситуациях
(речевую беглость (эффективную и эффектную), verbal
fluency
-
знание о языке (его грамматических структурах,
словообразовании ++)
-
демонстрацию знания о языке (в ответах на экзамене)
Автоматизаторы (тестирования)
- пишут программы, которые имитируют действия пользователей и
проверяют продукт или его часть.
|
Основания
АОТ
Автоматизация
(процессов) - полная или частичная замена непосредственного участия
человека внешними средствами (устройствами, машинами, автоматами).
Основание
—
причина
или предлог.
Основания
автоматизации процессов:
-
опасность процессов для человека
-
масштабы
процессов (несоизмеримые с возможностями человека объемы и
темпы )
-
эффективность (соотношение получаемого результат к затратам)
-
игра
Обработка текста не является опасной для
человека )
АОТ может
осуществляться в контексте:
-
игры
(первоначальный этап + этап применения развитых средств АОТ)
-
масштабных текстовых данных, превосходящих возможности
человека (основной этап создания и внедрения АОТ)
-
повышения эффективности обработки текстов (этап
применения развитых средств АОТ)
Важнейшим свойством технологии АОТ
является её масштабируемость.
Масштабируемость — это способность
информационной системы к поддержанию заданного
уровня производительности при
возрастании нагрузки на систему (например,
увеличение объемов данных, показателей
задач, числа
пользователей и т.д.) без замены оборудования и
программного обеспечения.
|
Гиперавтоматизация
Гиперавтоматизация
– подход (системный набор методов)
на основе
Big Data и AI (искусственного
интеллекта),
позволяющий эффективно автоматизировать
максимум процессов с использованием:
-
RPA ( (robotic process automation, технологий роботизации),
-
LCAP (low-code application platforms, платформ создания
приложений с написанием минимума программного
кода),
-
IVA (intelligent
virtual assistant, виртуальных ассистентов).
Согласно
Gartner,
мировой рынок технологий, обеспечивающих гиперавтоматизацию:
-
В 2020 году оценивался в
$481,6 млрд.,
-
в 2021 году оценивается
$532,4 млрд.,
-
в 2022
году достигнет
$596,6 млрд.
Фабрицио Бискотти:
Из
необязательной опции гиперавтоматизация превратилась в условие
выживания. |
Список Gartner: 12 стратегических
технологических тенденций в 2022 году
https://www.gartner.com/en/information-technology/insights/top-technology-trends
1. Фабрика данных (Data Fabric)
.....
7.
Гиперавтоматизация (Hyperautomation)
Гиперавтоматизация
призвана обеспечить:
-
повышение качества работы
(в т.ч. обработки (больших) данных),
-
ускорение процессов
(в т.ч.
обработки (больших) данных),
-
гибкость принятия решений
(в т.ч. на основе аналитики (больших) данных),
-
легкость
масштабирования ((в т.ч.
в обработке (больших) данных),
-
оптимизацию расходов (за счет отказа от
найма, онбординга, мотивации
и контроля сотрудников...).
|
Базовые задачи АОТ
Базовые задачи АОТ:
-
распознавания (выделению) символов
(в цепочках), цепочек и их структур (порядка следования)
-
идентификации (соотнесения)
символов (в цепочках), цепочек и их структур (порядка
следования)
-
распределения (классификации)
символов (в цепочках), цепочек и их структур (порядка
следования)
-
замещения (преобразования) одних
символов (в цепочках), цепочек и их структур (порядка
следования) другими (в другие)
-
генерации новых символов (в
цепочках), цепочек и их структур (порядка следования)
|
Приложения АОТ
Уровни АОТ
Основные уровни
АОТ:
-
Графематический
-
Фонетический
-
Морфологический
-
Лексический
-
Синтаксический
-
Семантический
-
Прагматический
-
Метаязыковой
|
Области
применения АОТ
-
Управление
-
Наука
-
Бизнес
-
Маркетинг
-
Безопасность
-
Образование
-
Здравоохранение
-
Искусство
Наука
-
Социология
-
Психология
-
Лингвистика
-
Литературоведение
-
Текстология
-
Текстоведение
-
История
-
Криминалистика
|
Иерархия АОТ
Иерархия АОТ
-
идея
(концепт)
-
модель
(результат осмысления идеи и выражения ее на языке ... математики)
-
алгоритм
(реализация
модели в виде набора инструкций, описывающих порядок
действий исполнителя для решения определённой задачи)
-
программа
(текст на языке программирования, в котором реализуется алгоритм,
работающий в некоторой программно-аппаратной среде)
-
сервис
(услуга, предоставляемая программой на основе пользовательского
интерфейса)
На пути к реализации в виде сервиса
множество идей (моделей, алгоритмов, программ) отсеивается
(отклоняется)
Одна идея лежит в основе множества
сервисов
Один сервис может интегрировать
реализацию множества идей (моделей, алгоритмов, программ)
Отличная идея (модель, программа)
может быть плохо реализована (на любом уровне)
|
|