Автоматическая обработка текста (АОТ)

 

 

Текст как данные

Текст в АОТ может быть понят как данные (формализованная информация)

Данные    формализованная и закодированнвя информация.

Текст   машина (в техносфере, текстосфере).   Подробнее о тексте

 

Обработка

 

Обработка воздействие на объект с целью придания ему новых свойств

Обработка данных (Data processing, Performing data) - процесс выполнения последовательности операций над данными.
Обработка данных может осуществляться в интерактивном и фоновом режимах.

Обработка текста — придание тексту новых свойств на основе изменения его структуры.

Свойство объекта (предмета) — проявление качества объекта (предмета)

Закон Лейбница (Principium identitatis indiscernibilium): две вещи тождественны, если все их свойства общие.

Следствие: придание тексту новых свойств есть преобразование текста в новый текст (в некотором отношении: графематическом, фонетическом, лексическом, семантическом, синтаксическом, прагматическом...)

 

 

Обработка текста

 

Обработка текста воздействие на текст с целью придания ему новых свойств

Продумать:

  • воздействовать на текст можно только текстом?

  • является ли обработкой текста преобразование не-текста в текст?

  • является ли обработкой текста преобразование его в не-текст?

  • является ли обработкой текста преобразование формы его представления?

  • являются ли обработкой текста его восприятие, анализ, интерпретация (при которых сам текст остается неизменным)?

Обработка текста — придание тексту новых свойств по отношению:

  • к другим текстам, т

  • к субъекту (слушания, говорения, чтения, письма, перевода, анализа, интерпретации, понимания)

Продумать:

  • Что слышит (не)знающий языка слушая устный текст...

  • Что видит (не)грамотный смотря в книгу с письменный текстом?

 


Свойство объекта (текста) — проявление качества объекта (текста).

Качество объекта (текста) всегда проявляется для кого-то (субъекта, объекта (взаимодействующего с ним).

Свойство парадоксально (обработка текста — парадоксальна)

Свойства объекта зависят от вида взаимодействия объекта и субъекта.

Если на яблоко смотреть — оно имеет цвет и форму; если его откусить — имеет твёрдость и вкус; если его взвешивать — имеет вес; если оценивать его габариты — имеет размеры, если трогать — имеет шероховатость.

 

 

 

Автомат

 

Автомат - устройство, самостоятельно (без непосредственного участия человека) реализующее по программе процессы получения, преобразования, передачи и использования энергии, материала и информации.

Теория автоматов — раздел дискретной математики, изучающий абстрактные автоматы — вычислительные машины, представленные в виде математических моделей — и задачи, которые они могут решать.

Теория автоматов наиболее тесно связана с теорией алгоритмов: автомат преобразует дискретную информацию по шагам в дискретные моменты времени и формирует результат по шагам заданного алгоритма.

 

 

 

Автоматизация

 

Автоматизация — внедрение и системное применение автоматов и математических методов в целях:

  • освобождения человека от участия в процессах обработки (получения, преобразования, передачи, анализа, использования информации, энергии, материалов, изделий),

  • существенного уменьшения степени этого участия или трудоёмкости выполняемых операций.

Автоматизация обработки текста (АОТ) — внедрение и системное применение автоматов и математических методов с целью освобождения человека от участия в процессах получения, преобразования, передачи и использования текстовых данных, либо существенного уменьшения степени этого участия.  

Роль человека в автоматизации заключается в:

  • подготовке исходных данных,

  • выборе (настройке) методов решения,

  • анализе и интерпретации полученных результатов.

Каждый этап участия человека (подготовка, настройка, интерпретация) также может быть автоматизирован.

 


 

Первое правило технологии: автоматизация эффективной деятельности увеличивает её эффективность.

Второе правило технологии: автоматизация неэффективной деятельности увеличивает её неэффективность.

 

 

 

Автоматизмы

 

Автоматизм (др.-греч. самодействующий)) — способность к самопроизвольной деятельности.

Автоматизм (психология) — психические действия, выполняемые без их осознания.

Автоматизм (психиатрия) — осуществление психической деятельности и соматических функций без контроля воли.

 

Существенная часть речевой деятельности человека (слушание, говорение, чтение, письмо) осваивается и осуществляется в режиме автоматизмов:

  • речевая личность ребенка формируется посредством непроизвольного и неосознаваемого им усвоения языковых структур в своей активной речевой деятельности и на её основе

  • реальное речевое поведение человека осуществляется в ситуации непроизвольного и неосознаваемого им применения языковых структур в своей активной речевой деятельности

  • в реальном мышлении и общении человек не вычленяем из конкретных употреблений фундирующую их систему правил, которой владеет как компетентный говорящий/слушающий.

  • вычление в реальном повседневном (а не специальном исследовательском или учебном) мышлении и общении из конкретных употреблений фундирующей их системы правил, является примером и свидетельством недостаточного владения языком (отсутствия speech fluency)!

 

Языковая компетенция  — термин Ноама Абрамовича Хомского (в контексте его «грамматизма»), обозначающий часть дихотомии competence / performance, используемой для интерпретации языковой способности и речевой деятельности человека без учета социальных, ситуативных и других факторов.

Ноам Хомский:

  • Мы проводим фундаментальное различие между competence (компетенция: знание своего языка говорящим — слушающим; langue: «язык» по Ф. де Соссюру) и performance (употреблением: реальным использованием языка в конкретных ситуациях; langage: «речевая деятельность» по Ф. де Соссюру ).

 

Следует различать (!):

  • знание языка (языковую компетенцию, способность к непринужденному его использованию (в мышлении и коммуникации)

  • использование языка в конкретных ситуациях (речевую беглость (эффективную и эффектную), verbal fluency

  • знание о языке (его грамматических структурах, словообразовании ++)

  • демонстрацию знания о языке (в ответах на экзамене)


 

Автоматизаторы (тестирования) - пишут программы, которые имитируют действия пользователей и проверяют продукт или его часть.

 

 

Основания АОТ

 

Автоматизация (процессов) - полная или частичная замена непосредственного участия человека внешними средствами (устройствами, машинами, автоматами).

Основание  — причина или предлог.

Основания автоматизации процессов:

  • опасность процессов для человека

  • масштабы процессов (несоизмеримые с возможностями человека объемы и темпы )

  • эффективность (соотношение получаемого результат к затратам)

  • игра

Обработка текста не является опасной для человека )

АОТ может осуществляться в контексте:

  • игры (первоначальный этап + этап применения развитых средств АОТ)

  • масштабных текстовых данных, превосходящих возможности человека (основной этап создания и внедрения АОТ)

  • повышения эффективности обработки текстов (этап применения развитых средств АОТ)


 

Важнейшим свойством технологии АОТ является её масштабируемость.

Масштабируемость — это способность информационной системы к поддержанию заданного уровня производительности при возрастании нагрузки на систему (например, увеличение объемов данных, показателей задач, числа пользователей и т.д.) без замены оборудования и программного обеспечения.

 

 

 

Гиперавтоматизация

 

Гиперавтоматизация – подход (системный набор методов) на основе Big Data и AI (искусственного интеллекта),
позволяющий эффективно автоматизировать максимум процессов с использованием:

  • RPA ( (robotic process automation, технологий роботизации),

  • LCAP (low-code application platforms, платформ создания приложений с написанием минимума программного кода),

  • IVA (intelligent virtual assistant, виртуальных ассистентов).

Согласно Gartner, мировой рынок технологий, обеспечивающих гиперавтоматизацию:

  • В 2020 году оценивался в $481,6 млрд.,

  • в 2021 году оценивается $532,4 млрд.,

  • в 2022 году достигнет $596,6 млрд.

Фабрицио Бискотти: Из необязательной опции гиперавтоматизация превратилась в условие выживания.

Список Gartner: 12 стратегических технологических тенденций в 2022 году
https://www.gartner.com/en/information-technology/insights/top-technology-trends

1. Фабрика данных (Data Fabric)

.....

7. Гиперавтоматизация (Hyperautomation)

 

Гиперавтоматизация призвана обеспечить:

  • повышение качества работы (в т.ч. обработки (больших) данных),

  • ускорение процессов (в т.ч. обработки (больших) данных),

  • гибкость принятия решений (в т.ч. на основе аналитики (больших) данных),

  • легкость масштабирования ((в т.ч. в обработке (больших) данных),

  • оптимизацию расходов (за счет отказа от найма, онбординга, мотивации и контроля сотрудников...).

 

 

 

Базовые задачи АОТ

Базовые задачи АОТ:

  • распознавания (выделению) символов (в цепочках), цепочек и их структур (порядка следования)

  • идентификации (соотнесения) символов  (в цепочках), цепочек и их структур (порядка следования)

  • распределения (классификации) символов (в цепочках), цепочек и их структур (порядка следования)

  • замещения (преобразования) одних символов  (в цепочках), цепочек и их структур (порядка следования) другими (в другие)

  • генерации новых  символов (в цепочках), цепочек и их структур (порядка следования)

 

 

 

Приложения АОТ

Основные приложения АОТ:

  • Распознавание языков

  • Распознавание текста

  • Распознавание речи

  • Машинный перевод

  • Синтез речи по тексту

  • Автогенерация связной речи

  • Автореферирование текста

  • Поддержание диалога

  • Сентимент анализ (определение тональности текста)

 

 

 

Уровни АОТ

Основные уровни АОТ:

  • Графематический

  • Фонетический

  • Морфологический

  • Лексический

  • Синтаксический

  • Семантический

  • Прагматический

  • Метаязыковой

 

 

Области применения АОТ

 

  • Управление

  • Наука

  • Бизнес

  • Маркетинг

  • Безопасность

  • Образование

  • Здравоохранение

  • Искусство

 


 

Наука

  • Социология

  • Психология

  • Лингвистика

  • Литературоведение

  • Текстология

  • Текстоведение

  • История

  • Криминалистика

 

 

Иерархия АОТ

Иерархия АОТ

  • идея (концепт)

  • модель (результат осмысления идеи и выражения ее на языке ... математики)

  • алгоритм (реализация модели в виде набора инструкций, описывающих порядок действий исполнителя для решения определённой задачи)

  • программа (текст на языке программирования, в котором реализуется алгоритм, работающий в некоторой программно-аппаратной среде)

  • сервис (услуга, предоставляемая программой на основе пользовательского интерфейса)

На пути к реализации в виде сервиса множество идей (моделей, алгоритмов, программ) отсеивается (отклоняется)

Одна идея лежит в основе множества сервисов

Один сервис может интегрировать реализацию множества идей (моделей, алгоритмов, программ)

Отличная идея (модель, программа) может быть плохо реализована (на любом уровне)

 

 

kmp