Оптическое_распознавание_текста

 

 

 

 

OCR (Optical Character Recognition) - технология преобразования графического изображения текста в компьютерный текст с помощью алгоритма распознавания графических образов.

OCR (Optical Character Recognition) - компьютерная программа перевода графического изображения текста в электронный текст через его распознание и сохранение в нужном для пользователя формате электронного документа.

 

 

 

 

 

Изображение текста и текст

 

  • Письменный текст представляет собой последовательность знаков (букв, знаков пунктуации, специальных символов).

  • Для представления текста в компьютере его символы кодируются двоичными числами. Каждому символу ставится в соответствие, двоичное число, определенное конкретной кодировкой.

  • При сканировании, в памяти компьютера создается файл с графическим изображением, которое кодируется двоичными кодами цвето-яркостных характеристик пикселов, составляющий растр изображения.

  • Это может быть графическое изображение рисунка, текста, таблицы и т.п. Редактируется данное изображение в помощью инструментов графического редактора (кисти, ластика, заливок и т.п.).

  • Графическое изображение документа, поступившее в компьютер через сканер, нельзя редактировать в текстовом процессоре, пока оно не будет преобразовано в текст с помощью OCR.

  • Кроме того, графическое изображение текста является значительно более емким информационно (графическое изображение страницы текста занимает приблизительно около 1,5 МВ, распознанный текст без форматирования 2 КВ).

 

 

 

 

OCR используется:

 

1) при сканировании и фотографировании текстов.

2) для ввода больших объемов текстовой информации в компьютер (от 100 и более страниц в день).

3) для рукописного ввода текстовой информации в компьютер.

4) для преобразования одного формата в другой.

 

 

 

 

ABBYY PDF Transformer

 

29.05.2009 ABBYY выпустила ABBYY PDF Transformer 3.0 – универсальный инструмент для работы с PDF-файлами, который, .используя технологию OCR, преобразует PDF-файлы в форматы – MS Word, Excel, HTML и TXT, сохраняя оформление исходного документа — таблицы, картинки, расположение абзацев и т.д.

ABBYY PDF Transformer 3.0:

  • позволяет объединять несколько документов различного формата в один многостраничный PDF-файл

  • способен в 10 раз уменьшить размер документа для удобства пересылки и хранения благодаря использованию технологии MRC (одновременного сжатия текстов и изображений).

  • конвертирует текстовые документы и изображения в формат PDF/А для долговременного хранения с возможностью поиска информации в тексте файла.

  • позволяет выделять конфиденциальные участки документа и делать их невидимыми для других пользователей.

  • позволяет идентифицировать и помечать документы, добавляя знаки печати, копирайта, название компании, дату и время создания документа, «штампы» сквозной нумерации и другую информацию.

  • способен распознать и обработать документы на 184 языках на основе латинского, греческого, кириллического алфавитов, иврита, иероглифического письма и других систем письменности.

  • поддерживает основные приложения Microsoft Office (Word, Excel, PowerPoint, Visio).

  • способен (на основе технологии адаптивного распознавания документов ADRT) точно воссоздать структуру, расположение текста, таблицы и сложное форматирование многостраничных документов.

 

 

 

 

 

Алгоритмы оптического распознавания:

 

При распознавании OCR анализирует графический образ символа и выдвигает ряд гипотез, в соответствии с которыми этому образу присваивается текстовый эквивалент (коды изображений заменяются  машинными кодами букв). 

 

Популярны три основные технологии распознавания символов:

  • шаблонная (во входном изображении выделяются растровые изображения отдельных символов, сравниваются со всеми шаблонами, имеющимися в базе, выбирается шаблон с наименьшим количеством точек, отличных от входного изображения.  Шаблонные системы проще в реализации, устойчивы к дефектам изображения,  имеют высокую скорость обработки входных данных, но надежно распознают только те шрифты, шаблоны которых им известны),

  • структурная (объект описывается как граф, узлами которого являются элементы входного объекта, а дугами - пространственные отношения между ними. Структурные системы высоко чувствительны к графическим дефектам изображения, нарушающим составляющие элементы. Для этих систем, в отличие от шаблонных и признаковых, до сих пор не созданы эффективные автоматизированные процедуры обучения),

  • фонтанное преобразование (совмещает в себе достоинства шаблонной и структурной систем. Любой воспринимаемый объект рассматривается как целое, состоящее из частей, связанных между собой определенными отношениями).

 

В основе фонтанного преобразования лежит использование структурно-пятенного эталона с заданием:

  • обязательных, запрещенных и необязательных структурных элементов;

  • отношений между структурными элементами;

  • отношений структурных элементов с описывающим прямоугольником символа;

  • атрибутов выделения структурных элементов;

  • атрибутов проверки отношений между элементами;

  • атрибутовоценки качества элементов и отношений;

  • позиции начала выделение элемента.

 

Структурные элементы, выделяемые для класса изображений, могут быть исходными (пятна) и составными (отрезок, дуга, кольцо, точка и т.д.).

Использование составных структурных элементов позволяет строить иерархические описания классов распознаваемых объектов.

В качестве отношений используются связи между структурными элементами   (<длина больше>, <правее>, <соприкасается>).

При задании структурных элементов и отношений используются конкретизирующие параметры: диапазон допустимой ориентации отрезка, допустимое расстояние между характерными точками структурных элементов в отношении <соприкасается> и т.д..

Эталон накладывается на изображение, и отношения между выделенными на изображении пятнами сравниваются с отношениями пятен в эталоне. Если выделенные на изображении пятна и отношения между ними удовлетворяют эталону некоторого символа, то символ добавляется в список гипотез о результате распознавания входного изображения.

Благодаря этому система распознает тексты не только «хорошей» печати (книги, журналы), но и «плохой» печати (факсы, матричные принтеры и т.п.), работает не только с текстом, но и с формами, таблицами, распознает  рукописный текст.

 

 

 

 

Характеристики OCR

 

  • количество ошибок при вводе текста. Допустимой считается величина 10 ошибок на страницу.

  • требовательность к качеству исходного текста.

  • возможность исправления орфографических ошибок для повышения качества ввода.

  • поддержка различных языков

  • возможность обучения и настройки на особенности печатных шрифтов и рукописных текстов.

  • скорость распознавания. Желательно, чтобы оно было сопоставимо со временем ввода документа сканером.

 

 

 

 

Программы OCR

 

Наиболее известны такие пакеты, как FineReader, CuneiForm, OmniPage, TextBridge.

ABBYY FineReader - OCR для автоматического ввода текстов, таблиц, форм, анкет и т.п.

Победитель с 1995 года в конкурсах систем распознавания. Обеспечивает поточный ввод до 100 000 документов в сутки. Распознает рукописные буквы.

21.08.2011 Вышла ABBYY FineReader 11, в которой:

  • Скорость распознавания возросла на 30%
  • Свозможность сканировать бумажные книги и конвертировать их в форматы EPUB и FB2, которые широко используются для создания электронных книг.
  • Поддержка OpenOffice.org Writer (ODT), точно сохраняя исходное оформление и форматирование.
  • Улучшенное распознавание фотографий и новые инструменты для редактирования изображений
  • Три новых режима сохранения PDF-документов – Наилучшее качество, Небольшой размер и Сбалансированный режим
  • Новые языки распознавания - арабский, вьетнамский и туркменский (латиница)

 

ADRT (Adaptive Document Recognition Technology,  технология адаптивного распознавания документов уровня IDR (Intelligent Document Recognition). ADRT обеспечивает автоматическое определение элементов структуры документа (колонтитулов, сносок, подписей к картинкам и т.п.) и трансляции их на весь документ.

 

ABBYY Business Card Reader - мобильное приложение для распознавания визитных карточек, которое  автоматически распознает информацию с фотографии визитной карточки, создает новый контакт, записывает контактные данные и дополнительную информацию в нужные поля записной книжки.

ждународное издание PC Magazine удостоило «Best Soft 2009» («Лучший софт года») и «Editor’s Choice» («Выбор редакции») сразу 2 продукта ABBYY – программу для распознавания визитных карточек ABBYY Business Card Reader 2.0 и ABBYY FineReader 10 PE.

Американская редакция PC Magazine назвала ABBYY FineReader 10 Professional Edition лучшей программой для распознавания и создания редактируемых документов, когда-либо представленных на американском рынке!

 

 

 

 

 

FineReaderOnline.com

 

17.03.2010 На портала ABBYY Online, объединяющем все онлайн-сервисы компании появился сервис FineReader Online, с помощью которого можно распознавать и преобразовывать изображения и фотоснимки документов в текстовые форматы (позволяет бесплатно распознавать до 10 страниц в день).

 

15.07.2010 ABBYY запустила полнофункциональную версию онлайн-сервиса www.FineReaderOnline.com:

  • поддерживает 37 языков распознавания, в том числе русский и английский;

  • поддерживает все широко используемые графические форматы

  • способен обрабатывать многоязычные документы.

  • позволяет платить только за фактически обрабатываемое количество страниц

  • не имеет ограничений на количество обрабатываемых страниц

  • не требует установки какого-либо программного обеспечения

 

 

 

 

ABBYY Recognition Server

 

15.12.2009

ABBYY Recognition Server 3.0  -  серверное решение для автоматического распознавания изображений и конвертирования PDF-файлов.

Распознает в любых документах до 118 страниц в минуту на 190 языках.

 

ABBYY Recognition Server 3.0 состоит из 6 основных компонент:

  • Менеджер сервера управляет всеми компонентами, настройками обработки и очередью заданий;
  • Станция сканирования для работы с документами на этапе сканирования;
  • Станция обработки осуществляет процесс распознавания и конвертации изображений и PDF-файлов;
  • Станция верификации служит для визуальной проверки результатов распознавания;
  • Станция индексирования служит для присвоения документу атрибутов;
  • Консоль удаленного администрирования предоставляет общий интерфейс администрирования для настройки и контроля работы.

 

 

ABBYY Recognition Server 3.0 автоматически интегрируется с поисковыми серверами Google Search Appliance и Microsoft Office SharePoint Server, давая возможность выполнять полнотекстовый поиск по документам, хранящимся в виде изображений. 

 

 

 

 

ABBYY FotoTranslate

 

17.12. 2009  ABBYY FotoTranslate – программа перевода слов на снимках, сделанных фотокамерой смартфонов Nokia.

Слово на фото будет распознано, автоматически преобразовано в текст, программа найдёт его значение в словаре и выдаст перевод на экране.

Если часть слова не попала в кадр, ABBYY FotoTranslate предложит возможные варианты написания. Для фото текста, ABBYY FotoTranslate перевести все слова на снимке.

В основе ABBYY FotoTranslate ABBYY Mobile OCR Engine, которая создана на базе ABBYY FineReader и электронные словари ABBYY Lingvo.

не нужен доступ к внешней базе словарей.

ABBYY FotoTranslate поддерживает перевод с английского, немецкого, французского, итальянского, испанского языков на русский, с русского на указанные языки.

Екатерина Солнцева (директор департамента мобильных платформ ABBYY): ABBYY FotoTranslate  поможет людям чувствовать себя более комфортно в самых разных ситуациях, особенно при путешествиях в другие страны.

Цена  – 990 рублей. Поддерживаются смартфоны Nokia с Symbian® OS S60.

 

 

 

 

 

Языки ABBYY FineReader

 

ABBYY FineReader 11 поддерживает 189 языков распознавания.

Давид Ян (основатель и председатель совета директоров ABBYY):

Включение в ABBYY FineReader  дополнительных языков позволит расширить пользовательскую аудиторию системы на 2 миллиарда человек.

 

27.02.2009 Компания ABBYY открылв в Тайване девятый  международный офис в рамках стратегии продвижения компании в Юго-Восточной Азии и на Дальнем Востоке. Технологии уже более 10 лет используют тайваньские производители сканеров: Acer, NewSoft, Avision, BenQ, Plustek, Foxlink Image, Microtek, Mustek, Primax и Umax.

Всего OCR-технологиями компании ABBYY оснащено более 74 000 000 МФУ и сканеров (50% аппаратных устройств по всему миру).

 

 

 

 

Программы ICR

 

ABBYY FormReader - система ввода форм, заполненных от руки или на принтере, с применением технологии ICR (Intelligent Character Recognition).

80% всех документов, использующихся в бизнесе, – это формы.

С внедрением Intelligent Character Recognition время на ввод данных с бумажных форм уменьшается в 10 раз.

ABBYY FormReader

  • способен обрабатывать любые типы форм.

  • распознаёт текст, напечатанный на машинке или принтере, для 172 языков и написанный печатными буквами от руки для 90 языков, а также метки (пункты) и штрих-коды.

  • автоматически сортирует бланки.

  • Предлагает многоступенчатую технологию верификации, позволяющую подобрать оптимальный вариант проверки для каждого типа данных.

  • гарантирует корректное распознавание рукописных символов на уровне 98%.

  • обеспечивает качество данных при автоматизированном вводе форм на несколько порядков выше, чем при ручном вводе.

  • позволяет силами одного сотрудника вводить ежедневно до 1000 страниц.

 

 

 

 

Эволюция технологии распознавания образов

 

  • OCR (Optical Character Recognition) - и для распознавания печатных и раздельно написанных символов.

  • ICR (Intelligent Character Recognition) - системы для обработки форм, обеспечивающие ввод данных из документов на основе геометрических шаблонов

  • FPS (Forms Processing Systems) - системы для обработки форм, обеспечивающие ввод данных из документов с анализом структурированной информации.

  • IDR (Intelligent DocumentRecognition) для интеллектуального распознавания частично структурированных и неструктурированных документов, состоящих из частей, которые стыкуются по заданным в описании документа правилам. Формальная модель документов такого класса включает язык описания документа и алгоритмы анализа, которые обеспечивают идентификацию частей и контролируют выполнение связей между ними. IDR позволяет работать с документами, содержимое которых переходит со страницы на страницу.

 

 

 

В 2007 году компания Cognitive Technologies представила новое ядро распознавания Cognitive Forms 2007 для IDR-технологии CogniDocs.

Генеральный директор Cognitive Technologies, член-корреспондент РАН Владимир Львович Арлазаров:  появление IDR стало естественным шагом на пути развития технологий распознавания образов "от распознавания символов к пониманию документов".

 

 

29.12.2009 Компания Cognitive Technologies предоставила права использования за вознаграждение компании «Яндекс» синтаксический анализатор, который позволяет определить, какими синтаксическими отношениями связаны слова предложения. Его использование для больших корпусов текста позволяет определять и изучать статистические закономерности языка (встречаемость слов и конструкций) при разрешении неоднозначностей (например «ключ упал на пол» и «в камнях забил ключ»), возникающих во время синтаксического разбора, а также при построении статистических моделей языка для распознавания слитной речи.

Синтаксический анализатор позволяет проводить сравнение текстов на основе встречаемости в них различных слов и конструкций и разрабатывать методы понимания текстов, извлечения данных из текстов, а также другие приложения.

На основе синтаксического анализатора Cognitive Technologies создан ряд интеллектуальных программных продуктов, например системы определения авторства и стиля документа.

 

29.12.2009  Компания Cognitive Technologies показала свое умение решать классическую задачу "отличить кошку от собаки".

 

В 1967 году известный советский кибернетик Михаил Моисеевич Бонгард опубликовал книгу "Проблемы узнавания", посвященную проблемам теории распознавания образов.

В ней был "Задачник для узнающей программы" – перечень из сотни задач распознавания ("тесты Бонгарда") которые легко решаются человеком, но не имеют чётких критериев для их описания в виде алгоритма.

Одной из этих задач и было – "отличить кошку от собаки", задача, которую любой ребенок, даже ещё не научившийся говорить, решает с полувзгляда.

Если вы захотите поиграться в вопросы-ответы на эту тему, то быстро обнаружите, что любая черта, характерная для кошачьих (или, наоборот, собак), не может служить однозначным и стопроцентным критерием для отличия во всех случаях. Убираемые когти? Кошка может их выпустить в любой момент, но от этого мы её с собакой не перепутаем. Вертикальный зрачок? Кошку с зажмуренными глазами мы также легко отличаем. И так далее.

Представители Cognitive заранее предложили всем желающим принести изображения кошек и собак на флэшках, и на компьютере, установленном в холле гостиницы, где проходила пресс-конференция, демонстрировали работу программы. Ни одной ошибки сделано не было – программа уверенно (с соотношением 30:8) определяла собаку даже на фотографии лохматого шпица.

Демонстрация эта, по словам представителей компании, была лишь иллюстрацией к решению общей задачи классификации изображений. Пока не существует программ, с достаточной для практического применения уверенностью решающих даже простейшие задачи такого рода: например, выделить все женские портреты из некоторой галереи, или ещё проще – найти из всех картин только пейзажи.

Все реально работающие системы поиска и классификации изображений сводятся главным образом к анализу текстового контекста (как в поиске Google по картинкам), а если и пытаются что-то распознавать (Face SearchExalead и прочие), то по очень ограниченным критериям и с решительно недостаточной релевантностью результатов. Даже системы по элементарному поиску дубликатов одного и того же изображения нередко спотыкаются на простом изменении соотношения сторон при обрезке картинок. А про фиаско, которое потерпели системы выявления разыскиваемых лиц по изображениям, полученным от следящих видеокамер (вроде популярной некогда программы FaceIT), пресса писала неоднократно.

Переоценить последствия от нахождения общей методики распознавания изображений и отнесения их к одному из заданных классов сложно. Это переворот не только в обычном поиске по картинкам в Сети, но и в криминалистике, в научных приложениях (в геоинформационных системах, в биологии, в медицине), в военной области. Так что можно лишь пожелать компании всяческих успехов в этом направлении. Но заодно стоит и предостеречь от необоснованного оптимизма: как известно, и задачу машинного языкового перевода ещё полвека назад полагали почти что решённой. А как это работает на практике и по сей день, мы все хорошо знаем...

 

 

 

 

В 2008 году компания Cognitive Technologies открыла исходный код системы распознавания печатных текстов CuneiForm, которая с 2007 года распространяется бесплатно.

Это знаковое событие для развития движения OpenSouce и распространение свободных операционных систем среди конечных пользователей.

29.12.2009 Проект Cognitive OCR Cuneiform (http://www.cuneiform.ru) компании Cognitive Technologies назван лучшим групповым Open Source  проектом в России и включен в сборник «Свободное ПО для образования, науки и культуры" ЮНЕСКО.
Cognitive Open Source OCR Cuneiform – международный проект по развитию технологии оптического распознавания. В проекте принимают участие около 100 разработчиков из более, чем 30 стран.

 

 

 

 

Распознавание рукописных текстов

 

Одной из лучших программ распознавания рукописных текстов для мобильных устройств сегодня является PenReader.

PenReader - единственная в мире система, полноценно работающая с русским и белорусским (!) рукописным вводом на Pocket PC/Windows Mobile.

PenReader для качества распознавания рукописного ввода в  использует  500,000 различных образцов почерка.
PenReader  применяет графический и орфографический анализ.

PenReader в режиме динамического самообучения анализирует надежность распознавания и при необходимости выводит окно подсказки, содержащее возможные варианты ответов. Пользователю остается только подтвердить правильный вариант. Нескольких таких подтверждений (обычно 7-9) достаточно, чтобы система запомнила трудное или новое написание.