Оптическое_распознавание_текста

 

 

 

 

OCR (Optical Character Recognition) - технология преобразования графического изображения текста в компьютерный текст на основе распознавания графических образов.

OCR (Optical Character Recognition) - компьютерная программа перевода графического изображения текста в электронный текст через его распознание и сохранение в нужном для пользователя формате электронного документа.

 

 

 

 

Изображение текста и текст

 

  • Письменный текст представляет собой последовательность знаков (букв, знаков пунктуации, специальных символов).

  • Для представления текста в компьютере его символы кодируются двоичными числами. Каждому символу ставится в соответствие, двоичное число, определенное конкретной кодировкой.

  • При сканировании, в памяти компьютера создается файл с графическим изображением, которое кодируется двоичными кодами цвето-яркостных характеристик пикселов, составляющий растр изображения.

  • Это может быть графическое изображение рисунка, текста, таблицы и т.п. Редактируется данное изображение в помощью инструментов графического редактора (кисти, ластика, заливок и т.п.).

  • Графическое изображение, поступившее в компьютер через сканер, для полноценной текстовой обработки должно быть преобразовано в текст с помощью OCR.

  • Кроме того, графическое изображение текста является значительно более емким информационно (графическое изображение страницы текста занимает приблизительно около 1,5 МВ, распознанный текст без форматирования 2 КВ).

 

 

 

Преобразование pdf в графические файлы

 

  • Если в PDF-документе 2-3 страницы, то можно воспользоваться функцией PrintScreen.

  • Если в PDF-документ многостраничный можно воспользоваться программой StduViewer:

  • открыть PDF-документ в программе  StduViewer

  • меню Файл → Экспортировать → Как изображение...

  • в появившемся окне выбрать тип PNG, разрешение 300 dpi,

  • задать путь, куда выложить получившиеся файлы изображений

 

 

 

OCR используется:

 

  • при сканировании и фотографировании текстов.

  • для ввода больших объемов текстовой информации в компьютер (от 100 страниц в день).

  • для рукописного ввода текстовой информации в компьютер.

  • для преобразования одного формата в другой.

 

 

Алгоритмы оптического распознавания:

 

При распознавании OCR анализирует графический образ символа и выдвигает ряд гипотез, в соответствии с которыми этому образу присваивается текстовый эквивалент (коды изображений заменяются  машинными кодами букв). 

 

Основные алгоритмические технологии распознавания символов:

  • шаблонная (во входном изображении выделяются растровые изображения отдельных символов, сравниваются со всеми шаблонами, имеющимися в базе, выбирается шаблон с наименьшим количеством точек, отличных от входного изображения.  Шаблонные системы проще в реализации, устойчивы к дефектам изображения,  имеют высокую скорость обработки входных данных, но надежно распознают только те шрифты, шаблоны которых им известны),

  • структурная (объект описывается как граф, узлами которого являются элементы входного объекта, а дугами - пространственные отношения между ними. Структурные системы высоко чувствительны к графическим дефектам изображения, нарушающим составляющие элементы. Для этих систем, в отличие от шаблонных и признаковых, до сих пор не созданы эффективные автоматизированные процедуры обучения),

  • фонтанное преобразование (совмещает в себе достоинства шаблонной и структурной систем. Любой воспринимаемый объект рассматривается как целое, состоящее из частей, связанных между собой определенными отношениями).распознавание на основе обучаемых нейронных сетей

 

В основе фонтанного преобразования лежит использование структурно-пятенного эталона с заданием:

  • обязательных, запрещенных и необязательных структурных элементов;

  • отношений между структурными элементами;

  • отношений структурных элементов с описывающим прямоугольником символа;

  • атрибутов выделения структурных элементов;

  • атрибутов проверки отношений между элементами;

  • атрибутовоценки качества элементов и отношений;

  • позиции начала выделение элемента.

 

Структурные элементы, выделяемые для класса изображений, могут быть исходными (пятна) и составными (отрезок, дуга, кольцо, точка и т.д.).

Использование составных структурных элементов позволяет строить иерархические описания классов распознаваемых объектов.

В качестве отношений используются связи между структурными элементами   (<длина больше>, <правее>, <соприкасается>).

При задании структурных элементов и отношений используются конкретизирующие параметры: диапазон допустимой ориентации отрезка, допустимое расстояние между характерными точками структурных элементов в отношении <соприкасается> и т.д..

Эталон накладывается на изображение, и отношения между выделенными на изображении пятнами сравниваются с отношениями пятен в эталоне. Если выделенные на изображении пятна и отношения между ними удовлетворяют эталону некоторого символа, то символ добавляется в список гипотез о результате распознавания входного изображения.

Благодаря этому система распознает тексты не только «хорошей» печати (книги, журналы), но и «плохой» печати (факсы, матричные принтеры и т.п.), работает не только с текстом, но и с формами, таблицами, распознает  рукописный текст.

 

Всё большееспространение получает распознавание с помощью обучаемых нейронных сетей (не являющееся алгоритмической технологией)

 

 

 

Нейросетевые модели оптического распознавания

 

Всё чаще в задачах OCR применяются нейронные сети.

Нейронная сеть для распознавания отдельных символов, обычно представляет собой набор свёрточных и полносвязных слоёв, с помощью которого из входного изображения формируется вектор вероятностей принадлежности каждому конкретному классу. При этом число классов совпадает с размером алфавита.

Во время обучения нейронной сети подают изображения реальных символов и учат её возвращать высокую вероятность для правильного класса символа.

Нейронные сети очень хорошо они зарекомендовали себя в первую очередь для сложных видов письменности.

 

 

 

 

Характеристики OCR

 

  • количество ошибок при вводе текста. Допустимой считается величина 10 ошибок на страницу.

  • требовательность к качеству исходного текста.

  • возможность исправления орфографических ошибок для повышения качества ввода.

  • поддержка различных языков

  • возможность обучения и настройки на особенности печатных шрифтов и рукописных текстов.

  • скорость распознавания. Желательно, чтобы оно было сопоставимо со временем ввода документа сканером.

 

 

 

Программы OCR

 

Наиболее известны такие пакеты, как FineReader, CuneiForm, OmniPage, TextBridge.

ABBYY FineReader - OCR для автоматического ввода текстов, таблиц, форм, анкет и т.п.

Победитель с 1995 года в конкурсах систем распознавания.

Обеспечивает поточный ввод до 100 000 документов в сутки. Распознает рукописные буквы.

24.01.2017 Вышла ABBYY FineReader 14 (https://www.abbyy.com/ru-ru/finereader/)

 

 

 

 

Распознать почерк врача

 

01.04.2014 ABBYY добавила в ABBYY FineReader новые эталоны, позволяющие распознавать медицинский почерк.

Благодаря дополнительному модулю MedText пользователям FineReader не придется больше самостоятельно расшифровывать выписанные врачами рецепты или направления на лечение: достаточно отсканировать бумажную версию документа и распознать ее с помощью программы.

В 12-ой версии FineReader мы значительно улучшили распознавание сложного арабского языка, и использованные при этом подходы помогли нам в работе с  почерком врачей».

Арабская письменность выглядит для людей, не знающих язык, как сложная последовательность связанных элементов: зачастую визуально довольно сложно выделить в словах отдельные буквы. Поэтому для распознавания арабского языка традиционно применяется подход, при котором распознаются не отдельные символы, а слова целиком. Схожие проблемы обычно возникают и при попытке разобрать почерк врачей, поэтому опыт распознавания языков со сложной письменностью был крайне полезен при создании ABBYY FineReader MedText.

Система распознавания медицинских текстов основана на вероятностных графических моделях (PGM), байесовских сетях (BN) и скрытых марковских моделях (HMM). ABBYY FineReader распознает почерк врача большими блоками. В наиболее сложных случаях программа обрабатывает целые строки как один объект распознавания, превращая изображение в граф вероятностных состояний, из которых потом кристаллизуется осмысленный текст.

При создании модуля MedText компания ABBYY впервые применила новую разработку – Метод детектирования внутренней логики письма. С его помощью можно определить, какие из завитушек в строке соответствуют реальным буквам, а какие были добавлены врачом для красоты.

Настоящим прорывом стала Система расшифровки врачебных сокращений. Вклад в ее создание сделали практически все сотрудники ABBYY, а также пользователи программ компании, когда-либо бравшие больничный или получавшие от врачей рецепты. Все их справки и направления были тщательно проанализированы лингвистами. Благодаря этой работе

Система расшифровки врачебных сокращений, применяемая в ABBYY FineReader, позволяет не только перевести рецепт в читаемый текст, но и объясняет пользователю, что же все-таки имел в виду врач.

ABBYY работает над мобильной версией ABBYY FineReader MedText, чтобы пользователи могли распознавать выписанные рецепты сразу после выхода из кабинета врача.

C 1 апреля!

26.12.2020  Первое место на AI Journey 2020 Digital Петр (распознавание рукописей Петра I)

 

 

 

 

FineReaderOnline.com

 

15.07.2010 ABBYY запустила полнофункциональную версию онлайн-сервиса www.FineReaderOnline.com:

  • поддерживает 37 языков распознавания, в том числе русский и английский;

  • поддерживает все широко используемые графические форматы

  • способен обрабатывать многоязычные документы.

  • позволяет платить только за фактически обрабатываемое количество страниц

  • не имеет ограничений на количество обрабатываемых страниц

  • не требует установки какого-либо программного обеспечения

 

 

 

 

ABBYY Recognition Server

 

15.12.2009

ABBYY Recognition Server  -  серверное решение для автоматического распознавания изображений и конвертирования PDF-файлов.

Распознает в любых документах до 118 страниц в минуту на 190 языках.

 

 

 

 

 

 

 

 

 

Языки ABBYY FineReader

 

ABBYY FineReader 11 поддерживает 189 языков распознавания.

Давид Ян (основатель и председатель совета директоров ABBYY):

Включение в ABBYY FineReader  дополнительных языков позволит расширить пользовательскую аудиторию системы на 2 миллиарда человек.

 

27.02.2009 Компания ABBYY открылв в Тайване девятый  международный офис в рамках стратегии продвижения компании в Юго-Восточной Азии и на Дальнем Востоке. Технологии уже более 10 лет используют тайваньские производители сканеров: Acer, NewSoft, Avision, BenQ, Plustek, Foxlink Image, Microtek, Mustek, Primax и Umax.

Всего OCR-технологиями компании ABBYY оснащено более 74 000 000 МФУ и сканеров (50% аппаратных устройств по всему миру).

 

 

 

ABBYY PDF Transformer

 

ABBYY выпустила ABBYY PDF Transformer – инструмент для работы с PDF-файлами, который, используя технологию OCR, преобразует PDF-файлы в форматы – MS Word, Excel, HTML и TXT сохраняя оформление исходного документа — таблицы, картинки, расположение абзацев и т.д.

ABBYY PDF Transformer:

  • позволяет объединять несколько документов различного формата в один многостраничный PDF-файл

  • способен в 10 раз уменьшить размер документа для удобства пересылки и хранения благодаря использованию технологии MRC (одновременного сжатия текстов и изображений).

  • конвертирует текстовые документы и изображения в формат PDF/А для долговременного хранения с возможностью поиска информации в тексте файла.

  • позволяет выделять конфиденциальные участки документа и делать их невидимыми для других пользователей.

  • позволяет идентифицировать и помечать документы, добавляя знаки печати, копирайта, название компании, дату и время создания документа, «штампы» сквозной нумерации и другую информацию.

  • способен распознать и обработать документы на 184 языках на основе латинского, греческого, кириллического алфавитов, иврита, иероглифического письма и других систем письменности.

  • поддерживает основные приложения Microsoft Office (Word, Excel, PowerPoint, Visio).

  • способен (на основе технологии адаптивного распознавания документов ADRT) точно воссоздать структуру, расположение текста, таблицы и сложное форматирование многостраничных документов.

 

 

 

 

Программы ICR

 

ABBYY FormReader - система ввода форм, заполненных от руки или на принтере, с применением технологии ICR (Intelligent Character Recognition).

80% всех документов, использующихся в бизнесе, – это формы.

С внедрением Intelligent Character Recognition время на ввод данных с бумажных форм уменьшается в 10 раз.

ABBYY FormReader

  • способен обрабатывать любые типы форм.

  • распознаёт текст, напечатанный на машинке или принтере, для 172 языков и написанный печатными буквами от руки для 90 языков, а также метки (пункты) и штрих-коды.

  • автоматически сортирует бланки.

  • Предлагает многоступенчатую технологию верификации, позволяющую подобрать оптимальный вариант проверки для каждого типа данных.

  • гарантирует корректное распознавание рукописных символов на уровне 98%.

  • обеспечивает качество данных при автоматизированном вводе форм на несколько порядков выше, чем при ручном вводе.

  • позволяет силами одного сотрудника вводить ежедневно до 1000 страниц.

 

 

 

 

Эволюция технологии распознавания образов

 

  • OCR (Optical Character Recognition) - и для распознавания печатных и раздельно написанных символов.

  • ICR (Intelligent Character Recognition) - системы для обработки форм, обеспечивающие ввод данных из документов на основе геометрических шаблонов

  • FPS (Forms Processing Systems) - системы для обработки форм, обеспечивающие ввод данных из документов с анализом структурированной информации.

  • IDR (Intelligent DocumentRecognition) для интеллектуального распознавания частично структурированных и неструктурированных документов, состоящих из частей, которые стыкуются по заданным в описании документа правилам. Формальная модель документов такого класса включает язык описания документа и алгоритмы анализа, которые обеспечивают идентификацию частей и контролируют выполнение связей между ними. IDR позволяет работать с документами, содержимое которых переходит со страницы на страницу.

 

 

 

OCR из видеопотока

 

Видеопоток – это последовательность кадров, получаемых с камеры устройства (то, что мы видим на экране смартфона, когда запускаем стандартное приложение «Камера»).

Кадр видеопотока качество ниже фотографии: разрешение (dpi) кадра меньше, изображение чаще расфокусировано и смазано, также присутствует цифровой шум.

Это делает задачу распознавания видеопотока значительно сложнее, чем распознавание фотографии.

Для обработки кадров общего вида приходится прибегать к сложным алгоритмам, использовать специальный классификатор объектов, обученный на пакетах изображений вывесок и уличных знаков. Классификатор позволяет понять, есть ли на изображении буквы и строки, отделяет их от мусора.

Подобный механизм хорошо описан в статье: http://www.comp.nus.edu.sg/~cs4243/projects/text_natural_scene.pdf

 

 

 

Naptha: OCR в браузере

 

Naptha (http://projectnaptha.com/)  — расширение для браузера Chrome (или Yandex), которое автоматически распознаёт текст на всех картинках, загружаемых в браузер.

Naptha для копирования текста с отсканированных документов, фотографий, постеров, диаграмм, графиков, скриншотов и даже комиксов.

Распознанный с помощью расширения Naptha текст можно редактировать, выделять, копировать и переводить.

Разработчики говорят, что используемый в расширении алгоритм Stroke Width Transform способы распознавать в качестве текста даже бессвязные загогулины.

Naptha работает для любых файлов, в том числе картинок на HDD: нужно просто перетащить нужное изображение в окно браузера.

 

 

 

 

PassportVision — распознавание документов

 

PassportVision

 

 

 

 

В 2007 году компания Cognitive Technologies представила новое ядро распознавания Cognitive Forms 2007 для IDR-технологии CogniDocs.

Генеральный директор Cognitive Technologies, член-корреспондент РАН Владимир Львович Арлазаров:  появление IDR стало естественным шагом на пути развития технологий распознавания образов "от распознавания символов к пониманию документов".

 

29.12.2009 Компания Cognitive Technologies предоставила права использования за вознаграждение компании «Яндекс» синтаксический анализатор, который позволяет определить, какими синтаксическими отношениями связаны слова предложения. Его использование для больших корпусов текста позволяет определять и изучать статистические закономерности языка (встречаемость слов и конструкций) при разрешении неоднозначностей (например «ключ упал на пол» и «в камнях забил ключ»), возникающих во время синтаксического разбора, а также при построении статистических моделей языка для распознавания слитной речи.

Синтаксический анализатор позволяет проводить сравнение текстов на основе встречаемости в них различных слов и конструкций и разрабатывать методы понимания текстов, извлечения данных из текстов, а также другие приложения.

На основе синтаксического анализатора Cognitive Technologies создан ряд интеллектуальных программных продуктов, например системы определения авторства и стиля документа.

 

29.12.2009  Компания Cognitive Technologies показала свое умение решать классическую задачу "отличить кошку от собаки".

 

В 1967 году известный советский кибернетик Михаил Моисеевич Бонгард опубликовал книгу "Проблемы узнавания", посвященную проблемам теории распознавания образов.

В ней был "Задачник для узнающей программы" – перечень из сотни задач распознавания ("тесты Бонгарда") которые легко решаются человеком, но не имеют чётких критериев для их описания в виде алгоритма.

Одной из этих задач и было – "отличить кошку от собаки", задача, которую любой ребенок, даже ещё не научившийся говорить, решает с полувзгляда.

Если вы захотите поиграться в вопросы-ответы на эту тему, то быстро обнаружите, что любая черта, характерная для кошачьих (или, наоборот, собак), не может служить однозначным и стопроцентным критерием для отличия во всех случаях. Убираемые когти? Кошка может их выпустить в любой момент, но от этого мы её с собакой не перепутаем. Вертикальный зрачок? Кошку с зажмуренными глазами мы также легко отличаем. И так далее.

Представители Cognitive заранее предложили всем желающим принести изображения кошек и собак на флэшках, и на компьютере, установленном в холле гостиницы, где проходила пресс-конференция, демонстрировали работу программы. Ни одной ошибки сделано не было – программа уверенно (с соотношением 30:8) определяла собаку даже на фотографии лохматого шпица.

Демонстрация эта, по словам представителей компании, была лишь иллюстрацией к решению общей задачи классификации изображений. Пока не существует программ, с достаточной для практического применения уверенностью решающих даже простейшие задачи такого рода: например, выделить все женские портреты из некоторой галереи, или ещё проще – найти из всех картин только пейзажи.

Все реально работающие системы поиска и классификации изображений сводятся главным образом к анализу текстового контекста (как в поиске Google по картинкам), а если и пытаются что-то распознавать (Face SearchExalead и прочие), то по очень ограниченным критериям и с решительно недостаточной релевантностью результатов. Даже системы по элементарному поиску дубликатов одного и того же изображения нередко спотыкаются на простом изменении соотношения сторон при обрезке картинок. А про фиаско, которое потерпели системы выявления разыскиваемых лиц по изображениям, полученным от следящих видеокамер (вроде популярной некогда программы FaceIT), пресса писала неоднократно.

Переоценить последствия от нахождения общей методики распознавания изображений и отнесения их к одному из заданных классов сложно. Это переворот не только в обычном поиске по картинкам в Сети, но и в криминалистике, в научных приложениях (в геоинформационных системах, в биологии, в медицине), в военной области. Так что можно лишь пожелать компании всяческих успехов в этом направлении. Но заодно стоит и предостеречь от необоснованного оптимизма: как известно, и задачу машинного языкового перевода ещё полвека назад полагали почти что решённой. А как это работает на практике и по сей день, мы все хорошо знаем...

 

 

 

 

В 2008 году компания Cognitive Technologies открыла исходный код системы распознавания печатных текстов CuneiForm, которая с 2007 года распространяется бесплатно.

Это знаковое событие для развития движения OpenSouce и распространение свободных операционных систем среди конечных пользователей.

29.12.2009 Проект Cognitive OCR Cuneiform (http://www.cuneiform.ru) компании Cognitive Technologies назван лучшим групповым Open Source  проектом в России и включен в сборник «Свободное ПО для образования, науки и культуры" ЮНЕСКО.
Cognitive Open Source OCR Cuneiform – международный проект по развитию технологии оптического распознавания. В проекте принимают участие около 100 разработчиков из более, чем 30 стран.

 

 

 

 

Распознавание рукописных текстов

 

Одной из лучших программ распознавания рукописных текстов для мобильных устройств сегодня является PenReader.

PenReader - единственная в мире система, полноценно работающая с русским и белорусским (!) рукописным вводом на Pocket PC/Windows Mobile.

PenReader для качества распознавания рукописного ввода в  использует  500,000 различных образцов почерка.
PenReader  применяет графический и орфографический анализ.

PenReader в режиме динамического самообучения анализирует надежность распознавания и при необходимости выводит окно подсказки, содержащее возможные варианты ответов. Пользователю остается только подтвердить правильный вариант. Нескольких таких подтверждений (обычно 7-9) достаточно, чтобы система запомнила трудное или новое написание.

 

 

 

 

Online Сервис Распознавания Текста

 

http://www.onlineocr.ru/Default.aspx

 

 

 

Judging a book through its cover

 

http://news.mit.edu/2016/computational-imaging-method-reads-closed-books-0909

https://www.youtube.com/watch?v=6i25SuJzb0A

 

 

 

«Весь Толстой в один клик»: как мы это делали

http://habrahabr.ru/company/abbyy/blog/264119/