Оптическое распознавание текста

 

Преобразование pdf в графические файлы

 

Если в PDF-документе:

  • 2-3 страницы, то можно воспользоваться функцией PrintScreen.

  • много страниц, то можно воспользоваться программой StduViewer:

  • открыть PDF-документ в программе  StduViewer

  • меню Файл → Экспортировать → Как изображение...

  • в появившемся окне выбрать тип PNG, разрешение 300 dpi,

  • задать путь, куда выложить получившиеся файлы изображений

 

 

  1. Познакомиться с материалами о технологиях оптического распознавания.

  2. Познакомиться с материалом (можно посмотреть и видео).

  3. Запустить программу ABBYY Fine Reader и познакомиться с материалами ее справочной системы (смотри меню Справка)

  4. Заполнить таблицу на странице и сохранить ее как PDF-файл под именем Фамилия-OCR.

    Примечание: Таблицы заполняются непосредственно на web-странице, как сохранить: здесь.
     

  5. Познакомиться с форматом "djvu"(в соответствующем модуле на странице) и со статьей Андрея Анатольевича Зализняка "О понятии графемы" (ее открыть и прочесть можно с помощью djvu-вьювера, например DjVuReader.

  6. Заполнить таблицы (обе!) на странице и сохранить страницу как PDF-файл под  именем Фамилия-DJVU.

  7. На основе документа создать  PDF-документ Фамилия1 в котором слово "мы" Вами должно быть заменено на словосочетание "Фамилия и другие", где Ваша Фамилия будет выделена красным цветом, 14 кеглем).

Примечание1:
Для замены слова "мы" (не слога! а целого слова) необходимо воспользоваться регулярными выражениями определяющими начало и конец слова.
Для самых умных: в поле Найти вводим конструкцию
<(мы)>, в поле Заменить вводим "Фамилия и другие" и (именно для поля Заменить) устанавливаем необходимое форматирование (красный цвет, 14 кегль).
Повторяем для слова "Мы" (в котором используется заглавная буква, если словом, например, начинается предложение).

Примечание2: Варианты решения проблемы извлечения текста (невозможные и возможный):

  • можно попытаться скопировать содержимое из PDF-документа c помощью Adobe Acrobat и вставить в MS Word,

  • можно попытаться сохранить PDF-документ c помощью Adobe Acrobat как MS Word.

  • можно попытаться открыть документ Фамилия-OCR в ABBYY FineReader, распознать документ и сохранить его как MS Word Фамилия-FR

  • нужно делать экранные копии частей документа и распознавать их в FineReader... сохранять как документ Microsoft Word, редактировать, заполнять свойства документа  согласно образца  и сохранять как PDF

  1. На основе документа создать PDF-документ Фамилия2  с заполненными свойствами согласно  образца, в котором:

    • весь текст оригинала будет произвольно отформатирован (с использованием различных гарнитур, кеглей, выделений цветом и т.п.)

    • который будет дополнен аннотационным переводом (кратким пересказом смысла) на русский язык (перевод можно выполнить с помощью PROMT или любого сервиса переводов) с указанием Ваших ФИО (как переводчика).

  2. На основе документа создать PDF-документ Фамилия3 с заполненными свойствами согласно  образца (задание см. в самом документе)

  3. Удалить из программы ABBYY FineReader все созданные Вами страницы!

  4. Подготовить и отослать письмо, в котором:

  • Фамилия-OCR

  • Фамилия-DJVU

  • Фамилия1

  • Фамилия2

  • Фамилия3

  • отзыв (строго по форме)