Оптическое распознавание
текста
|
Преобразование pdf в графические файлы
Если в PDF-документе:
-
2-3 страницы, то можно воспользоваться
функцией PrintScreen.
-
много страниц, то
можно воспользоваться программой StduViewer:
-
открыть PDF-документ
в программе StduViewer
-
меню Файл → Экспортировать
→ Как изображение...
-
в появившемся окне выбрать тип PNG,
разрешение 300 dpi,
-
задать
путь, куда выложить получившиеся файлы изображений
|
-
Познакомиться с
материалами о технологиях оптического
распознавания.
-
Познакомиться с
материалом (можно посмотреть и
видео).
-
Запустить программу
ABBYY Fine Reader
и познакомиться с материалами ее справочной системы (смотри меню
Справка)
-
Заполнить таблицу на
странице и сохранить ее как PDF-файл
под именем
Фамилия-OCR.
Примечание:
Таблицы заполняются непосредственно на
web-странице,
как сохранить:
здесь.
Познакомиться с форматом "djvu"(в
соответствующем модуле на
странице) и со
статьей
Андрея Анатольевича Зализняка "О
понятии графемы" (ее открыть и прочесть
можно с помощью djvu-вьювера, например
DjVuReader.
Заполнить таблицы (обе!) на
странице и сохранить страницу как PDF-файл
под именем
Фамилия-DJVU.
На основе
документа создать PDF-документ
Фамилия1
в котором слово "мы"
Вами должно быть заменено на словосочетание "Фамилия и другие", где Ваша Фамилия
будет выделена красным цветом, 14 кеглем).
Примечание1:
Для замены слова
"мы"
(не слога! а целого слова) необходимо воспользоваться регулярными
выражениями определяющими начало и конец слова.
Для самых умных:
в поле
Найти вводим конструкцию
<(мы)>, в
поле Заменить вводим "Фамилия и другие" и
(именно для поля Заменить) устанавливаем необходимое форматирование
(красный цвет, 14 кегль).
Повторяем для слова "Мы" (в котором
используется заглавная буква, если словом, например, начинается
предложение).
Примечание2:
Варианты решения проблемы
извлечения текста
(невозможные и возможный):
скопировать содержимое из PDF-документа c помощью
Adobe Acrobat и вставить в
MS Word,
можно попытаться
сохранить PDF-документ
c помощью Adobe Acrobat как
MS Word.
можно
попытаться открыть документ
Фамилия-OCR
в ABBYY FineReader, распознать документ и
сохранить его как MS Word
Фамилия-FR
нужно делать экранные копии частей документа и распознавать их в
FineReader...
сохранять как документ Microsoft Word,
редактировать, заполнять свойства документа
согласно
образца
и
сохранять как
PDF
На основе
документа
создать
PDF-документ
Фамилия2
с
заполненными свойствами согласно
образца,
в котором:
который
будет дополнен аннотационным переводом
(кратким пересказом смысла)
на русский язык (перевод можно выполнить с
помощью
PROMT или любого сервиса переводов)
с указанием Ваших ФИО (как переводчика).
На основе
документа
создать
PDF-документ
Фамилия3
с заполненными свойствами согласно
образца
(задание см. в самом документе)
Удалить из программы
ABBYY FineReader
все созданные Вами страницы!
Подготовить
и отослать письмо, в котором:
Фамилия-OCR
Фамилия-DJVU
Фамилия1
Фамилия2
Фамилия3
отзыв (строго по
форме)
|
|