Локальный информационный поиск

 

 

 

Стандартная комбинация клавиш:  Ctrl + F вызывает функцию поиска практически во всех прикладных программах, где она возможна и реализована.

 

 

Типы информационного поиска:

  • локальный (в документе, в файловой системе носителя информации, в компьютерной локальной сети);

  • глобальный (интернет-поиск).

 

 

Поиск по документу в MS Word

 

В прикладных программах существует возможность поиска по документу.

В MS Word это команда Найти... (на ленте Главная):

Результаты простого поиска отображаются на панели Навигация в трех режимах:

Просмотр заголовков

Просмотр страниц

Просмотр результатов

 

Расширенный поиск позволяет искать в различных структурных частях документа (основной документ, колонтитулы, сноски) и, нажатие кнопки Больше вызывать настройки параметров поиска:

 

 

Параметры поиска в режиме Больше скрываются за кнопками Формат и Специальный:

 

 

Для описания сложных условий поиска используются подстановочные знаки:

  • "?" ставится вместо одного символа. Например, введите «к?т», чтобы найти «кот» и «кит»).

  • "*" вместо произвольного числа символов.

 

 

 

 

Поиск и замена в MS Word

 

В MS Word существует возможность замены найденного (команда Заменить...)

Для замены текста:

  • Выберите команду Заменить.

  • В поле Найти введите искомый текст.

  • В поле Заменить введите текст для замены.

  • Нажмите кнопку Найти далее (или Заменить или Заменить все).

 Важно учитывать заданный формат того что собираетесь заменять! 

 

Замена может быть произведена с учетом различных настроек (параметры шрифта, направление от курсора и т.п.):

 

 

 

 

 

Поиск в браузерах

 

В браузерах  это команда Найти... или Найти на странице (или Ctrl+F).

Например, в Google Chrome найденный фрагмент отмечается по тексту и на линейке прокрутки, ведется учет числа найденных фрагментов и порядковый номер выделенного:

 

 

В программе просмотра PDF-документов Adobe Reader это команды меню Edit (Правка) или Ctrl+F).

 

В  Total Commander (Меню Инструменты / Поиск файлов) можно искать текст в файлах Word или Excel. Надо указать шаблон (например, *.doc *.doсx или *.xls), вписать нужный текст и поставить галочку Unicode.

 

 

Поиск в PDF

 

В программе просмотра PDF-документов Adobe Reader X поиск вызывается командой Найти из меню Редактирование или Ctrl+F.

Поиск может быть произведен с настройкой основных параметров (как в документе, так и во всех документах избранного каталога) :

 

Поиск может быть произведен с настройкой расширенных параметров (только в избранном документе):

 

 

 

 

 

Поиск в Total Commander

 

В  Total Commander (Меню Инструменты / Поиск файлов) можно искать текст в файлах Word или Excel. Надо указать шаблон (например, *.doc *.doсx или *.xls), вписать нужный текст и поставить галочку Unicode.

 

 

 

Прямой поиск  документов

 

Современные персональные компьютеры хранят на своих жестких дисках миллионы файлов.

Чем больше объем винчестера, тем сложнее найти на нем именно тот документ и ту информацию, которые нужны в данный момент.

Существует два основных метода поиска документов:

  • прямой поиск;

  • индексный поиск.

Прямой поиск предполагает перебор всех файлов и осуществляется с помощью встроенных инструментов операционной системы для разыскивания файлов по их именам, атрибутам или содержимому документов.

Прямой поиск занимает продолжительное (иногда, недопустимо большое) время.

 

 

 

 

 

 

Поисковый индекс

 

 

Поисковый индекс - это некоторая структура данных, позволяющая уменьшить время, необходимое для поиска в каком-то хранилище данных заданной последовательности символов.

Линейное время поиска -  время, требуемое для поиска некоторого элемента в хранилище данных по заданному запросу и пропорциональное количеству элементов в данном хранилище.

Сублинейное время поиска - время быстрого поиска в хранилище структурированных данных. 

Структуры данных в современных поисковых системах, позволяют добиться скорости поиска, пропорциональной логарифму количества элементов в наборе данных, по которому ведётся поиск. Есть и более быстрые структуры, позволяющие добиваться скорости поиска, практически не зависящей от количества данных.

Полнотекстовый поисковый индекс включает в себя перечень всех слов, встречающихся в проиндексированных документах, и указание мест, в которых данные слова встречаются.

 

 

 

Индексный поиск  документов

 

 

Альтернатива прямого поиска — поиск с использованием предварительно составленного индекса (интернет-поиск).

 

Особенности локального индексного поиска:

  • Работа с документами самых разных форматов, архивов, мультимедийных библиотек и т.п.

  • Полнота индекса (учет всех соответствующих запросу документов, хранящихся на локальных дисках компьютера и внешних носителях: DVD, флэш-память и т.д.).

  • Интеграция в локальные приложения.

  • Поиск с учетом синонимов

  • Сложный анализ текста и поиск  по фразам

Индексный поиск документов реализован:

  • службой индексирования операционной системы;

  • специализированных системах локального поиска.

Каталоги индекса могут занимать гигабайты памяти компьютера!

 

Служба индексирования  извлекает сведения из набора документов и собирает их в структуру, обеспечивающую быстрый доступ к этим сведениям с помощью команды поиска.

 

Эти сведения могут включать текст (содержимое) документа, характеристики и параметры (свойства) документа.

 

После создания индекса можно искать в нем документы, содержащие ключевые слова, фразы или свойства.

 

Все данные индекса автоматически сохраняются службой индексирования в каталогах System и Web.

 

Служба индексирования выполняет индексирование документов различных типов:

  • HTML;

  • текст;

  • Microsoft Office ;

  • почты и новостей;

Служба индексирования работает непрерывно, незаметно для пользователя и не нуждается в обслуживании.

 

 

 

 

 

Системы локального поиска

 

 

Системы (для домашнего использования):

  • Персональный поиск Яндекса

  • Архивариус 3000

  • Copernic Desktop Search;

  • Google Desktop Search с GDE Enterprise

  • DVYGUN Smart Search

  • MS Windows Search

 

Системы корпораьтивного локального поиска:

  • dtSearch Desktop

  • iSYS Desktop

  • DVYGUN Smart Search Enterprise Edition

  • SearchInform Desktop Professional

  • Microsoft SharePoint

 

 

 

 

Архивариус 3000

 

 

Архивариус 3000  – программа поиска документов и почтовых сообщений в компьютере, в локальной сети и в съёмных дисках.

 

Основные возможности Архивариус 3000:

  • Мгновенный полнотекстовой поиск документов и почты.

  • Смысловой поиск с морфологией на 18 языках (в том числе белорусском).

  • Поддерживаются локальная сеть и съёмные диски (CD, DVD и прочие).

  • Поддержка более 400 форматов от MS Office и PDF до LEX, и W&D (Слово и дело).

  • Поиск во всех распространенных типах архивов (начиная от ZIP и RAR, и заканчивая ARJ и ZOO. Архивариус 3000 умеет распаковывать архивы без использования внешних архиваторов).

  • Поиск почтовых сообщений Outlook, Outlook Express, MS Exchange, The Bat! и других.

  • Поиск в базах данных Lotus Notes и Lotus Domino.

  • Серверный режим и доступ из дома к рабочим документам через Интернет.

  • Полностью поддерживается Unicode и более 100 кодировок (все европейские, все кириллические, все греческие, китайские, японские, корейские. Поддерживаются даже очень редкие кодировки: казахские, армянские, грузинские, тайские, тибетские и другие).


Демо-версию Архивариус 3000 можно загрузить по адресу: http://www.likasoft.com/download/arch3000.x32.exe

 

 

 

 

 

SearchInform Desktop Professional

 

 

SearchInform Desktop Professional - профессиональная программа полнотекстового поиска документов на персональном компьютере.

 

SearchInform поддерживает индексацию электронных писем, подключение и индексацию баз данных и других внешних источников.

Для работы с сетью предлагаются клиент-серверная архитектура и политика настройки доступа к проиндексированным документам.

 

Основные возможности:

  • морфологический и цитатный поиск,

  • логические операции,

  • поиск с синтаксическим разбором слова (по началу слова, его окончанию, по средней части либо полное совпадение)

  • смешанный цитатный поиск (все слова из запроса должны присутствовать в документе, но не обязательно во введенном порядке)

  • поиск с коррекцией ошибок, использование синонимов и т.д.

  • применение словаря незначимых слов (в программе уже есть их готовый список) и использовать для поиска словарь приоритетных слов.

  • поиск документов, похожих по своему содержимому на текст запроса.

Тестирование:

 

SearchInform проиндексировала тестовую базу (документы в форматах DOC, TXT и HTML размером около 20 Гбайт) за 3 часа 17 минут, создав индексный файл размером 4,4 Гбайт.

Компьютер: процессор Athlon/2,2 ГГц, оперативная память 1 Гбайт, IDE-диск Seagate на 160 Гбайт под управлением ОС Windows XP.

 

 

 

 

 

Аппаратные решения корпоративного поиска

 

10.10.2007 Компания Google представила пятое поколение аппаратных поисковиков Search Appliance, ориентированных на крупные корпорации и правительственные организации.

Search Appliance способны работать с более чем 220 типами различных файлов, включая документы HTML, Microsoft Office, PDF, PostScript, WordPerfect, Lotus и многие другие.

Функция универсального поиска Universal Search обеспечивает связь с системами управления корпоративным контентом:

  • Microsoft SharePoint,

  • IBM FileNet,

  • OpenText LiveLink,

  • EMC Documentum.

Стоимость аппаратных поисковиков Search Appliance от 30 000 $.