ИНФОРМАЦИОННЫЙ ПОИСК

 

 

 

Значение термина

 

Термин «информационный поиск» был впервые введён Кельвином Муром в 1948.

 

Информационный поиск (information search) - процесс выявления в некотором множестве документов таких, которые удовлетворяют заранее определенному условию поиска (запросу) или содержат соответствующие информационной потребности данные.

Информационный поиск - большая междисциплинарная область науки, стоящая на пересечении когнитивной психологии, информатики, информационного дизайна, лингвистики, семиотики.

Информационный поиск рассматривает поиск информации в документах, поиск самих документов, извлечение метаданных из документов, поиск текста, изображений, видео и звука в локальных реляционных базах данных, в гипертекстовых глобальных базах данных  (Интернет) и локальных (компьютер, смартфон, интранет).

Джаред Спатаро (Jared Spataro, аналитик FAST): Информационный поиск – это все еще новый и формирующийся рынок. Для нас реальная возможность заключается в том, что он во многом остается еще непаханым полем. В будущем поисковые возможности будут везде. В интерфейсе каждого приложения.

Центральная задача информационного поиска — помочь пользователю удовлетворить его информационную потребность.

 Игорь Ашманов (генеральный директор компании "Ашманов и партнеры"): Интернет-поиск сегодня является очень крупным бизнесом и эффективным инструментом большой политики. Новостные ленты поисковых системно формируют картину для многих миллионов пользователей, их возможности в области поиска по блогам могут поднять любую тему, даже самую бредовую и бессмысленную, что, кстати, нередко и происходит.


 

 

Типы и виды поиска

 

Виды информационного поиска:

  • полнотекстовый поиск — поиск по всему содержимому документов.

  • поиск по метаданным  (атрибутам документа: название, размер, автор и т.д.).

Типы информационного поиска:

  • локальный (в документе, в файловой системе носителя информации, в компьютерной локальной сети);

  • глобальный (интернет-поиск).

 

 

 

Предыстория интернет-поиска

 

В 1945 году Ванневар Буш (Vannevar Bush, американский инженер) опубликовал эссе "Как мы могли бы думать", в котором изложил идеи разработки системы быстрого извлечения данных из особым образом хранимой информации.

Идеи Ванневара Буша эквивалентны концепциям современных  поисковых систем.

 

В 1962 году Джерард Сэлтон (Gerard Salton, отец современной поисковой технологии) и его группа в Корнелльском университете разработали SMART information retrieval system (Остроумную систему извлечения информации).

SMART - аббревиатура от Salton-s Magic Automatic Retriever of Text (Волшебный автоматический извлекатель текста Сэлтона).

 

 

 

 

Структура глобального информационного поиска представляет взаимосвязь и взаимовлияние следующих базовых элементов:

 

1

поисковый субъект

Homo Quaerens = Человек ищущий = искомое

2

поисковые ресурсы

индексируемые поисковыми машинами данные и поисковые индексы

3

поисковые службы

технологии, протоколы и алгоритмы составления индексов и ранжирования результатов

4

поисковые системы

машины, предоставляющие поисковые сервисы на основе служб и баз данных

5

поисковые сервисы

поисковые услуги, предоставляемые на основе поисковых систем (в т.ч. сторонних)

6

поисковые запросы

вводимые в поисковые системы представления искомого (формулировки, образы и т.п.)

7

поисковые результаты

значения, возвращаемые поисковыми машинами после обработки поисковых запросов

 

 

 

Тенденции информационного поиска

 

Вид поиска Примеры ресурсов Основные характеристики

Индексирование deep web

Yahoo! Subscriptions
QProber
MetaQuerier
Google

Индексирование нелинкованного, мультимедийного, закрытого паролями, динамически формируемого, корпоративного веб-контента

Углубленный поиск

quintura.com
A9

Поиск по результатам найденного через анализ нетекстового контента, агрегирование фактов, визуализация, определение эмоциональной окраски результатов поиска

Персонализированный поиск

collarity.com
Rollyo.com

Использование при поиске данных о пользователе

Социальный поиск

SearchTogether
Yahoo!Answers
Google Answers
CoSearch
ChaCha.com

Непосредственное участие людей в формировании и ранжирование ответов на запросы пользователей

Голосовой поиск

Voice Search Bar
Apple App Store
Yahoo! oneSearch
Tellme

Запись голосового поискового запроса, отсылкаего на сервер, обработка, расшифровка и ввод в поисковик в текстовом виде.

Визуальный поиск

riya.com
Picollator Online
Live Search

Распознавание содержимого изображений, поиск по тегам

Кластеризованный поиск

quintura.com
vivisimo.com
ask.com

Фрагментирование результатов запроса для более понятной демонстрации связей между терминами, использование концепции tag cloud в поиске

Семантический поиск

Hakia
Powerset
Infovell
Twine

Обработка естественных языков и меняющих смысл запросов

 

 

 

Углубленный поиск

 

Проблема «хвостов»: по мере экспоненциального роста числа документов в Сети растет среднее число документов в ответ на запрос, ранжирование которых не снимает проблемы пропуска нужного документа.

Продолжительность поиска в результатах поиска на порядок больше времени самого поиска.

Вадим Ефремов (советник «ГЕТНЕТ Консалтинг»). Ситуация может показаться безысходной, однако следует сохранять оптимизм — неизвестны причины роста объемов информации, поэтому у нас нет рычагов воздействия на него. Возможно, со временем все как-то стабилизируется либо мы дождемся появления квантовых вычислителей и алгоритмов, которые создадут принципиально иные механизмы поиска.

Проблему хвостов призван решить  Drill Down Search (углубленный поиск):

  • Текстовые навигаторы поиска;

  • Анализаторы нетекстового контента;

  • Визуализация;

  • Агрегирование фактов;

  • Определение эмоциональной окраски.

 

Текстовые навигаторы поиска - средства итеративного поиска элементов в результатах поиска (извлекают элементы, связанные с именем собственным, затем элементы, связанные с географическим местоположением, либо формулируют предположение о правильном написании, а затем применяют предметно-ориентированную таксономию, которая сведет триаду «персона, организация, событие» в обзор подборок из  выбранных документов).

 

Анализаторы нетекстового контента - выдают ссылки на мультимедийные элементы, относящиеся к поисковому запросу, на  в виде небольших графических изображений на экране.

 

Визуализация -  автоматическаягенерирация графического облака связанных между собой слов с помощью семантической карты на основе контекстного индекса.

Пример: поисковая система Quintura с интерактивной картой уточнения запросов для визуальной навигации. Перенос курсора с одного слова на другое, отражая предпочтение пользователя, изменяет картинку и по-новому ранжирует список выбранных документов.

 

Агрегирование фактов - сведение воедино разрозненных фактов, относящихся к запросу на основе просмотра и анализа системой тысяч документов, содержащих почти идентичную информацию с морфологическим анализом предложений и учетом статистических корреляций на уровне параграфа и предложения.

 

Определение эмоциональной окраски - распознавание эпитетов, которыми сопровождаются обсуждения событий, фактов, текстов и визуализация этой статистики высказываний на основе статистического анализа контекста результатов поиска. Так, оттенками красного цвета окрашеваются документы, в которых преобладают отрицательные эпитеты.