Значение термина
Термин «информационный
поиск»
был впервые введён Кельвином
Муром в
1948.
Информационный поиск (information
search)
- процесс
выявления в некотором множестве документов таких, которые
удовлетворяют заранее определенному условию поиска (запросу) или
содержат соответствующие информационной потребности данные.
Информационный поиск - большая
междисциплинарная область науки, стоящая на пересечении когнитивной
психологии, информатики, информационного дизайна, лингвистики,
семиотики.
Информационный
поиск рассматривает
поиск информации в документах, поиск самих документов, извлечение
метаданных из документов, поиск текста, изображений, видео и звука в
локальных реляционных базах данных, в гипертекстовых глобальных базах
данных (Интернет) и
локальных (компьютер,
смартфон, интранет).
Джаред Спатаро (Jared
Spataro, аналитик
FAST): Информационный
поиск – это все еще новый и формирующийся рынок. Для нас
реальная возможность заключается в том, что он во многом остается
еще непаханым полем. В будущем поисковые возможности будут везде. В
интерфейсе каждого приложения.
Центральная задача информационного
поиска — помочь
пользователю удовлетворить его информационную потребность.
Игорь Ашманов (генеральный директор компании
"Ашманов и партнеры"): Интернет-поиск
сегодня является очень крупным бизнесом и эффективным
инструментом большой политики. Новостные
ленты поисковых
системно формируют картину для многих миллионов
пользователей, их возможности в области поиска по блогам могут
поднять любую тему, даже самую бредовую и бессмысленную, что,
кстати, нередко и происходит. |
Типы и виды поиска
Виды
информационного поиска:
-
полнотекстовый
поиск — поиск по всему содержимому документов.
-
поиск по метаданным (атрибутам
документа: название, размер, автор и т.д.).
Типы информационного поиска:
-
локальный (в документе, в
файловой системе носителя информации, в компьютерной локальной
сети);
-
глобальный (интернет-поиск).
|
Предыстория интернет-поиска
В 1945 году Ванневар
Буш (Vannevar
Bush, американский инженер) опубликовал эссе "Как мы могли бы
думать", в котором изложил идеи разработки системы быстрого
извлечения данных из особым образом хранимой информации.
Идеи Ванневара Буша
эквивалентны концепциям
современных
поисковых систем.
В 1962 году Джерард
Сэлтон (Gerard
Salton, отец современной поисковой технологии) и его группа в
Корнелльском университете разработали SMART
information retrieval system (Остроумную
систему извлечения информации).
SMART -
аббревиатура от Salton-s Magic Automatic Retriever of Text
(Волшебный автоматический извлекатель текста Сэлтона).
|
Структура
глобального информационного поиска представляет взаимосвязь и взаимовлияние
следующих базовых элементов: |
1 |
поисковый субъект |
Homo Quaerens = Человек ищущий =
искомое |
2 |
поисковые ресурсы |
индексируемые поисковыми машинами данные и поисковые
индексы
|
3 |
поисковые
службы |
технологии, протоколы и алгоритмы составления индексов и ранжирования
результатов |
4 |
поисковые системы |
машины, предоставляющие
поисковые сервисы на основе служб и баз данных |
5 |
поисковые сервисы |
поисковые услуги, предоставляемые на
основе поисковых систем (в т.ч. сторонних) |
6 |
поисковые запросы |
вводимые
в поисковые системы представления искомого (формулировки,
образы и т.п.) |
7 |
поисковые результаты |
значения,
возвращаемые поисковыми машинами после обработки поисковых запросов |
Тенденции информационного
поиска
Вид поиска |
Примеры ресурсов |
Основные характеристики |
Индексирование deep web |
Yahoo! Subscriptions
QProber
MetaQuerier
Google |
Индексирование нелинкованного, мультимедийного, закрытого
паролями, динамически формируемого, корпоративного веб-контента |
Углубленный поиск |
quintura.com
A9 |
Поиск по результатам найденного через анализ нетекстового
контента, агрегирование фактов, визуализация, определение
эмоциональной окраски результатов поиска |
Персонализированный поиск |
collarity.com
Rollyo.com |
Использование при поиске данных о пользователе |
Социальный поиск |
SearchTogether
Yahoo!Answers
Google Answers
CoSearch
ChaCha.com |
Непосредственное участие людей в формировании и ранжирование
ответов на запросы пользователей |
Голосовой поиск |
Voice Search Bar
Apple App Store
Yahoo! oneSearch
Tellme |
Запись голосового поискового запроса, отсылкаего
на сервер, обработка,
расшифровка и
ввод в поисковик в текстовом виде. |
Визуальный поиск |
riya.com
Picollator Online
Live Search |
Распознавание содержимого изображений, поиск по тегам |
Кластеризованный поиск |
quintura.com
vivisimo.com
ask.com |
Фрагментирование результатов запроса для более понятной
демонстрации связей между терминами,
использование концепции tag cloud в поиске |
Семантический поиск |
Hakia
Powerset
Infovell
Twine |
Обработка естественных языков и меняющих смысл запросов |
Углубленный поиск
Проблема
«хвостов»:
по мере экспоненциального роста числа
документов в Сети растет среднее число документов в ответ на запрос,
ранжирование которых не снимает проблемы пропуска нужного документа.
Продолжительность поиска в
результатах поиска на порядок больше времени самого поиска.
Вадим
Ефремов (советник «ГЕТНЕТ
Консалтинг»).
Ситуация может показаться
безысходной, однако следует сохранять оптимизм — неизвестны причины роста
объемов информации, поэтому у нас нет рычагов воздействия на него. Возможно, со
временем все как-то стабилизируется либо мы дождемся появления квантовых
вычислителей и алгоритмов, которые создадут принципиально иные механизмы поиска.
Проблему хвостов призван решить Drill
Down Search
(углубленный поиск):
-
Текстовые
навигаторы поиска;
-
Анализаторы нетекстового
контента;
-
Визуализация;
-
Агрегирование фактов;
-
Определение
эмоциональной окраски.
Текстовые навигаторы поиска
- средства итеративного поиска элементов в результатах поиска
(извлекают элементы, связанные с именем собственным, затем элементы,
связанные с географическим местоположением, либо формулируют
предположение о правильном написании, а затем применяют
предметно-ориентированную таксономию, которая сведет триаду «персона,
организация, событие» в обзор подборок из выбранных документов).
Анализаторы нетекстового
контента
- выдают ссылки на мультимедийные
элементы, относящиеся к поисковому запросу, на в виде
небольших графических изображений
на экране.
Визуализация
- автоматическаягенерирация
графического облака
связанных между собой слов с помощью
семантической карты на основе контекстного индекса.
Пример:
поисковая система
Quintura
с интерактивной картой уточнения запросов для
визуальной навигации. Перенос курсора с одного слова на другое,
отражая предпочтение
пользователя, изменяет картинку и по-новому ранжирует список
выбранных документов.
Агрегирование фактов
- сведение
воедино разрозненных фактов,
относящихся к запросу на
основе просмотра и анализа системой
тысяч документов, содержащих почти идентичную информацию
с морфологическим анализом
предложений
и учетом статистических
корреляций на уровне параграфа и предложения.
Определение
эмоциональной окраски
- распознавание эпитетов,
которыми сопровождаются обсуждения событий, фактов,
текстов и визуализация этой статистики
высказываний на основе статистического анализа контекста результатов
поиска. Так, оттенками красного цвета окрашеваются
документы, в которых преобладают отрицательные эпитеты.
|
|