Основные критерии качества работы поисковой системы:
релевантность (relevant) - степень соответствия запроса и найденного, уместность результата;
полнота базы (fullness base) - отношение найденых ресурсов к имеющимся;
пертинентность (pertinent) - cоотношение объема полезной информации к общему объему полученной информации;
TF-IDF - основной метод для оценки релевантности (чем больше локальная частота термина (запроса) в документе (TF) и чем реже он встречается в других документах в коллекции (IDF), тем выше вес данного документа по отношению к термину - то есть документ будет выдаваться раньше в результатах поиска по данному термину).
Уди Манбер (Udi Manber, исполнительный директор поисковой системы А9): Словарные поисковые запросы являются гигантским барьеров на пути развития технологий. Необходимо избегать погони за быстродействием в ущерб релевантности поиска.
Уди Манбер:Но релевантность поиска трудно оценить. Это субъективный параметр. Индустрия должна выработать методы оценки релевантности, чтобы улучшить ее, и с этой целью имеет смысл обратиться за помощью к научному сообществу.
Качество обработки запросов (согласно "Ашманов и партнеры", 2008):
навигационный поиск (где?) лидер Яндекс, второе место Google, третье Gogo.ru
информационный поиск (что?) лидер Google, второе место Live.com (от Microsoft)
трансакционный поиск (что сделать?) лидер Gogo.ru(от Mail.ru)
Качество результата поиска зависит также от:
качества пользовательского поискового запроса;
полноты поискового профиля пользователя (см. персонализацию поиска).
Archie - первая поисковая система в Интернете (для индексации FTP архивов)
1993
Мэтью Грэй (Matthew Gray) создал Wandex - первую поисковую система для WWW.
В 1993 года в Интернете было 623 вебсайта. В 2008- более 180 000 000 вебсайтов.
1994
Создана WebCrawler, первая система индексирующая ресурсы при помощи робота на основе полнотекстового поиска, а не только заголовкам страниц и информации мета-тегов.
1996
Появилось множество конкурирующих поисковых систем: «Lycos», «Excite», «Infoseek», «AltaVista»и т.д.Созданы первые оригинальные российские Rambler и Aport
1997
Создана поисковая машина Яндекс
1998
Сергей Брин и Лоуренс Пейдж создают поисковую машину Google
2004
Запуск системы Yahoo! Search
2009
Microsoft запустила поисковик Bing.
2010
Baidu, крупнейший поисковик в Китае.
20XX
Ладно, ... проехали...
2023
LLM
(большие языковые модели: ChatGPT и его "друзья") ... всё
меняют?
Согласно comScore для США
в сентябре 2014Bing
пользовались 29.4% пользователей(+0.1% за год),Google
использовали 67.3% (+0.4% за год).
29.11.2014
Стефан Вейтц
(глава подразделения Bing, поисковой системы
Microsoft):
Bingудерживает около 30%
рынка в США.Лидирующий в
этом сегменте Google Microsoft уже не сможет побороть,
но обычный поиск по ключевым
словам теряет своё первостепенное значение.
Microsoft собирается
улучшать свой поисковый движок в ещё несформировавшихся
областях, таких как машинное обучение и поиск на основе
естественного языка.
Bing является основой, на которой
базируется интеллектуальный помощник Cortana в Windows
Phone, а также построен индексатор Apple Spotlight в
операционных системах iOS 8 и Mac OS X 10.10 Yosemite.
Таким образом, в Microsoft ставят перед собой цель
создания технологий для интерактивного взаимодействия с
пользователем как на стационарных компьютерах, так и на смартфонах.
10.11.2014
Поисковая система Google,
с помощью искусственных нейронных сетей и машинного обучения,
приобрела возможность
понимать, что изображено на фото
и описывать изображение на
естественном языке.
Яндекс
Yandex.ru
(Я́ндекс) — система
поиска в Сети компании Я́ндекс.
Создана в 1997 году.
Название «Яндекс» трактуют
как сокращение от «Yet another indexer» («ещё один индексатор») или как
«Языковой iNDEX», реминисценцию с
«Wandex» (названием первой поисковой системы
для WWW).
В
2011 году компания Яндекс
предоставляла более 30
сервисов: Яндекс.Картинки, Яндекс.Почта, Яндекс.Карты, Яндекс.Новости, Яндекс.Погода и др.
01.10.2011
Я́ндекс
- 5-ая среди поисковых сайтов мира по
количеству обработанных поисковых запросов (более 3 млрд
в месяц, 1,7% от мирового количества).
Поиск Яндекса позволяет искать документына 9 языках (в т.ч. и белорусском) сучётомморфологии этих языков
и близости
словв предложении.
До 2009 год поиск «Яндекса»
был установлен на портале Mail.ru.
Поиск
«Яндекса» установлен на порталах Rambler,
TUT.BY и др.
Подробности см. в
Википедии.
См. Абрамзон
Михаил. Яндекс для всех — СПб.: БХВ-Петербург, 2007. — 544 с
25.10.2015
Поисковая система «Яндекс» начнет работать в Иране и будет адаптирована
для иранских пользователей на персидском языке. Пользователями
российской поисковой системымогут стать 13–14
млн иранцев.
Baidu(百度, baidu.com) — лидер среди китайских поисковых систем.
Baidu основал Робин Ли (Robin Li) в 2000 году и за 10 лет маленькую фирму с немногими сотрудниками-энтузиастами в многотысячное предприятие с капитализацией $12,8 млрд, которое успешно конкурирует с Google.
31.12.2007По количеству обрабатываемых запросов Baidu на 3 месте в мире (3 млрд 428 млн) с долей в глобальном поиске 5,2 % ( данные comScore)
Робин Ли: Около 300 инженеров Baidu шлифуют сейчас программу семантического поиска и рано или поздно мы их победим.
Более 67% китайских пользователей используют Baidu.
В базе Baidu свыше 740 млн веб-страниц, 80 млн изображений и 10 млн медиафайлов.
Baidu использует собственного поискового «паука» - Baiduspider.
В Baiduсуществует:
поиск по ключевым словам, введенным в строке ввода.
учет региона, к которому относится сайт,
выбор логических отношений между ключевыми словами и т.д.
удобства работы с китайским языком: ввод ключевых слов при помощи пиньинь (фонетической транскрипции), а не иероглифов; возможность исправления неправильно выбранных из ряда иероглифов, передающих слова с одинаковым звучанием; разветвленный синтаксис запросов по различным критериям.
англо-китайский и китайско-английский словарь.
поиск mp3,
прогноз погоды и др.
20.04.2006 baidu.com открыл — Байдупедию (百度百科 — Байду байкэ), которая уже через три недели обогнала китайскую Википедию по числу статей. В настоящее время Байдупедия содержит более 2 000 000 статей.
22.02.2011 Запущен новый китайский интернет-поисковик Паньгу (www.panguso.com), созданный информационным агентством Синьхуа и крупнейшим в Китае оператором мобильной связи «Чайна Мобайл».
27.07.2011Baiduконтролируетпочти
76% сегмента поиска в КНР против 70% годом
ранее.
Доля Googleсократилась с 24%
поискового рынка Поднебесной до 19%. Суммарная
доля всех прочих поисковиков в Китае едва превышает 5%.
DuckDuckGo
DuckDuckGo
- поисковая система, которая не
собирает никакой информации о пользователях, не
сохраняет их IP-адреса, по умолчанию не использует файлы
куки (куки начинают использоваться только, если
пользователь изменил настройки для поисковика, чтобы
хранить эти настройки), не использует «пузырь
фильтров».
DuckDuckGo поисковик по умолчанию в Tor
Browser.
Пузырь фильтров —
использующийся поисковыми системами алгоритм, согласно которому
пользователю показываются персонализированные
результаты, основанные на имеющихся у поисковика данных
об этом пользователе. Благодаря «пузырю фильтров»,
разным пользователям могут быть показаны совершенно
разные результаты по одному и тому же поисковому
запросу.
DuckDuckGo основан в 2008 году предпринимателем
Габриелем Вайнбергом (Gabriel Weinberg), основателем социальной сети The Names Database
(продана в 2006 году за $10 млн.).
27.01.2014
В 2013 DuckDuckGo обработал более 1 000 000 000 поисковых запросов
пользователей
18.01.2021DuckDuckGo
обработал за день 100 000 000+ поисковых запросов. С августа 2020
года этот рост значительно ускорился: запущены версии для
Android и iOS, расширение для Chrome
Вредоносные поисковики
05.05.2009Panda Security предупреждает о появлении в Интернете вредоносных поисковиков, которые внешне представляют собой обычную поисковую систему, но при осуществлении запроса выдаются ссылки на порносайт, где пользователю будет предложено установить специальный кодек для просмотра порнографии. Вместе с кодеком на компьютер пользователя будет установлен модуль Adware.
В случае поиска антивирусных программ, лжепоисковик выдает ссылки на сайты, где пользователю будет продемонстрировано фальшивое сканирование системы, которое обязательно обнаружит у него целый букет вирусов, которые будет предложено удалить путем установки все того же Adware.