Поисковые системы

 

 

Поисковая система это:

  1. Онлайн-сервис, предоставляющий возможность поиска информации на  в Интернете.

  2. Программно-аппаратная система, предназначенная для поиска и доставки информации.

  3. Сайт, на котором по заданному запросу можно получить информацию о ресурсах в Интернете, соответствующих данному запросу.

Основой поисковой системы является поисковый движок (search engine) - комплекс программ, обеспечивающий функциональность поисковой системы.

 

 

 

Поисковые системы в мире
 инфографика по странам

 

statcounter.com

 

 

 

Качество работы поисковых систем

 

Основные критерии качества работы поисковой системы:

  • релевантность (relevant) -  степень соответствия запроса и найденного, уместность результата;

  • полнота базы (fullness base) - отношение найденых ресурсов к имеющимся;

  • пертинентность (pertinent) - cоотношение объема полезной информации к общему объему полученной информации;

TF-IDF - основной метод для оценки релевантности (чем больше локальная частота термина (запроса) в документе (TF) и чем реже он встречается в других документах в коллекции (IDF), тем выше вес данного документа по отношению к термину - то есть документ будет выдаваться раньше в результатах поиска по данному термину).

 

Уди Манбер (Udi Manber, исполнительный директор поисковой системы А9):  Словарные поисковые запросы являются гигантским барьеров на пути развития технологий.  Необходимо избегать погони за быстродействием в ущерб релевантности поиска. 

Уди Манбер: Но релевантность поиска трудно оценить. Это субъективный параметр. Индустрия должна выработать методы оценки релевантности, чтобы улучшить ее, и с этой целью имеет смысл обратиться за помощью к научному сообществу.

 

 

Качество обработки запросов (согласно "Ашманов и партнеры", 2008):

  • навигационный поиск (где?)  лидер Яндекс, второе место Google, третье Gogo.ru

  • информационный поиск (что?) лидер Google, второе место Live.com  (от Microsoft)

  • трансакционный поиск (что сделать?) лидер Gogo.ru (от Mail.ru)

Качество результата поиска зависит также от:

  • качества пользовательского поискового запроса;

  • полноты поискового профиля пользователя (см. персонализацию поиска).

09.12.2019    Google Поиск на базе ИИ с технологией BERT теперь работает на русском языке
 

 

 

 

 

История поисковых систем

 

1992

Archie - первая поисковая система в Интернете  (для индексации FTP архивов)

1993

Мэтью Грэй (Matthew Gray) создал Wandex - первую поисковую система для WWW.

В 1993 года в Интернете было 623 вебсайта. В 2008 - более 180 000 000 вебсайтов.

1994

Создана WebCrawler,  первая система индексирующая ресурсы при помощи робота на основе полнотекстового поиска, а не только заголовкам страниц и информации мета-тегов.

1996

Появилось множество конкурирующих поисковых систем: «Lycos», «Excite», «Infoseek»,  «AltaVista» и т.д. Созданы первые оригинальные российские  Rambler и Aport

1997

Создана поисковая машина Яндекс

1998

Сергей Брин и Лоуренс Пейдж создают поисковую машину Google

2004

Запуск системы Yahoo! Search

2009

Microsoft запустила поисковик Bing.

2010

Baidu, крупнейший поисковик в Китае.

20XX

Ладно, ... проехали...

2023

LLM (большие языковые модели: ChatGPT и его "друзья")  ... всё меняют?

Chatbots make Search interesting again (больше в 7+)

 

 

 

 

Поисковые системы 2023

 

 

 

 

 

Google

 

здесь

 

 

 

Bing

 

Bing - поисковая система Microsoft

Согласно comScore для США в сентябре 2014 Bing пользовались 29.4% пользователей (+0.1% за год), Google использовали 67.3% (+0.4% за год).

29.11.2014

Стефан Вейтц (глава подразделения Bing, поисковой системы Microsoft):

  • Bing удерживает около 30% рынка в США. Лидирующий в этом сегменте Google Microsoft уже не сможет побороть, но обычный поиск по ключевым словам теряет своё первостепенное значение.

  • Microsoft собирается улучшать свой поисковый движок в ещё несформировавшихся областях, таких как машинное обучение и поиск на основе естественного языка.

  • Bing является основой, на которой базируется интеллектуальный помощник Cortana в Windows Phone, а также построен индексатор Apple Spotlight в операционных системах iOS 8 и Mac OS X 10.10 Yosemite. Таким образом, в Microsoft ставят перед собой цель создания технологий для интерактивного взаимодействия с пользователем как на стационарных компьютерах, так и на смартфонах.

10.11.2014

Поисковая система Google, с помощью искусственных нейронных сетей и машинного обучения, приобрела возможность понимать, что изображено на фото и описывать изображение на естественном языке.

 

 

 

Яндекс

 

Yandex.ru (Я́ндекс) — система поиска в Сети компании Я́ндекс.

Создана в 1997 году.

Название «Яндекс» трактуют как сокращение от «Yet another indexer» («ещё один индексатор») или как «Языковой iNDEX», реминисценцию с «Wandex» (названием первой поисковой системы для WWW).

В 2011 году компания  Яндекс предоставляла более 30 сервисов:  Яндекс.Картинки, Яндекс.Почта,  Яндекс.Карты,  Яндекс.Новости,  Яндекс.Погода и др.

01.10.2011 Я́ндекс - 5-ая среди поисковых сайтов мира по количеству обработанных поисковых запросов (более 3 млрд в месяц, 1,7% от мирового количества).

Поиск Яндекса позволяет искать документы на 9 языках (в т.ч. и белорусском) с учётом морфологии этих языков  и  близости  слов в предложении.

До 2009 год поиск «Яндекса» был установлен на портале Mail.ru.

Поиск «Яндекса» установлен на порталах Rambler, TUT.BY и др.

 

Подробности см. в Википедии.

См. Абрамзон Михаил. Яндекс для всех — СПб.: БХВ-Петербург, 2007. — 544 с

 

25.10.2015 Поисковая система «Яндекс» начнет работать в Иране и будет адаптирована для иранских пользователей на персидском языке. Пользователями российской поисковой системы могут стать 13–14 млн иранцев.
 

28.11.202222 «Яндекс» запустил новую версию поиска под названием Y2
 

 

 

 

 

 

Поисковые системы Китая

 

Основные поисковые системы и их доля (2011):

 

Baidu (百度, baidu.com) — лидер среди китайских поисковых систем.

Baidu основал Робин Ли (Robin Li) в 2000 году и за 10 лет  маленькую фирму с немногими сотрудниками-энтузиастами в многотысячное предприятие с капитализацией $12,8 млрд, которое успешно конкурирует с Google.

31.12.2007  По количеству обрабатываемых запросов Baidu  на 3 месте в мире (3 млрд 428 млн) с долей в глобальном поиске 5,2 % ( данные comScore)

Робин Ли: Около 300 инженеров Baidu шлифуют сейчас программу семантического поиска и рано или поздно мы их победим.

Более 67% китайских пользователей  используют Baidu.

В базе Baidu  свыше 740 млн веб-страниц, 80 млн изображений и 10 млн медиафайлов.

Baidu использует собственного поискового «паука» - Baiduspider.

В  Baidu существует:

  • поиск по ключевым словам, введенным в строке ввода.

  • учет региона, к которому относится сайт,

  • выбор логических отношений между ключевыми словами и т.д.

  • удобства работы с китайским языком: ввод ключевых слов при помощи пиньинь (фонетической транскрипции), а не иероглифов; возможность исправления неправильно выбранных из ряда иероглифов, передающих слова с одинаковым звучанием; разветвленный синтаксис запросов по различным критериям.

  • англо-китайский и китайско-английский словарь.

  • поиск mp3,

  • прогноз погоды и др.

20.04.2006 baidu.com открыл — Байдупедию (百度百科 — Байду байкэ), которая уже через три недели обогнала китайскую Википедию по числу статей. В настоящее время Байдупедия содержит более 2 000 000 статей.

 

22.02.2011 Запущен новый китайский интернет-поисковик  Паньгу (www.panguso.com), созданный информационным агентством Синьхуа и крупнейшим в Китае оператором мобильной связи «Чайна Мобайл».

27.07.2011 Baidu контролирует почти 76% сегмента поиска в КНР против 70% годом ранее. Доля Google сократилась с 24% поискового рынка Поднебесной до 19%. Суммарная доля всех прочих поисковиков в Китае едва превышает 5%.

 

 

 

DuckDuckGo

 

DuckDuckGo - поисковая система, которая не собирает никакой информации о пользователях, не сохраняет их IP-адреса, по умолчанию не использует файлы куки (куки начинают использоваться только, если пользователь изменил настройки для поисковика, чтобы хранить эти настройки), не использует  «пузырь фильтров». DuckDuckGo  поисковик по умолчанию в Tor Browser.

Пузырь фильтров — использующийся  поисковыми системами алгоритм, согласно которому пользователю показываются персонализированные результаты, основанные на имеющихся у поисковика данных об этом пользователе. Благодаря «пузырю фильтров», разным пользователям могут быть показаны совершенно разные результаты по одному и тому же поисковому запросу.

DuckDuckGo основан в 2008 году предпринимателем Габриелем Вайнбергом (Gabriel Weinberg), основателем социальной сети The Names Database (продана в 2006 году за $10 млн.).

27.01.2014 В 2013 DuckDuckGo обработал более 1 000 000 000 поисковых запросов пользователей

 

18.01.2021 DuckDuckGo обработал за день 100 000 000+ поисковых запросов. С августа 2020 года этот рост значительно ускорился:  запущены  версии для Android и iOS, расширение для Chrome

 

 

 

Вредоносные поисковики

 

05.05.2009 Panda Security предупреждает о появлении в Интернете вредоносных поисковиков, которые внешне представляют собой обычную поисковую систему, но при осуществлении запроса выдаются ссылки на порносайт, где пользователю будет предложено установить специальный кодек для просмотра порнографии. Вместе с кодеком на компьютер пользователя будет установлен модуль Adware. 

В случае поиска антивирусных программ, лжепоисковик выдает ссылки на сайты, где пользователю будет продемонстрировано фальшивое сканирование системы, которое обязательно обнаружит у него целый букет вирусов, которые будет предложено удалить путем установки все того же Adware.

 

 

shodan.io