Поисковые системы

 

 

Поисковая система это:

  1. Онлайн-сервис, предоставляющий возможность поиска информации на  в Интернете.

  2. Программно-аппаратная система, предназначенная для поиска и доставки информации.

  3. Сайт, на котором по заданному запросу можно получить информацию о ресурсах в Интернете, соответствующих данному запросу.

Основой поисковой системы является поисковый движок (search engine) - комплекс программ, обеспечивающий функциональность поисковой системы.

 

 

 

Качество работы поисковых систем

 

Основные критерии качества работы поисковой системы:

  • релевантность (relevant) -  степень соответствия запроса и найденного, уместность результата;

  • полнота базы (fullness base) - отношение найденых ресурсов к имеющимся;

  • пертинентность (pertinent) - cоотношение объема полезной информации к общему объему полученной информации;

TF-IDF - основной метод для оценки релевантности (чем больше локальная частота термина (запроса) в документе (TF) и чем реже он встречается в других документах в коллекции (IDF), тем выше вес данного документа по отношению к термину - то есть документ будет выдаваться раньше в результатах поиска по данному термину).

 

Уди Манбер (Udi Manber, исполнительный директор поисковой системы А9):  Словарные поисковые запросы являются гигантским барьеров на пути развития технологий.  Необходимо избегать погони за быстродействием в ущерб релевантности поиска. 

Уди Манбер: Но релевантность поиска трудно оценить. Это субъективный параметр. Индустрия должна выработать методы оценки релевантности, чтобы улучшить ее, и с этой целью имеет смысл обратиться за помощью к научному сообществу.

 

 

Качество обработки запросов (согласно "Ашманов и партнеры", 2008):

  • навигационный поиск (где?)  лидер Яндекс, второе место Google, третье Gogo.ru

  • информационный поиск (что?) лидер Google, второе место Live.com  (от Microsoft)

  • трансакционный поиск (что сделать?) лидер Gogo.ru (от Mail.ru)

Качество результата поиска зависит также от:

  • качества пользовательского поискового запроса;

  • полноты поискового профиля пользователя (см. персонализацию поиска).

 

 

 

 

История поисковых систем

 

1992

Archie - первая поисковая система в Интернете  (для индексации FTP архивов)

1993

Мэтью Грэй (Matthew Gray) создал Wandex - первую поисковую система для WWW.

В 1993 года в Интернете было 623 вебсайта. В 2008 - более 180 000 000 вебсайтов.

1994

Создана WebCrawler,  первая система индексирующая ресурсы при помощи робота на основе полнотекстового поиска, а не только заголовкам страниц и информации мета-тегов.

1996

Появилось множество конкурирующих поисковых систем: «Lycos», «Excite», «Infoseek»,  «AltaVista» и т.д. Созданы первые оригинальные российские  Rambler и Aport

1997

Создана поисковая машина Яндекс

1998

Сергей Брин и Лоуренс Пейдж создают поисковую машину Google

2004

Запуск системы Yahoo! Search

2005

Запуск системы Microsoft Search

2009

Microsoft запустила новый поисковик Bing.

2010

Baidu, крупнейший поисковик в Китае.

 

 

 

 

Популярность поисковых систем (% запросов)

февраль 2012 (StatCounter)

Весь мир

Google Bing
91,66 3,47

Беларусь

GoogleYandex
73,423,4

Европа

Google Bing
94,42,25

Россия

Google Yandex
55,542,5

Китай

Baidu Google
61,533,5

США

Google Bing
79,39,46

 

 

 

Национальные поисковые системы

 

В ряде стран роль ведущей поисковой системы играют национальные разработки:

  • Яндекс - в России

  • Baidu - в Китае

  • seznam.cz - в Чехии (ищет по чешским и словацким сайтам, а для иноязычных ресурсов использует Bing.com от Microsoft. Доля Сезнама постепенна снижается, но все же еще находится где-то на отметке 50-60%.)

  • Naver  в Южной Корее (на долю Google приходится всего несколько процентов поисковых запросов по стране).

Seznam  ищет по чешским и словацким сайтам, а для иноязычных ресурсов использует Bing.com от Microsoft. Доля Сезнама постепенна снижается, но все же еще находится где-то на отметке 50-60%.

18.01.2011 Компания Google обошла в Чехии Seznam по доле рынка, и стала на нем лидером.

 

 

 

Google

 

здесь

 

 

 

Bing

 

Bing - поисковая система Microsoft

Согласно comScore для США в сентябре 2014 Bing пользовались 29.4% пользователей (+0.1% за год), Google использовали 67.3% (+0.4% за год).

29.11.2014

Стефан Вейтц (глава подразделения Bing, поисковой системы Microsoft):

  • Bing удерживает около 30% рынка в США. Лидирующий в этом сегменте Google Microsoft уже не сможет побороть, но обычный поиск по ключевым словам теряет своё первостепенное значение.

  • Microsoft собирается улучшать свой поисковый движок в ещё несформировавшихся областях, таких как машинное обучение и поиск на основе естественного языка.

  • Bing является основой, на которой базируется интеллектуальный помощник Cortana в Windows Phone, а также построен индексатор Apple Spotlight в операционных системах iOS 8 и Mac OS X 10.10 Yosemite. Таким образом, в Microsoft ставят перед собой цель создания технологий для интерактивного взаимодействия с пользователем как на стационарных компьютерах, так и на смартфонах.

10.11.2014

Поисковая система Google, с помощью искусственных нейронных сетей и машинного обучения, приобрела возможность понимать, что изображено на фото и описывать изображение на естественном языке.

 

 

 

Яндекс

 

Yandex.ru (Я́ндекс) — система поиска в Сети компании Я́ндекс.

Создана в 1997 году.

Название «Яндекс» трактуют как сокращение от «Yet another indexer» («ещё один индексатор») или как «Языковой iNDEX», реминисценцию с «Wandex» (названием первой поисковой системы для WWW).

В 2011 году компания  Яндекс предоставляла более 30 сервисов:  Яндекс.Картинки, Яндекс.Почта,  Яндекс.Карты,  Яндекс.Новости,  Яндекс.Погода и др.

01.10.2011 Я́ндекс - 5-ая среди поисковых сайтов мира по количеству обработанных поисковых запросов (более 3 млрд в месяц, 1,7% от мирового количества).

Поиск Яндекса позволяет искать документы на 9 языках (в т.ч. и белорусском) с учётом морфологии этих языков  и  близости  слов в предложении.

До 2009 год поиск «Яндекса» был установлен на портале Mail.ru.

Поиск «Яндекса» установлен на порталах Rambler, TUT.BY и др.

 

Подробности см. в Википедии.

См. Абрамзон Михаил. Яндекс для всех — СПб.: БХВ-Петербург, 2007. — 544 с

 

05.12.2011 Аркадий Волож (глава компании): Наша задача на ближайший год - сохранить долю рынка в России. Перспективными для «Яндекса» являются рынки тех стран, где работает только один интернет-поисковик. В мире есть много стран, у жителей которых нет выбора поисковика. У нас есть возможность, даже миссия - принести выбор в эти страны. Google - хорошая компания, и она нуждается в хорошем конкуренте

25.10.2015 Поисковая система «Яндекс» начнет работать в Иране и будет адаптирована для иранских пользователей на персидском языке. Пользователями российской поисковой системы могут стать 13–14 млн иранцев.

 

 

 

Поиск Mail.Ru

 

01.07.2013

Портал Mail.Ru отказался от поиска Google, перейдя на собственный поисковый движок, который обрабатывает все поисковые запросы от пользователей. Мировая месячная аудитория Поиска Mail.Ru 39,5 млн пользователей. 

Mail.Ru Group активно разрабатывает свою поисковую систему нескольких лет. За последние 6 месяцев объем индекса был расширен с 5 до 10 миллиардов документов, а на обработку поисковых запросов выделено несколько тысяч серверов.

Дмитрий Гришин (ген. директор и основатель Mail.Ru Group): Удивительно, что успешные поисковые системы на сегодняшний день работают всего в 5 государствах: США, России, Чехии, Китае и Республике Корее, а системные космические разработки ведут 9 стран. Собственная разработка дает нам возможность предоставить нашим пользователям актуальный и качественный продукт. 

Поиск Mail.Ru – третья по величине поисковая система рунета (8,6% от всех поисковых запросов в России).

 

 

 

 

Качество поиска и поисковые системы в Рунете

 

05.04.2011 Компания «Ашманов и партнеры» разместила отчет о состоянии поискового рынка в России: «Качество поиска и поисковые системы в Рунете».

В аналитическом отчете размещены данные о долях поисковиков на рынке, основных тенденциях и качестве современного поиска.

Опубликованные данные предоставляют информацию за 2010 и начало 2011 года.

«Ашманов и партнеры» разработали методику по анализу качество поиска.

 

 

 

 

 

Поисковые системы Китая

 

Основные поисковые системы и их доля:

 

Baidu (百度, baidu.com) — лидер среди китайских поисковых систем.

Baidu основал Робин Ли (Robin Li) в 2000 году и за 10 лет  маленькую фирму с немногими сотрудниками-энтузиастами в многотысячное предприятие с капитализацией $12,8 млрд, которое успешно конкурирует с Google.

31.12.2007  По количеству обрабатываемых запросов Baidu  на 3 месте в мире (3 млрд 428 млн) с долей в глобальном поиске 5,2 % ( данные comScore)

Робин Ли: Около 300 инженеров Baidu шлифуют сейчас программу семантического поиска и рано или поздно мы их победим.

Более 67% китайских пользователей  используют Baidu.

В базе Baidu  свыше 740 млн веб-страниц, 80 млн изображений и 10 млн медиафайлов.

Baidu использует собственного поискового «паука» - Baiduspider.

В  Baidu существует:

  • поиск по ключевым словам, введенным в строке ввода.

  • учет региона, к которому относится сайт,

  • выбор логических отношений между ключевыми словами и т.д.

  • удобства работы с китайским языком: ввод ключевых слов при помощи пиньинь (фонетической транскрипции), а не иероглифов; возможность исправления неправильно выбранных из ряда иероглифов, передающих слова с одинаковым звучанием; разветвленный синтаксис запросов по различным критериям.

  • англо-китайский и китайско-английский словарь.

  • поиск mp3,

  • прогноз погоды и др.

20.04.2006 baidu.com открыл — Байдупедию (百度百科 — Байду байкэ), которая уже через три недели обогнала китайскую Википедию по числу статей. В настоящее время Байдупедия содержит более 2 000 000 статей.

 

22.02.2011 Запущен новый китайский интернет-поисковик  Паньгу (www.panguso.com), созданный информационным агентством Синьхуа и крупнейшим в Китае оператором мобильной связи «Чайна Мобайл».

27.07.2011 Baidu контролирует почти 76% сегмента поиска в КНР против 70% годом ранее. Доля Google сократилась с 24% поискового рынка Поднебесной до 19%. Суммарная доля всех прочих поисковиков в Китае едва превышает 5%.

 

 

 

 

Искомое.ру

 

Ищущий и есть Искомое

Искомое.ру - системы полнотекстового поиска по мировому православному Интернету.

 

07.04.2009 Портал "Православное Христианство.ru" (www.hristianstvo.ru ) объявляет о выходе обновленной версии Искомое.ру, которая умеет искать на 20 языках.

Зеркало сайта с английским языком интерфейса: www.orthodox-search.com .

Пользователи защищены от спама, а поисковая выдача формируется только из ссылок на православные сайты.

Поисковый индекс системы «Искомое.ru» составляет около 7 тыс. сайтов. Пользователям доступен обычный и расширенный поиск.

Пользователь может добавить его поддержку в свой браузер или получить код для вставки окна поиска в блог или на сайт.

 

 

 

Tagoo —  медиа-поисковик

 

Tagoo - поисковая система, специализирующаяся на поиске медиа-контента: музыки, видео и программ.

В индексе Tagoo более 20 миллионов аудио, видео файлов и программ.

Tagoo постоянно индексирует сайты, которые дают возможность скачать видео, музыку и программы бесплатно и ежедневно находит десятки тысяч новых файлов (новинки музыки, подкасты, видеоклипы, мультфильмы,  видеоролики, аудиокниги, игры, русификаторы, трейлеры к новым кинофильмам, фильмы и др).

Поиск Tagoo  поддерживает более 50 форматов музыки, видео и программ.

Вводите в строку поиска запрос и через мгновение Tagoo сразу покажет список песен этого исполнителя, которые прямо в окне поисковика можно прослушать и получить ссылку на скачивание mp3–файла.

Расширенный поиск позволяет задавать дополнительные параметры треков: битрейт и длительность.

Создали Tagoo -  Сергей Смагин и Руслан Мурашко в 2008 году.

***************************************************

С сайта: TagooMoody Filler может быть полезна тогда, когда вам просто нечего слушать....

Поможем найти Вам то, сами не знаете что .. и зачем... и для кого...

 

 

 

DuckDuckGo

 

DuckDuckGo - поисковая система, которая не собирает никакой информации о пользователях, не сохраняет их IP-адреса, по умолчанию не использует файлы куки (куки начинают использоваться только, если пользователь изменил настройки для поисковика, чтобы хранить эти настройки), не использует  «пузырь фильтров».

Пузырь фильтров — использующийся  поисковыми системами алгоритм, согласно которому пользователю показываются персонализированные результаты, основанные на имеющихся у поисковика данных об этом пользователе. Благодаря «пузырю фильтров», разным пользователям могут быть показаны совершенно разные результаты по одному и тому же поисковому запросу.

DuckDuckGo основан в 2008 году предпринимателем Габриелем Вайнбергом (Gabriel Weinberg), основателем социальной сети The Names Database (продана в 2006 году за $10 млн.).

27.01.2014

В 2013 году DuckDuckGo обработал более 1 000 000 000 поисковых запросов пользователей.

05.05.2014 DuckDuckGo представил свою новую версию: появился поиск изображений, поиск видео, авто-подсказки, улучшилась выдача ответов и обновился дизайн. Она доступна по адресу next.duckduckgo.com.

DuckDuckGo установлен как поисковик по умолчанию в Tor Browser.

 

 

 

Вредоносные поисковики

 

05.05.2009 Panda Security предупреждает о появлении в Интернете вредоносных поисковиков, которые внешне представляют собой обычную поисковую систему, но при осуществлении запроса выдаются ссылки на порносайт, где пользователю будет предложено установить специальный кодек для просмотра порнографии. Вместе с кодеком на компьютер пользователя будет установлен модуль Adware. 

В случае поиска антивирусных программ, лжепоисковик выдает ссылки на сайты, где пользователю будет продемонстрировано фальшивое сканирование системы, которое обязательно обнаружит у него целый букет вирусов, которые будет предложено удалить путем установки все того же Adware.

 

 

shodan.io