Ресурсы информационного поиска

 

 

 

Человек, с помощью поисковой системы  ищет нечто в уже найденном и проиндексированном поисковой системой и находит то и так, что и как она запрограммирована ему выдавать.

 

 

 

 

Поисковый характер информационных ресурсов

 

Поиск —  та же добыча радия.
В грамм добыча, в год труды.
Изводишь единого слова ради
тысячи тонн словесной руды.

Почти ВВМ

В поисковом контексте каждый пользователь Сети может выделить для себя:

  • Собственные информационные ресурсы:

  • не предназначенные для внешних, требующие защиты от индексации поисковыми системами (личная информация, семейные блоги, документы в онлайновых хранилищах и т.п.).

  • предназначенные для внешних, требующие поисковой оптимизации (для добрых дел, славы и выгоды).

  • безразличная к поиску информация (временные хранилища нейтральных данных,  и т.п.)

  • Сторонние информационные ресурсы

  • нахождение которых необходимо или желательно (значимая, полезная, ценная информация).

  • встреча с которыми нежелательна (вредоносная и мусорная информация)

  • информационный шум (прогнозы, советы, погода, котировки, здоровье, светские новости и т.п.)

 

 

 

Структура активности ресурсов поисковых систем

 

Информационные ресурсы обладают различной степенью активности в отношении поиска. Можно выделить:

  • информационные ресурсы, которые избегают быть найденными (конфиденциальные и секретные корпоративные, военные, государственные, личные и др. ресурсы)

  • информационные ресурсы, которые пассивны к поиску (наука, культура...)

  • информационные ресурсы, которые активно адаптируются к поисковым система и оптимизированы для поиска (гламур и дискурс)

 

 

 

Опасный контент

 

Опасный контент – информация, представляющая угрозу или вызывающая неприязнь.

Условно, опасный контент можно разделить на несколько основных групп:

  • Самый распространенный тип – порнография. Самая опасная – детская порнография;

  • Ресурсы, содержащие материалы националистского, расистского и человеконенавистнического толка.

  • информация со сценами извращений и насилия.

Лига безопасного интернета (http://ligainternet.ru) – организация, созданная для борьбы с опасным контентом во всемирной сети.

Цель лиги – искоренение опасного контента путем самоорганизации профессионального сообщества, участников интернет-рынка и рядовых пользователей.

В Лигу безопасного интернета входят ведущие телекоммуникационные операторы, IT-компании, интернет-ресурсы и общественные организации.

Учредитель Лиги безопасного интернета - Благотворительный фонд Святителя Василия Великого.

 

14.12.2011

Лига Безопасного Интернета
подготовила текст законопроекта
,
который предлагает установить механизмы принудительного блокирования интернет-страниц, содержащих информацию, распространение которой на территории России запрещено.

 

 

Исключенные из поиска

 

Яндекс не индексирует (или ограничивает ранжирование) сайты:

  1. Переписывающие информацию с других ресурсов и не создающие оригинального контента.

  2. Единственной целью которых является редирект (автоматическое перенаправление пользователя на другой ресурс).

  3. С автоматически сгенерированным (бессмысленным) текстом.

  4. С невидимым текстом или ссылками.

  5. Отдающие разный контент пользователям и роботам поисковых систем (клоакинг).

  6. Не представляющие никакой ценности для пользователя (по мнению Яндекса).

  7. Использующие обманные техники (вредоносный код, перенаправляющие скрипты и настройки серверов).

  8. Использующие технологии манипулирования результатами работы поисковой системы.

  9. Группы сайтов одного владельца/компании, предоставляющие пользователю одни и те же товары или услуги, созданные с целью заполнения нескольких позиций в результатах поиска и сбора трафика.

  10. Немодерируемые форумы с большим количеством ссылочного спама.

  11. Сайты или группы сайтов, интенсивно ссылающиеся друг на друга (линкфармы).

  12. Страницы сайта с результатами поиска.

  13. ?????????????????????????????????????

 

 

 

Глубокий Web

 

Глубокий веб (deep web, invisible web, hidden web) - совокупность веб-контента, который не индексируются поисковыми роботами (web crawler) в силу разных причин:

  • отсутствие ссылок с других страниц (робот ее просто не найдет);

  • динамически формируется по запросу пользователя (банки данных, резюме, базы патентов и т.д.);

  • закрыт паролями (корпоративный контент, интранет и т.д.);

  • содержится в файлах нетекстовых форматов (.pdf, .doc, .swf и т.д.);

  • запрещены к индексированию файлом robots.txt.

Глубокий веб:

  • имеет неизвестный объем, по некоторым оценкам он в 400-500 раз объемнее обычного (поисковые системы индексируют 0,2% страниц Интернета!).

  • нередко имеет более качественный контент (в среднем в 3 раза качественнее обычного).

  • используется небольшим количеством людей и имеет малый трафик.

  • растет быстрее всего.

Попытки решения проблемы:

  • Google работает над методами индексирования .pdf, .doc, содержимого библиотек, веб-форм,  архивов и репозиториев.

  • Поисковая система QProber предназначена для классификации и поиска по «скрытым» базам данных

  • Проект MetaQuerier направлен на обследование глубокой паутины.

 

11.09.2008 Infovell - поисковая система  построенная на основе генетических кодов, позволяет искать целыми "ключевыми фразами": от параграфов до набора документов общим объёмом до 25 тысяч слов на английском, арабском, китайском языках, в математических уравнениях, химических формулах.

Infovell создана учёными-генетиками University of California at Berkeley для поиска научной информации в deep web.

 

 

 

Яндекс-метрика

 

Яндекс.Метрика (http://metrika.yandex.ru/) — бесплатный инструмент Web-аналитики для повышения эффективности вашего сайта.

15.12.2011 Новый инструмент Метрики «Составная цель» позволяет точнее понять, как именно посетители сайта совершают важное для вас и вашего сайта целевое действие, и на каком этапе у них возникают сложности.

15.12.2011 Вебвизор стал доступен всем пользователям Яндекс.Метрики и каждый владелец сайта теперь может получить ответ на вопрос о действиях пользователей на своем ресурсе.

Вебвизор позволяет записывать и воспроизводить в формате видео действия посетителя: движения мыши, прокрутку страниц, клики, выделение и копирование текста.

Подробнее о Вебвизоре: metrika.yandex.ru/promo/webvisor.

 

 

 

Поисковая оптимизация

 

SEO (search engine optimization, оптимизация поисковых систем) - корректировка сайта для соответствия требованиям алгоритма поисковых систем, с целью поднятия позиции сайта в результатах поиска по определенным запросам пользователей.

Позиция сайта в результатах поиска связана с числом посетителей пришедших на него с поисковых систем, что очень важно для интернет-маркетинга. Конечная цель SEO - привлечение  целевых пользователей с поисковых серверов на сайт.

Основные способы SEO: оптимизация под выбранные запросы HTML-кода, текстового контента, структуры и навигации сайта, регистрация в каталогах и т.д.

 

Black SEO (черная оптимизация) - использование для оптимизации методов, запрещённых поисковыми системами ( линкаторы, взаимный обмен ссылками, покупка ссылок с других ресурсов, автоматическая накрутка счетчиков, использование скрытого текста, агрегация стороннего контента, использование дорвеев, спамдексинга, клоакинга и т.д.

Линкаторы - автоматизированная система обмена ссылками.

Дорвеи — страницы, автоматически созданные для роботов поисковых систем, c контентом в виде бессмысленного набора ключевых слов, используемых в возможных поисковых запросах.

Скрытый текст - текст, который индексируется поисковыми роботами, содержит ключевые слова для придания «веса» оптимизируемой странице, но для пользователей не виден.

Клоакинг - анализ переменных запроса, при котором поисковой машине отдается содержимое сайта, отличное от того, которое видит пользователь.

Спамдексинг - сайты и страницы, созданные с целью манипуляций результатами поиска в поисковых машинах.

 

 

Стивен Арнольд (аналитик Gilbane Group): Большинство тех, кто приобрел лицензию на системы поиска, не знает, чего они не знают. Как только у вас появляется определенный опыт в поиске, вы начинаете лучше понимать важность контроля метаданных и управления ими.

 

20.11.2008 90 % пользователей пролистывают не более двух страниц с результатами поиска.

 

5.12.2008 По данным  FastHosts большинство британцев понятие не имеет как работают поисковые системы:

  • 25%  считает, что хозяева ресурсов, отображаемых в результатах поиска, не имеют возможности повлиять на порядок размещения ссылок.

  • 22% полагают, что порядок отображения результатов обработки запроса всецело зависит от того, сколько денег получает поисковая система от того или иного сайта.

  • 5% убеждены в том, что порядок абсолютно случаен.

  • 19% опрошенных честно признались, что понятия не имеют, как это всё работает.

  • О существовании техник оптимизации поисковых систем знают очень немногие.

 

 

 

 

Сниппеты

 

Сниппет (snippet - фрагмент) - краткая текстовая информация по сайту, которая появляется в описании результата поиска под адресом.

Как правило, сниппеты содержат контекст, в котором встретилось ключевое слово в тексте на странице.

Сниппет, позволяет пользователю оценить соответствие страниц, выданных поисковиком, своему ожиданию

Информация, которая выводится в сниппет, берется поисковиком непосредственно из содержания страницы, метатега TITLE.