kmp-info-search

Ресурсы информационного поиска

Человек, с помощью поисковой системы ищет нечто в уже найденном и проиндексированном поисковой системой и находит то и так, что и как она запрограммирована ему выдавать.

Поисковый характер информационных ресурсов

Поиск — та же добыча радия.
В грамм добыча, в год труды.
Изводишь единого слова ради
тысячи тонн словесной руды.

Почти ВВМ

В поисковом контексте каждый пользователь Сети может выделить для себя:

Собственные информационные ресурсы:

не предназначенные для внешних, требующие защиты от индексации поисковыми системами (личная информация, семейные блоги, документы в онлайновых хранилищах и т.п.).

предназначенные для внешних, требующие поисковой оптимизации (для добрых дел, славы и выгоды).

безразличная к поиску информация (временные хранилища нейтральных данных, и т.п.)

Сторонние информационные ресурсы

нахождение которых необходимо или желательно (значимая, полезная, ценная информация).

встреча с которыми нежелательна (вредоносная и мусорная информация)

информационный шум (прогнозы, советы, погода, котировки, здоровье, светские новости и т.п.)

Структура активности ресурсов поисковых систем

Информационные ресурсы обладают различной степенью активности в отношении поиска. Можно выделить:

информационные ресурсы, которые избегают быть найденными (конфиденциальные и секретные корпоративные, военные, государственные, личные и др. ресурсы)
информационные ресурсы, которые пассивны к поиску (наука, культура...)
информационные ресурсы, которые активно адаптируются к поисковым система и оптимизированы для поиска (гламур и дискурс)

Опасный контент

Опасный контент – информация, представляющая угрозу или вызывающая неприязнь.

Условно, опасный контент можно разделить на несколько основных групп:

Самый распространенный тип – порнография. Самая опасная – детская порнография;
Ресурсы, содержащие материалы националистского, расистского и человеконенавистнического толка.
информация со сценами извращений и насилия.

Лига безопасного интернета (http://ligainternet.ru) – организация, созданная для борьбы с опасным контентом во всемирной сети.

Цель лиги – искоренение опасного контента путем самоорганизации профессионального сообщества, участников интернет-рынка и рядовых пользователей.

В Лигу безопасного интернета входят ведущие телекоммуникационные операторы, IT-компании, интернет-ресурсы и общественные организации.

Учредитель Лиги безопасного интернета - Благотворительный фонд Святителя Василия Великого.

14.12.2011

Лига Безопасного Интернета

подготовила текст законопроекта

который предлагает установить механизмы принудительного блокирования интернет-страниц, содержащих информацию, распространение которой на территории России запрещено.

Исключенные из поиска

Яндекс не индексирует (или ограничивает ранжирование) сайты:

Переписывающие информацию с других ресурсов и не создающие оригинального контента.
Единственной целью которых является редирект (автоматическое перенаправление пользователя на другой ресурс).
С автоматически сгенерированным (бессмысленным) текстом.
С невидимым текстом или ссылками.
Отдающие разный контент пользователям и роботам поисковых систем (клоакинг).
Не представляющие никакой ценности для пользователя (по мнению Яндекса).
Использующие обманные техники (вредоносный код, перенаправляющие скрипты и настройки серверов).
Использующие технологии манипулирования результатами работы поисковой системы.
Группы сайтов одного владельца/компании, предоставляющие пользователю одни и те же товары или услуги, созданные с целью заполнения нескольких позиций в результатах поиска и сбора трафика.
Немодерируемые форумы с большим количеством ссылочного спама.
Сайты или группы сайтов, интенсивно ссылающиеся друг на друга (линкфармы).
Страницы сайта с результатами поиска.
?????????????????????????????????????

Глубокий Web

Глубокий веб (deep web, invisible web, hidden web) - совокупность веб-контента, который не индексируются поисковыми роботами (web crawler) в силу разных причин:

отсутствие ссылок с других страниц (робот ее просто не найдет);
динамически формируется по запросу пользователя (банки данных, резюме, базы патентов и т.д.);
закрыт паролями (корпоративный контент, интранет и т.д.);
содержится в файлах нетекстовых форматов (.pdf, .doc, .swf и т.д.);
запрещены к индексированию файлом robots.txt.

Глубокий веб:

имеет неизвестный объем, по некоторым оценкам он в 400-500 раз объемнее обычного (поисковые системы индексируют 0,2% страниц Интернета!).
нередко имеет более качественный контент (в среднем в 3 раза качественнее обычного).
используется небольшим количеством людей и имеет малый трафик.
растет быстрее всего.

Попытки решения проблемы:

Google работает над методами индексирования .pdf, .doc, содержимого библиотек, веб-форм, архивов и репозиториев.
Поисковая система QProber предназначена для классификации и поиска по «скрытым» базам данных
Проект MetaQuerier направлен на обследование глубокой паутины.

11.09.2008 Infovell - поисковая система построенная на основе генетических кодов, позволяет искать целыми "ключевыми фразами": от параграфов до набора документов общим объёмом до 25 тысяч слов на английском, арабском, китайском языках, в математических уравнениях, химических формулах.

Infovell создана учёными-генетиками University of California at Berkeley для поиска научной информации в deep web.

Яндекс-метрика

Яндекс.Метрика (http://metrika.yandex.ru/) — бесплатный инструмент Web-аналитики для повышения эффективности вашего сайта.

15.12.2011 Новый инструмент Метрики «Составная цель» позволяет точнее понять, как именно посетители сайта совершают важное для вас и вашего сайта целевое действие, и на каком этапе у них возникают сложности.

15.12.2011 Вебвизор стал доступен всем пользователям Яндекс.Метрики и каждый владелец сайта теперь может получить ответ на вопрос о действиях пользователей на своем ресурсе.

Вебвизор позволяет записывать и воспроизводить в формате видео действия посетителя: движения мыши, прокрутку страниц, клики, выделение и копирование текста.

Подробнее о Вебвизоре: metrika.yandex.ru/promo/webvisor.

Поисковая оптимизация

SEO (search engine optimization, оптимизация поисковых систем) - корректировка сайта для соответствия требованиям алгоритма поисковых систем, с целью поднятия позиции сайта в результатах поиска по определенным запросам пользователей.

Позиция сайта в результатах поиска связана с числом посетителей пришедших на него с поисковых систем, что очень важно для интернет-маркетинга. Конечная цель SEO - привлечение целевых пользователей с поисковых серверов на сайт.

Основные способы SEO: оптимизация под выбранные запросы HTML-кода, текстового контента, структуры и навигации сайта, регистрация в каталогах и т.д.

Black SEO (черная оптимизация) - использование для оптимизации методов, запрещённых поисковыми системами ( линкаторы, взаимный обмен ссылками, покупка ссылок с других ресурсов, автоматическая накрутка счетчиков, использование скрытого текста, агрегация стороннего контента, использование дорвеев, спамдексинга, клоакинга и т.д.

Линкаторы - автоматизированная система обмена ссылками.

Дорвеи — страницы, автоматически созданные для роботов поисковых систем, c контентом в виде бессмысленного набора ключевых слов, используемых в возможных поисковых запросах.

Скрытый текст - текст, который индексируется поисковыми роботами, содержит ключевые слова для придания «веса» оптимизируемой странице, но для пользователей не виден.

Клоакинг - анализ переменных запроса, при котором поисковой машине отдается содержимое сайта, отличное от того, которое видит пользователь.

Спамдексинг - сайты и страницы, созданные с целью манипуляций результатами поиска в поисковых машинах.

Стивен Арнольд (аналитик Gilbane Group): Большинство тех, кто приобрел лицензию на системы поиска, не знает, чего они не знают. Как только у вас появляется определенный опыт в поиске, вы начинаете лучше понимать важность контроля метаданных и управления ими.

20.11.2008 90 % пользователей пролистывают не более двух страниц с результатами поиска.

5.12.2008 По данным FastHosts большинство британцев понятие не имеет как работают поисковые системы:

25% считает, что хозяева ресурсов, отображаемых в результатах поиска, не имеют возможности повлиять на порядок размещения ссылок.
22% полагают, что порядок отображения результатов обработки запроса всецело зависит от того, сколько денег получает поисковая система от того или иного сайта.
5% убеждены в том, что порядок абсолютно случаен.
19% опрошенных честно признались, что понятия не имеют, как это всё работает.
О существовании техник оптимизации поисковых систем знают очень немногие.

Сниппеты

Сниппет (snippet - фрагмент) - краткая текстовая информация по сайту, которая появляется в описании результата поиска под адресом.

Как правило, сниппеты содержат контекст, в котором встретилось ключевое слово в тексте на странице.

Сниппет, позволяет пользователю оценить соответствие страниц, выданных поисковиком, своему ожиданию

Информация, которая выводится в сниппет, берется поисковиком непосредственно из содержания страницы, метатега TITLE.