Ресурсы информационного поиска |
Человек,
с помощью поисковой системы ищет нечто в уже найденном и проиндексированном
поисковой системой и находит то и так, что и как она запрограммирована ему
выдавать. |
|
Поисковый характер информационных ресурсов
Поиск — та же добыча радия.
В грамм добыча, в год труды.
Изводишь единого слова ради
тысячи тонн словесной руды.
Почти ВВМ
В поисковом контексте каждый
пользователь Сети может выделить для себя:
-
не предназначенные для
внешних, требующие защиты от индексации поисковыми системами (личная
информация, семейные блоги, документы в онлайновых хранилищах и
т.п.).
-
предназначенные для
внешних, требующие поисковой оптимизации (для добрых дел, славы и
выгоды).
-
безразличная к поиску
информация (временные хранилища нейтральных данных, и т.п.)
-
нахождение которых
необходимо или желательно (значимая, полезная, ценная информация).
-
встреча с которыми
нежелательна (вредоносная и мусорная информация)
-
информационный шум
(прогнозы, советы, погода, котировки, здоровье, светские новости и
т.п.)
|
Структура
активности ресурсов поисковых систем
Информационные ресурсы обладают различной
степенью активности в отношении поиска. Можно выделить:
-
информационные ресурсы, которые
избегают быть найденными (конфиденциальные и секретные корпоративные,
военные, государственные, личные и др. ресурсы)
-
информационные ресурсы, которые
пассивны к поиску (наука, культура...)
-
информационные ресурсы,
которые активно адаптируются к поисковым система и оптимизированы для
поиска (гламур и дискурс)
|
Опасный контент
Опасный контент –
информация, представляющая угрозу или вызывающая неприязнь.
Условно, опасный контент можно разделить на несколько основных групп:
-
Самый распространенный тип – порнография. Самая опасная – детская
порнография;
-
Ресурсы,
содержащие материалы националистского, расистского и
человеконенавистнического толка.
-
информация со сценами извращений и насилия.
Лига безопасного интернета (http://ligainternet.ru)
– организация, созданная для борьбы с опасным контентом во всемирной
сети.
Цель лиги –
искоренение опасного контента путем самоорганизации
профессионального сообщества, участников интернет-рынка и рядовых
пользователей.
В Лигу безопасного интернета входят ведущие телекоммуникационные
операторы, IT-компании, интернет-ресурсы и общественные организации.
Учредитель Лиги безопасного интернета -
Благотворительный фонд
Святителя Василия Великого.
14.12.2011
Лига Безопасного Интернета
подготовила текст законопроекта
который предлагает установить механизмы принудительного блокирования
интернет-страниц, содержащих информацию, распространение которой на
территории России запрещено.
|
Исключенные из поиска
Яндекс не индексирует (или ограничивает
ранжирование) сайты:
-
Переписывающие
информацию с других ресурсов и не создающие оригинального контента.
-
Единственной целью которых является редирект (автоматическое
перенаправление пользователя на другой ресурс).
-
С
автоматически сгенерированным (бессмысленным) текстом.
-
С
невидимым текстом или ссылками.
-
Отдающие разный контент пользователям и роботам поисковых систем (клоакинг).
-
Не
представляющие никакой ценности для пользователя (по мнению Яндекса).
-
Использующие обманные техники (вредоносный код, перенаправляющие скрипты
и настройки серверов).
-
Использующие технологии
манипулирования результатами работы поисковой системы.
-
Группы сайтов одного владельца/компании, предоставляющие пользователю
одни и те же товары или услуги, созданные с целью заполнения нескольких
позиций в результатах поиска и сбора трафика.
-
Немодерируемые форумы с большим количеством ссылочного спама.
-
Сайты
или группы сайтов, интенсивно ссылающиеся друг на друга (линкфармы).
-
Страницы сайта с результатами поиска.
-
?????????????????????????????????????
|
Глубокий
Web
Глубокий
веб (deep
web, invisible web, hidden web)
- совокупность веб-контента, который
не индексируются поисковыми роботами
(web
crawler)
в силу разных причин:
-
отсутствие ссылок с других страниц (робот ее просто не найдет);
-
динамически формируется по запросу пользователя (банки данных, резюме,
базы патентов и т.д.);
-
закрыт паролями (корпоративный контент, интранет и т.д.);
-
содержится в файлах нетекстовых форматов
(.pdf, .doc, .swf и т.д.);
-
запрещены к
индексированию файлом
robots.txt.
Глубокий веб:
-
имеет
неизвестный объем, по некоторым оценкам он в 400-500
раз
объемнее
обычного
(поисковые системы
индексируют 0,2% страниц Интернета!).
-
нередко имеет более качественный контент
(в среднем в 3 раза качественнее обычного).
-
используется небольшим количеством людей и
имеет малый трафик.
-
растет
быстрее всего.
Попытки решения проблемы:
-
Google
работает над методами индексирования .pdf, .doc, содержимого библиотек,
веб-форм,
архивов и репозиториев.
-
Поисковая
система
QProber
предназначена для классификации и поиска по «скрытым» базам данных
-
Проект
MetaQuerier
направлен на обследование глубокой паутины.
11.09.2008
Infovell
- поисковая система
построенная на основе генетических кодов, позволяет искать целыми
"ключевыми фразами": от параграфов до набора
документов общим объёмом до 25 тысяч слов на английском, арабском, китайском
языках, в математических уравнениях, химических формулах.
Infovell
создана учёными-генетиками
University of California at Berkeley
для поиска научной информации в deep web.
|
Яндекс-метрика
Яндекс.Метрика (http://metrika.yandex.ru/)
— бесплатный инструмент Web-аналитики для повышения эффективности вашего
сайта.
15.12.2011
Новый инструмент Метрики «Составная
цель»
позволяет точнее понять, как именно посетители сайта совершают важное для
вас и вашего сайта целевое действие, и на каком этапе у них возникают
сложности.
15.12.2011
Вебвизор
стал доступен всем пользователям
Яндекс.Метрики
и
каждый владелец сайта теперь может получить ответ
на вопрос о действиях пользователей на своем ресурсе.
Вебвизор позволяет записывать и воспроизводить в формате видео действия
посетителя: движения мыши, прокрутку страниц, клики, выделение и
копирование текста.
Подробнее о Вебвизоре:
metrika.yandex.ru/promo/webvisor.
|
Поисковая оптимизация
SEO
(search
engine optimization,
оптимизация
поисковых систем)
-
корректировка сайта для соответствия требованиям алгоритма поисковых систем, с
целью поднятия позиции сайта в результатах поиска по определенным запросам
пользователей.
Позиция сайта
в результатах поиска связана с числом посетителей пришедших на него с поисковых
систем, что очень важно для интернет-маркетинга.
Конечная цель
SEO
- привлечение целевых пользователей с поисковых
серверов на сайт.
Основные
способы SEO: оптимизация под
выбранные запросы HTML-кода, текстового контента, структуры и навигации сайта,
регистрация в каталогах и т.д.
Black
SEO
(черная оптимизация)
- использование для оптимизации методов, запрещённых
поисковыми системами ( линкаторы, взаимный обмен ссылками, покупка ссылок с
других ресурсов, автоматическая накрутка счетчиков, использование скрытого
текста, агрегация стороннего контента, использование
дорвеев, спамдексинга, клоакинга и т.д.
Линкаторы
-
автоматизированная система обмена ссылками.
Дорвеи
— страницы, автоматически созданные для роботов поисковых систем, c контентом
в виде бессмысленного набора
ключевых слов, используемых в возможных поисковых запросах.
Скрытый текст
- текст, который индексируется поисковыми роботами, содержит ключевые слова для
придания «веса» оптимизируемой странице, но для пользователей не виден.
Клоакинг
- анализ переменных запроса, при котором
поисковой машине отдается содержимое сайта, отличное от того, которое видит
пользователь.
Спамдексинг
- сайты и страницы, созданные с целью манипуляций результатами поиска в
поисковых машинах.
|
Стивен Арнольд
(аналитик Gilbane
Group):
Большинство тех,
кто приобрел лицензию на системы поиска, не знает, чего они не знают.
Как только у вас появляется определенный опыт в поиске, вы начинаете лучше
понимать важность контроля метаданных и управления ими.
20.11.2008
90 %
пользователей пролистывают не более двух страниц с результатами поиска.
5.12.2008
По данным FastHosts большинство британцев понятие не имеет как
работают поисковые системы:
-
25% считает, что хозяева ресурсов,
отображаемых в результатах поиска, не имеют возможности повлиять
на порядок размещения ссылок.
-
22% полагают, что порядок
отображения результатов обработки запроса всецело зависит от того, сколько
денег получает поисковая система от того или иного сайта.
-
5% убеждены в
том, что порядок абсолютно случаен.
-
19% опрошенных честно признались,
что понятия не имеют, как это всё работает.
-
О существовании техник
оптимизации поисковых систем знают очень немногие.
|
Сниппеты
Сниппет (snippet - фрагмент) - краткая текстовая информация по сайту,
которая появляется в описании результата поиска под адресом.
Как правило, сниппеты содержат контекст, в котором встретилось ключевое
слово в тексте на странице.
Сниппет, позволяет пользователю оценить соответствие страниц, выданных
поисковиком, своему ожиданию
Информация, которая выводится в сниппет, берется поисковиком непосредственно
из содержания страницы, метатега TITLE. |
|