|
Что делают роботы поисковых систем |
Что делают роботы поисковых систем
Какие же функции могут выполнять роботы?
В поисковой машине функционирует несколько разных роботов, и у каждого свое предназначение. Перечислим некоторые из задач, выполняемых роботами:
- обработка запросов и извлечение документов;
- проверка ссылок;
- мониторинг обновлений;
- проверка доступности сайта или сервера;
- анализ контента страниц для последующего размещения контекстной рекламы;
- сбор контента в альтернативных форматах (графика, данные в форматах RSS и Atom).
В качестве примера приведем список роботов Яндекса. Яндекс использует несколько видов роботов с разными функциями. Идентифицировать их можно по строке User-agent.
- Yandex/1. 01. 001 (compatible; Win 16; I) —основной индексирующий робот.
- Yandex/1.01.001 (compatible; Win 16; P) —индексатор картинок.
- Yandex/1.01.001 (compatible; Win 16; H) —робот, определяющий зеркала сайтов.
- Yandex/1.03.003 (compatible; Win 16; D) —робот, обращающийся к странице при добавлении ее через форму "Добавить URL".
- Yandex/1.03.000 (compatible; Win 16; М) —робот, обращающийся при открытии страницы по ссылке "Найденные слова".
- YandexBlog/0.99.101 (compatible; DOS3.30; Mozilla/5.0; В; robot) — робот, индексирующий xml-файлы для поиска по блогам.
- YandexSomething/1.0 — робот, индексирующий новостные потоки партнеров Яндекс.Новостей и файлы robots. txt для робота поиска по блогам.
Кроме того, в Яндексе работает несколько проверяющих роботов — "просту-кивалок", которые только проверяют доступность документов, но не индексируют их.
- Yandex/2.01.000 (compatible; Win 16; Dyatel; С) — "просту-кивалка" Яндекс.Каталога. Если сайт недоступен в течение нескольких дней, он снимается с публикации. Как только сайт начинает отвечать, он автоматически появляется в каталоге.
- Yandex/2.01.000 (compatible; Win 16; Dyatel; Z) — "просту-кивалка" Яндекс.Закладок. Ссылки на недоступные сайты выделяются серым цветом.
- Yandex/2 . 01. ООО (compatible; Win 16; Dyatel; D) — "простуки-валка" Яндекс.Директа. Она проверяет корректность ссылок из объявлений перед модерацией.
И все-таки наиболее распространенные роботы — это те, которые запрашивают, получают и архивируют документы для последующей обработки другими механизмами поисковой системы. Здесь уместно будет отделить робота от индексатора.
Поисковый робот обходит сайты и получает документы в соответствии со своим внутренним списком адресов. В некоторых случаях робот может выполнять базовый анализ документов для пополнения списка адресов. Дальнейшей обработкой документов и построением индекса поисковой системы занимается уже индексатор поисковой машины. Робот в этой схеме является всего лишь "курьером" по сбору данных.
|