|
Поведение роботов на сайте |
|
Поведение роботов на сайте
Чем отличается поведение робота на сайте от поведения обычного пользователя?
- Управляемость. Прежде всего "интеллигентный" робот должен запросить с сервера файл robots . txt с инструкциями по индексации.
- Выборочное выкачивание. При запросе документа робот четко указывает типы запрашиваемых данных, в отличие от обычного браузера, готового принимать все подряд. Основные роботы популярных поисковиков в первую очередь будут запрашивать гипертекстовые и обычные текстовые документы, оставляя без внимания файлы стилей оформления CSS, изображения, видео, ZIP-архивы и т.п. В настоящее время также востребована информация в форматах PDF, Rich Text, MS Word, MS Excel и некоторых других.
- Непредсказуемость. Невозможно отследить или предсказать путь робота по сайту, поскольку он не оставляет информации в поле Referer — адрес страницы, откуда он пришел; робот просто запрашивает список документов, казалось бы, в случайном порядке, а на самом деле в соответствии со своим внутренним списком или очередью индексации.
- Скорость. Небольшое время между запросами разных документов. Здесь речь идет о секундах или долях секунды между запросами двух разных документов. Для некоторых роботов есть даже специальные инструкции, которые указываются в файле robots.txt, по ограничению скорости запроса документов, чтобы не перегрузить сайт.
Как может выглядеть HTML-страница в глазах робота, мы не знаем, но можем попытаться себе это представить, отключая в браузере отображение графики и стилевого оформления.
|