Официальный партнер проекта: компания "ПРОФИ" - Бухгалтерские услуги
Поделитесь ссылкой
Радио и TV онлайн :
Наши друзья:
| Выкачивание страниц |
|
Чтобы поработать с текстом страницы и составить из него индекс, поисковик должен получить этот текст. Для этого поисковик должен выкачать этот текст, т.е. запросить у сайта заданную страницу. Выкачивает страницы специальный модуль поисковой машины, называемый поисковым "пауком" (по-английски crawler), или поисковым роботом. Поисковый робот обходит заданный на предыдущем этапе список страниц, выкачивает гигантский объем сырого текстового материала, хранит его на дисках своих компьютеров и передает на индексирование индексному роботу. Составление индекса, или индексирование Чтобы составить индекс, индексный робот поисковой машины должен выбрать все слова из всех выкачанных текстов и расположить их в алфавитном порядке, вместе с номерами страниц и разной служебной информацией о каждой странице. Для этого индексный робот перебирает все выкачанные страницы, нумерует их (а как же, ведь нужно как-то пометить страницы, чтобы потом находить их), удаляет из текста страниц всякий ненужный, нетекстовый "мусор" (например, разметку языка HTML ), затем извлекает из текста слова и помещает их в индекс. При этом слова снабжаются информацией о страницах, с которых они были взяты. Как именно устроен индекс, мы подробно расскажем чуть позже.
|
