Официальный партнер проекта: компания "ПРОФИ" - Бухгалтерские услуги
Поделитесь ссылкой
Радио и TV онлайн :
Наши друзья:
| Прямой индекс |
|
Чтобы показывать при найденных страницах цитаты с выделенными (подсвеченными) словами запроса, поисковые машины хранят все тексты всех проиндексированных страниц. Хранят, конечно, в сжатом, упакованном виде, без HTML-разметки, графики и прочего "мусора", в чисто текстовом виде. Но в любом случае поисковая машина хранит у себя на серверах копию всего Интернета, выкачанного ее индексным "пауком". Для хранения текстовой копии страниц инверсный индекс не подходит — слишком долго каждый раз при отображении цитаты восстанавливать порядок слов в тексте. Гораздо проще хранить второй индекс, на жаргоне разработчиков называемый прямым. Он представляет собой тексты веб-страниц, очищенные от всех не-текстовых элементов, сжатые и упакованные, и является текстовой копией всего Интернета. Например, Google имеет у себя текстовую копию всего мирового Интернета (в том объеме, до какого смог добраться его "паук"), а Яндекс — копию всего Рунета. Именно наличие этой текстовой копии позволяет поисковым машинам не только показывать релевантные цитаты в результатах поиска, но и иметь функцию "восстановить текст страницы", которой удобно пользоваться, если сама нужная страница в данный момент недоступна или вообще уже удалена с сайта.
|
