Официальный партнер проекта: компания "ПРОФИ" - Бухгалтерские услуги
Поделитесь ссылкой
Радио и TV онлайн :
Наши друзья:
| Координатный индекс |
|
Первые интернет-поисковики (середины 1990-х годов) не запоминали местоположение слова на странице. В индекс записывался только список страниц, на которых встретилось данное слово. Это делалось для экономии места и для того, чтобы получить более простую структуру индекса, другими словами, для более быстрого доступа к индексу. Однако это ограничение не позволяло достаточно точно определить релевантность страницы при поиске словосочетаний. Ведь поисковик не мог различить компактное вхождение слов запроса, когда они стоят рядом, в одной фразе, от разнесенного вхождения, когда одно слово запроса, скажем, находится в правом верхнем углу страницы, а второе —- в левом нижнем. В результате для многословных запросов релевантность была практически нулевой. Так, например, был устроен поисковик Рамблера вплоть до 1999 года. С ростом числа многословных запросов (а их доля все время растет по мере роста числа опытных пользователей) и по мере развития поисковых технологий большинство популярных поисковиков перешли на индекс, учитывающий координату слова на странице. Такой индекс называется координатным. Учет компактных вхождений слов запроса в координатном индексе позволяет не только более аккуратно "взвешивать" релевантность страницы, но и показывать наиболее подходящую цитату из текста страницы.
Как видим, индекс представляет собой обращенную, вывернутую "наизнанку" копию всех страниц Интернета. Если в обычном тексте мы идем от страницы к словам, то в индексе поисковая машина идет от слов к страницам. Поэтому индекс поисковой машины называется инвертированным или инверсным, т.е. обращенным, перевернутым. А откуда же берется цитата в поисковых результатах? Ведь порядка слов в тексте в инвертированном индексе явно нет. Неужели поисковик восстанавливает текст страницы по этому вывернутому "наизнанку" индексу? Нет, хотя это и возможно технически, гораздо проще и экономнее для показа цитат хранить еще и второй индекс, так называемый прямой. Этот прямой индекс есть, по сути, сжатая текстовая копия всего Интернета.
|
