Официальный партнер проекта: компания "ПРОФИ" - Бухгалтерские услуги
Поделитесь ссылкой
Радио и TV онлайн :
Наши друзья:
| Как устроен индекс поисковой машины |
|
Индекс — слово, которое постоянно упоминается в связи с поисковыми машинами. Увы, большинство пользователей Интернета до сих пор довольно смутно представляют себе, что это такое. Хотя, как уже говорилось выше, ничего сложного в этом понятии нет, более того, ему много веков, и каждый из нас встречался с индексом в виде предметного указателя книги еще до своего первого выхода в Интернет. Давайте рассмотрим процесс индексирования текста подробнее и разберемся с устройством индекса. Вот какие шаги выполняет поисковая машина для создания индекса из выкачанных веб-страниц. Конверсия в чистый текст Для начала текст индексируемой страницы нужно очистить от всяких нетекстовых элементов — графики, разметки (тегов) языка HTML и прочего "мусора". В результате получается чистый текст, с которым дальше работает индексный робот. Выборка слов Все слова нужно выбрать из текста, чтобы затем расположить их по алфавиту. Для этого поисковик должен знать, что именно считается словом — последовательность букв (и какого именно алфавита), числа, буквенно-цифровые последовательности, слова с дефисом и т.п., а также, что словом не считается и пропускается (пробелы, знаки препинания и пр.). Ниже мы расскажем об этом чуть подробнее. А сейчас лишь заметим, что у каждого поисковика есть свое определение того, что считать словом в тексте (стандарта здесь, увы, не существует). Итак, поисковик выбирает из текста все, что считает словами, и собирает их в отдельный список. Лингвистическая обработка В большинстве поисковых машин слова не заносятся в индекс в том виде, в котором они приведены в тексте. Обычно на этапе выборки слов из текстов веб-страниц поисковая машина применяет какой-то свой алгоритм лингвистической обработки слов, а именно, приведения слов к их начальным грамматическим формам, или основам (к именительному падежу, грубо говоря). Этот алгоритм называется машинной морфологией. Делается это для экономии места в индексе и, что более важно, для более точного поиска. По поводу использования машинной морфологии в поисковиках также бытует довольно много мифов и домыслов, так что ниже, в отдельном разделе, мы специально коснемся этого вопроса. Пока же достаточно сказать, что машинная морфология служит для замены слов на их основы в индексе поисковика.
|
