Официальный партнер проекта: компания "ПРОФИ" - Бухгалтерские услуги
Поделитесь ссылкой
Радио и TV онлайн :
Наши друзья:
| Разделители и стоп-слова |
|
Конечно, поисковики не индексируют всякие служебные символы, так называемые разделители — пробелы, знаки препинания, а также различные теги и другие конструкции языка HTML. Например, если ввести в Яндекс или Google запрос из одной точки (.), они откажутся искать по такому запросу, а Яндекс еще и сообщит о "синтаксической ошибке". Действительно, точка есть в любом тексте, так что искать ее нет смысла, да и накладно по затратам серверной мощности. Стоп-слова А есть ли "ненужные слова", которые поисковики не индексируют вовсе? Поисковый индекс представляет собой пусть хорошо упакованную, максимально сжатую, вывернутую "наизнанку", но все же копию всех страниц Интернета, известных поисковику. А поисковики стремятся получить данные о максимально большем количестве страниц, т.е. в идеале поисковый индекс должен представлять собой копию всего Интернета, а это огромный объем данных. Поэтому раньше поисковые машины старались экономить место на дисках и время работы сервера и отбрасывали при индексации некоторые неважные, служебные слова, так называемые стоп-слова, например предлоги, союзы, числа, сокращения и т.п. Отбрасывали они также и цифры. В дальнейшем оказалось, что пользователи все-таки достаточно часто запрашивают такие слова, поэтому их нужно хранить (особенно для поиска точных цитат, включающих эти служебные слова). А стоимость хранения мегабайта данных к настоящему времени существенно снизилась — жесткие диски стали дешевы. Так что сейчас большинство популярных поисковиков индексируют все слова в текстах, в том числе и стоп-слова — предлоги, союзы, междометия. Индексируют они также и цифры, и буквенно-цифровые комбинации (т.е. считают их словами). Так что сейчас вы можете поискать в Яндексе или Рамблере, например, предлог "в". Это, кстати говоря, хороший способ понять, сколько всего страниц в индексе поисковика, поскольку предлог "в" есть в любом русскоязычном тексте.
|
