Официальный партнер проекта: компания "ПРОФИ" - Бухгалтерские услуги
Поделитесь ссылкой
Радио и TV онлайн :
Наши друзья:
| Отбрасывание окончаний и работа с основами |
|
Естественным решением этой проблемы изменчивости слов является решение хранить только основы слов, а окончания и чередования — отбрасывать и хранить отдельно. Это дает не только значительную экономию, но и позволяет объединять при поиске разные грамматические формы одного и того же слова, что довольно важно для качества поиска. Для этого в ходе индексации веб-страниц слова приводятся к своим начальным формам (условно говоря, к именительному падежу или инфинитиву), а чаще — вообще к основам (корням слов), и уже в таком виде добавляются в индекс поисковой машины. Для этого поисковик обычно применяет словарь, т.е. работает только с известными ему словами. (Об обработке неизвестных слов рассказывается во врезке ниже в данной главе.) Если все словоформы слова сводятся к его основе на этапе создания индекса, то потом, при задании любой словоформы слова в запросе, она также будет сведена к основе и будут найдены все вхождения этой основы в тексте.
|
