Официальный партнер проекта: компания "ПРОФИ" - Бухгалтерские услуги
Поделитесь ссылкой
Радио и TV онлайн :
Наши друзья:
| Зачем нужно знать о машинной морфологии |
|
Все три российских поисковика — Апорт, Рамблер и Яндекс — уже много лет применяют машинную морфологию при индексировании и поиске. С весны 2006 года русская машинная морфология подключена также и в Google . У каждой поисковой машины машинная морфология своя, особенная. Впрочем, обычные слова, наподобие кондиционер, все они склоняют практически одинаково. Для владельца сайта понимание того, что поисковик считает разные формы слова одним и тем же словом, довольно важно при составлении текстов сайта, управлении ссылками, а также при планировании продвижения сайта и контекстных рекламных кампаний в системах контекстной рекламы Бегун и Яндекс.Директ.
Неизвестные слова и "нечеткая" морфология
Аккуратно отбросить окончание и найти основу можно только у известного слова, которое есть в словаре поисковика. А в языке и особенно в Интернете постоянно появляются новые слова, ибо словотворчество веб-мастеров не знает границ. Как же поступает поисковик с неизвестными ему словами? С ними делают то же самое, что и с прочими несловарными элементами — числами, буквенно-цифровыми последовательностями, словами неизвестных языков: поисковик хранит их в индексе "как есть", как иероглиф, в той фиксированной форме, в которой они встретились в тексте при
(Правда, в отличие от российских поисковиков, Google применяет машинную морфологию не на этапе индексирования, а только во время обработки запроса. Это означает, что Google записывает в индекс все словоформы отдельно, "как есть", а при обработке запроса применяет так называемое расширение запроса: слова запроса превращаются в веер словоформ и все словоформы ищутся в индексе. Интересно, что делается это не каждый раз, а только тогда, когда поисковик сочтет это обоснованным, на основе анализа статистики вхождений заданного слова на веб-страницы.) индексации. То же самое происходит и с опечатками — они хранятся "как есть". Это довольно очевидный факт, но он ведет к важному выводу: если нужно, чтобы слова на странице распознавались поисковиками во всех своих грамматических формах, их следует писать без ошибок и по возможности использовать общеупотребительные слова, которые наверняка известны машинной морфологии поисковиков. Иногда поисковик пытается как-то разобраться со словоизменением неизвестного ему слова — выдвинуть гипотезу о его возможных окончаниях по форме слова. Например, если у вас на сайте использовано слово "квазистул", то можно предположить, что оно склоняется так же, как слово "стул". Этот алгоритм называется нечеткой морфологией. Такой алгоритм, в частности, применяют Яндекс и Google. Но этот процесс во многом вероятностный, и рассчитывать на него при написании текстов сайта не стоит.
|
