Официальный партнер проекта: компания "ПРОФИ" - Бухгалтерские услуги
Поделитесь ссылкой
Радио и TV онлайн :
Наши друзья:
| Представление о "естественных веб-страницах" |
|
Главный принцип поисковых систем таков: они стремятся найти и показать вверху списка результатов "естественные веб-страницы" , наиболее соответствующие запросу. Как говорят разработчики поисковых машин, их интересуют веб-страницы, созданные людьми и для людей (а не для поисковых роботов). Что же означает слово "естественные"? Разберем это на примере. Пусть поисковая система по запросу новости нашла два следующих текстовых документа. В обоих текстах есть слово "новости". Главные неофициальные новости 2005 года Весь год, параллельно с самыми важными событиями, происходит множество любопытных курьезов, которые упоминаются в новостях в последнюю очередь. Однако без них картина уходящего года была бы, наверное, не полной, и уж, во всяком случае, не такой красочной. Лента. Ру предлагает список самых странных новостей года, составленный на основе предпочтений наших читателей. * * * Главные новости неофициальные новости 2005 новости года Весь новости год, параллельно новости с самыми важными событиями, происходит новости множество любопытных новости курьезов, которые упоминаются в новостях в последнюю новости очередь. Однако без новости них картина уходящего года была бы, наверное, не полной, и уж во всяком новости случае не такой красочной. Лента.Ру предлагает новости список самых странных новостей года, составленный на основе предпочтений новости наших читателей. 1 Например, Яндекс называет это естественными сетевыми документами. Даже беглый взгляд на эти тексты позволяет увидеть принципиальное отличие: первый текст написан хорошим, гладким языком, а вот второй... какой-то "неправильный". Читать его сложно, слово "новости" употребляется в нем не к месту и не в меру. Иными словами, первый текст — естественный, он написан человеком и для человека. Второй — неестественный, люди не смогут легко прочитать его и понять. Очевидно, он составлен кем-то специально для поискового робота. А теперь вспомним, что нам (поисковой машине) необходимо решить, ссылку на какой из этих документов поставить выше в результатах поиска по запросу новости. В первом тексте слово "новости" встречается два раза, во втором — двенадцать. Казалось бы, чем чаще в тексте встречается нужное слово, тем более соответствует текст запросу... Следуя такой простой логике, мы должны были бы в результатах поиска первой поставить ссылку на полную белиберду. Увы, поисковая система не умеет понимать тексты, как это делает человек, и выбор из двух, или двух сотен, или двух миллионов текстов, в которых найдено слово из поискового запроса, осуществляется автоматически. Как же поисковая машина может автоматически отличить естественные тексты от неестественных? На помощь приходят лингвистика и математика. Естественный текст имеет свои качественные и количественные характеристики, которые почти не меняются от текста к тексту. Это средняя длина предложений, средняя длина слов, частоты употребления слов, распределение знаков препинания и т.п. Многие из этих характеристик можно подсчитать автоматически и тем самым оценить степень естественности текста. Наиболее устойчивы частоты встречаемости слов в тексте. Они лучше всего исследованы, и их труднее всего подделать. Наиболее известным лингвистическим фактом о частотах слов в "естественных" текстах является закон Ципфа: если расположить слова в порядке их частоты употребления в некотором достаточно большом текстовом массиве, то количество вхождений слова будет обратно пропорционально его номеру. Закон Ципфа применяют для анализа текстов в самых разных отраслях, в том числе даже для анализа зашифрованных сообщений в криптографии, когда нужно понять, имеем ли мы дело хоть и с зашифрованным, но все-таки естественным текстом. Конечно, частота употребления конкретного слова сильно зависит от тематики рассматриваемых текстов. Но в одной тематике эти частоты довольно устойчивы и починяются закону Ципфа. Зная этот закон и другие принципы поведения слов в тексте, поисковая машина может обнаружить неестественную плотность и расположение некоторых слов и на этом основании сделать заключение о неестественном характере текста. Например, в приведенном примере неестественного текста частота слова "новости" почти в три раза выше, чем ожидаемое для естественных текстов. Несомненно, что алгоритмы ранжирования реальных поисковых машин намного сложнее и учитывают множество факторов. Но все эти факторы, используемые в качестве значимых параметров для ранжирования, взяты именно из представлений о том, какими должны быть нормальные, естественные, сетевые документы, предназначенные для пользователей. У читателя может возникнуть естественный вопрос, почему мы так старательно подчеркиваем слово "естественный". Разве в Интернете кроме обычных текстов веб-страниц бывают какие-то другие, "неестественные" документы? Откуда они могут появиться, кто и с какой целью их создает? Кому может понадобиться нечитаемый документ, где слово "новости" повторяется через каждые два слова? К сожалению, неестественных документов, созданных для того, чтобы обмануть поисковики, в Интернете очень много. Вопрос, кто их создает и с какой целью, мы подробно разберем в главе о поисковом спаме. А сейчас рассмотрим внутренние факторы, от которых зависит положение сайта в результатах поиска. |
