Официальный партнер проекта: компания "ПРОФИ" - Бухгалтерские услуги
Поделитесь ссылкой
Радио и TV онлайн :
Наши друзья:
| Составление индекса посиковой машиной |
|
Собранные вместе основы всех слов из всех текстов сводятся в индекс — своеобразный словарь, в котором основы упорядочены по алфавиту, а при каждой основе записано, с какой страницы она взята (номер страницы) и на каком месте на этой странице данная основа стояла (номер вхождения). Основы в словаре упорядочиваются по алфавиту для удобства поиска по ним. Таким образом, индексная запись имеет следующую структуру: ОСНОВА /номер страницы + номер вхождения / номер страницы + номер вхождения / номер страницы + номер вхождения / .... Конечно, в реальности для экономии места и повышения скорости использования индекса его структуру всячески оптимизируют и усложняют. Например, вместо основ в индексе хранят их номера (так как номера короче и имеют фиксированную длину), а основы хранят отдельно; номера страниц пишут не всякий раз, а только единожды для всех вхождений с данной страницы, и т.д. Затем индекс упаковывают для экономии места, еще раз индексируют для ускорения доступа и т.д. Но общая идея индексной записи именно такова, как описано выше.
|
