Принцип работы поисковых систем
Как поисковики ориентируются в миллиардах существующих в Интернете страниц и в считанные секунды выдают в результатах запроса сайты с необходимой нам информацией?
Полный алгоритм работы той или иной поисковой машины вам никто никогда не расскажет. Это своего рода тайна, в которую посвящены единицы: главы компаний и приближенные к ним люди.
В данной статье будет рассмотрен общий принцип работы поисковых машин.
Любую поисковую систему можно разбить на пять составляющих, которые тесно взаимодействуют друг с другом.
• Spider (паук)
• Сrawler (краулер)
• Indexer (индексатор)
• Database (база данных)
• Search Engine Results Еngine (система выдачи результатов)
А теперь по порядку:
Spider. Если на ваш сайт ведет хотя бы одна внешняя ссылка, тогда рано или поздно вас посетит специальная серфер-программа, основной задачей которой является скачивание HTML-кода страниц. Посмотреть этот код можно, выбрав в меню «Вид» => «Просмотр HTML-кода» (IE) или Ctrl+F3 (Opera).
Сrawler. Выделяет на скачанных пауком страницах ссылки для планировки дальнейших действий спайдера.
Indexer. Занимается анализом содержимого HTML-кода.
Database. Место хранения проанализированной информации.
Search Engine Results Engine. Когда пользователь вводит поисковый запрос, именно SERE, посылая запрос в базу данных, занимается формированием списка релевантных страниц и их порядка в результатах поиска.
Предыдущая