Хотя вопрос, вынесенный в заголовок этого раздела, и не относится к теме статьи (наша основная задача — научиться работать с компьютером), его задают практически все начинающие пользователи Интернета. По-видимому, эта тема людям интересна. Обычно вопрос ставится так:
— Почему я при просмотре WWW получаю документы медленно, в час по чайной ложке, а поисковая система умудряется за доли секунды пересмотреть сотни миллионов документов и выбрать из них те, которые мне подходят. Там что, другие линии связи?
Линии связи там, конечно, не телефонные, но все-таки и не такие, с которыми можно просмотреть все содержимое WWWза доли секунды. Дело в том, что все уже давно просмотрено. За ответом на наш запрос поисковая система никуда в Интернет не обращается, а ищет его в собственных базах данных. Эти базы данных и называются поисковыми системами.
Работа поисковой системы, основанной на указателе, проходит в четыре этапа. За каждым этапом стоят специальные программные средства. Эти программы — основной актив системы, ее «ноу-хау». Ониоберегаются от конкурентов как зеница ока, и ни одна поисковая система никогда не откроет конкретные алгоритмы, которыми пользуется, так что говорить о них можно только в самых общих чертах.
Этап 1. Сбор информации
На первом этапе поисковая система собирает информацию из WWW. Происходит это примерно так же, как при нашей работе с браузером, только там браузеры специальные — их называют «пауками», «червями», «краулерами», «роботами» (сокращенно ботами — отсюда, кстати, и название HotBot) и т. п. Такому «пауку» задают URL-адрес, начиная с которого он просматривает WWW. Скопировав одну страницу, он переходит по ее гиперссылкам на страницы, связанные с ней, копирует и их, после чего переходит на следующие и так далее.
Теоретически, при неудачном стартовом URL-адресе процесс копирования может завершиться после того, как какой-то сегмент WWW будет полностью исчерпан, но тогда можно ввести другой стартовый адрес и т. д. К тому же поисковая система запускает в Сеть не одного «паука», а столько, сколько позволяет производительность линий связи.
Днем и ночью множество «роботов» от различных поисковых систем просматривают содержимое Web-сайтов и копируют все новые документы, которые на них появились. Из собранного материала образуется первичный архив. Вы можете узнать размер такого архива для русскоязычного сектора Интернета — система «Яндекс» не скрывает эту информацию от пользователей. Другие — скрывают, так как по динамике изменения цифр с течением времени нетрудно догадаться о том, как система развивается или тормозится. Не будем показывать пальцем, но принудительное торможение поисковых систем отнюдь не редкость, поскольку техническое развитие стоит денег и не малых, а приносит не столько доходы, сколько хлопоты и неприятности.
— А не происходит ли некоторое нарушение прав личности, когда «роботы» поисковых систем посещают частные Web-страницы и копируют их содержание к себе?
Нет, ничего подобного не происходит. С точки зрения протокола HTTP , «робот» поисковой системы ничем не хуже, чем браузер любого читателя. Если кто-то сделал свою Web-страницу доступной для обычных Web-браузеров, почему специализированные браузеры должны
дискриминироваться? К тому же у автора Web-страницы есть средства, известные ему, но невидимые для читателей, чтобы «попросить»
по исковых роботов не индексировать его страницу. Правда, эти средства действуют не на уровне технического запрета, а на уровне сетевого этикета, но, тем не менее, этот этикет никто не нарушает.
Этап 2. Индексация
По мере того как поисковые роботы копируют доступные документы на сервер своего хозяина, там образуется архив — некий неполный образ WWW. Работать с ним пока нельзя, так как по каждому запросу пришлось бы делать полный просмотр всего архива, а это очень долго и дорого.
На втором этапе происходит индексация собранных ресурсов. Простейший тип индексации — индексация обратным файлом. Создается некий словарь, в который входят все слова, которые встретились в просмотренных документах. Для каждого слова числами записываются параметры, указывающие, в каком документе и в каком месте документа оно встретилось. После такой индексации и получается то, что называется поисковой ссылкой. Этот пример груб и примитивен В реальности алгоритм создания поисковой ссылкой намного хитрее, но суть примерно такая.
Этап 3. Выборка по ключевым словам
На третьем этапе поисковая система принимает ключевые слова, введенные пользователем, и ищет в своем указателе адреса документов, содержащие эти слова. Найденные документы образуют первичный результат поиска, который пока клиенту не выдается.
Этап 4. Формирование результирующей страницы
На четвертом этапе происходит ранжирование результатов поиска, чтобы клиент в первую очередь получил те результаты, которые наиболее хорошо соответствуют его запросу, — это называется сортировкой по релевантности. Какие документы считать более релевантными, а какие менее — очень тонкий психологический момент. Простым пересчетом совпадений ключевых слов в запросе и в документе по принципу «чем больше, тем лучше», руководствуются только весьма примитивные системы. На самом деле существуют очень эффективные приемы, в том числе и учитывающие психологию авторов Web-страниц и ожидания читателей.
У каждой поисковой системы при ранжировании результатов проявляется своя политика и нередко бывает так, что мы отдаем предпочтение не той системе, которая нагребла больше Web-ресурсов, а той, которая точнее отвечает на наши запросы. Некоторые системы в последнее время стали использовать прием коммерческого ранжирования, согласно которому на первые места в списках ссылок выводятся те сайты, владельцы которых больше за это заплатили. Может быть, в этом и нет ничего плохого, но если сравнить список систем, перешедших на коммерческую основу, со списком «загибающихся» систем, остановившихся в своем развитии, то оказывается, что они странным образом совпадают. Для нас с вами это полезный индикатор. Лучшие поисковые системы мира стараются обходиться не только без коммерции, но и вообще без рекламы.
|