Главная страница


<<Назад

 

Как работают поисковыесистемы

Хотя вопрос, вынесенный в заголовок этого раздела, и не относится к теме статьи (наша основная задача — научиться работать с компьюте­ром), его задают практически все начинающие пользователи Интер­нета. По-видимому, эта тема людям интересна. Обычно вопрос ста­вится так:

Почему я при просмотре WWW получаю документы медленно, в час по чайной ложке, а поисковая система умудряется за доли секун­ды пересмотреть сотни миллионов документов и выбрать из них те, которые мне подходят. Там что, другие линии связи?

Линии связи там, конечно, не телефонные, но все-таки и не такие, с которыми можно просмотреть все содержимое WWWза доли секунды. Дело в том, что все уже давно просмотрено. За ответом на наш запрос поисковая система никуда в Интернет не обращается, а ищет его в собственных базах данных. Эти базы данных и называются поиско­выми системами.
Работа поисковой системы, основанной на указателе, проходит в че­тыре этапа. За каждым этапом стоят специальные программные сред­ства. Эти программы — основной актив системы, ее «ноу-хау». Ониоберегаются от конкурентов как зеница ока, и ни одна поисковая сис­тема никогда не откроет конкретные алгоритмы, которыми пользу­ется, так что говорить о них можно только в самых общих чертах.

Этап 1. Сбор информации
На первом этапе поисковая система собирает информацию из WWW. Происходит это примерно так же, как при нашей работе с браузером, только там браузеры специальные — их называют «пауками», «чер­вями», «краулерами», «роботами» (сокращенно ботами — отсюда, кстати, и название HotBot) и т. п. Такому «пауку» задают URL-адрес, начиная с которого он просматривает WWW. Скопировав одну стра­ницу, он переходит по ее гиперссылкам на страницы, связанные с ней, копирует и их, после чего переходит на следующие и так далее.
Теоретически, при неудачном стартовом URL-адресе процесс копи­рования может завершиться после того, как какой-то сегмент WWW будет полностью исчерпан, но тогда можно ввести другой стартовый адрес и т. д. К тому же поисковая система запускает в Сеть не одного «паука», а столько, сколько позволяет производительность линий связи.
Днем и ночью множество «роботов» от различных поисковых систем просматривают содержимое Web-сайтов и копируют все новые доку­менты, которые на них появились. Из собранного материала образу­ется первичный архив. Вы можете узнать размер такого архива для русскоязычного сектора Интернета — система «Яндекс» не скрывает эту информацию от пользователей. Другие — скрывают, так как по динамике изменения цифр с течением времени нетрудно догадаться о том, как система развивается или тормозится. Не будем показывать пальцем, но принудительное торможение поисковых сис­тем отнюдь не редкость, поскольку техническое развитие стоит денег и не малых, а приносит не столько доходы, сколько хлопоты и неприятности.

А не происходит ли некоторое нарушение прав личности, когда «роботы» поисковых систем посещают частные Web-страницы и копируют их содержание к себе?

Нет, ничего подобного не происходит. С точки зрения протокола HTTP , «робот» поисковой системы ничем не хуже, чем браузер любого читателя. Если кто-то сделал свою Web-страницу доступной для обычных Web-браузеров, почему специализированные браузеры должны дискриминироваться? К тому же у автора Web-страницы есть средства, известные ему, но невидимые для читателей, чтобы «попросить» по исковых роботов не индексировать его страницу. Правда, эти сред­ства действуют не на уровне технического запрета, а на уровне сетевого этикета, но, тем не менее, этот этикет никто не нарушает.

Этап 2. Индексация
По мере того как поисковые роботы копируют доступные документы на сервер своего хозяина, там образуется архив — некий неполный образ WWW. Работать с ним пока нельзя, так как по каждому запро­су пришлось бы делать полный просмотр всего архива, а это очень долго и дорого.
На втором этапе происходит индексация собранных ресурсов. Простейший тип индексации — индексация обратным файлом. Создается  некий словарь, в который входят все слова, которые встретились в просмотренных документах. Для каждого слова числами записываются параметры, указывающие, в каком документе и в каком месте документа оно встретилось. После такой индексации и получается то, что называется поисковой ссылкой. Этот пример груб и примитивен В реальности алгоритм создания поисковой ссылкой намного хитрее, но суть примерно такая.

Этап 3. Выборка по ключевым словам
На третьем этапе поисковая система принимает ключевые слова, введенные пользователем, и ищет в своем указателе адреса документов, содержащие эти слова. Найденные документы образуют первичный результат поиска, который пока клиенту не выдается.

Этап 4. Формирование результирующей страницы
На четвертом этапе происходит ранжирование результатов поиска, чтобы клиент в первую очередь получил те результаты, которые наи­более хорошо соответствуют его запросу, — это называется сортиров­кой по релевантности. Какие документы считать более релевантны­ми, а какие менее — очень тонкий психологический момент. Простым пересчетом совпадений ключевых слов в запросе и в документе по принципу «чем больше, тем лучше», руководствуются только весьма примитивные системы. На самом деле существуют очень эффектив­ные приемы, в том числе и учитывающие психологию авторов Web-страниц и ожидания читателей.
У каждой поисковой системы при ранжировании результатов прояв­ляется своя политика и нередко бывает так, что мы отдаем предпоч­тение не той системе, которая нагребла больше Web-ресурсов, а той, которая точнее отвечает на наши запросы. Некоторые системы в последнее время стали использовать прием коммерческого ранжиро­вания, согласно которому на первые места в списках ссылок выво­дятся те сайты, владельцы которых больше за это заплатили. Может быть, в этом и нет ничего плохого, но если сравнить список систем, перешедших на коммерческую основу, со списком «загибающихся» систем, остановившихся в своем развитии, то оказывается, что они странным образом совпадают. Для нас с вами это полезный индика­тор. Лучшие поисковые системы мира стараются обходиться не только без коммерции, но и вообще без рекламы.


Рейтинг@Mail.ru
Используются технологии uCoz