Принцип работы поисковой системы

Начать. Это бесплатно
или регистрация c помощью Вашего email-адреса
Принцип работы поисковой системы создатель Mind Map: Принцип работы поисковой системы

1. 4.Ранжирование

2. 2.Индексация

3. 3.Поиск информации

4. 1.Сбор данных

5. Как только вы запустили свой сайт и дали роботу какой-нибудь поисковой системы понять, что появился новый ресурс (с помощью внешних ссылок на ваш сайт, добавления его в адурилку или используя другие методы), робот приходит к вам, начинает ходить по страницам и собирать с них данные (это могут быть текстовый контент, картинки, видео и др. файлы). Этот процесс называется сбором данных (англ. crawling) и он может происходить не только при запуске сайта. Робот составляет для сайта расписание, когда он должен на него зайти в следующий раз, проверить старую инфомрацию и добавить новые страницы, если таковые имеются

6. Страницам сайта необходимо пройти такой этап, как индексация – составление для каждой страницы обратного (инвертированного) файла индекса. Индекс служит для того, чтобы быстро по нему производить поиск и состоит обычно из списка слов из текста и информации о них (позиции в тексте, вес и др.). После того, как прошла индексация сайта или отдельных страниц, они появляются в основной выдаче поисковика и их можно найти по ключевым словам, присутствующим в тексте. Процесс индексации обычно происходит довольно быстро после того, как робот стянет информацию с вашего сайта.

7. При поиске, первым делом, анализируется запрос, введенный пользователем (происходит препроцессинг запроса), в результате которого вычисляются веса для каждого из слов (т.н. переколдовка в яндексе). Далее, поиск производится по инвертированным индексам, находятся все документы в коллекции (базе данных поисковой системы), которые наиболее подходят под данный запрос.

8. После того, как наиболее схожие документы были отобраны из основной коллекции, они должны ранжироваться, чтобы в верхних результатах отражались наиболее полезные для пользователя ресурсы.При ранжировании документов используются, как внутренние факторы, так и внешние. А также можно их разделить на зависимые от запроса факторы (релевантность текста документа или ссылок) и независимые от запроса.