gid-informportal.ru

Поисковые пауки Google

  • Автор: Мария Коротина
  • / Дата: 22 февраля 2013 в 03:15

Для того чтобы создавать и поддерживать свои базы данных веб-страниц, Google использует автоматизированные программы, называемые пауками, или веб-сканерами, чтобы пройти по интернету и записать информацию о сайтах. Эти пауки загружают страницы, когда путешествуют, собирая информацию для составления таблиц в базе данных поисковой системы. Google использует уникальную систему для классификации и ранжирования страниц, обнаруженных своими пауками, и эта система стала одной из причин популярности поисковой системы и ее успеха на протяжении многих лет.

Пауки

Поисковые пауки начинают свое путешествие через интернет с набора URL-адресов, предоставленных создателем сайта. Посещение начинается с первой страницы в списке, которая загружает его, и отмечает любую гиперссылку на страницу, добавив ее в нижнюю часть своего списка. Затем он посещает следующую страницу и повторяет процедуру. В процессе мониторинга, он строит список URL-адресов, связанных посещением, и если оставить его работать очень долго, в конце концов, он загрузит каждую страницу в сети Интернет, доступную через гиперссылки. Пауки также обычно имеют алгоритм, который отправляет их обратно на страницы в течение заданного периода времени, чтобы оценить произошедшие изменения.

Ранее веб-сканирование

Когда поисковики впервые начали использовать пауков в каталогах веб-страниц, алгоритмы, были простыми. Самое раннее поисковое ранжирование страницы, зависело от того как часто данное ключевое слово появляется на странице, предполагая, что большее число повторений означает более подробную информацию о выбранной теме. Веб авторы быстро научились злоупотреблять этой системы, однако, практика, которая получила название keyword stuffing. Создатели страниц будут использовать ключевые слова несколько раз в тексте, и иногда скрывают крупные связки ключевых слов в невидимом тексте в любом месте страницы, чтобы раздуть свой рейтинг.

Google

В 1996 году в Стэнфордском университете студенты Ларри Пейдж и Сергей Брин решил, что нынешняя методология поиска слишком легко поддавалась манипуляциям и давала некачественные результаты. Они предложили новую систему, которая будет учитывать взаимосвязь между веб-страницами, а не просто подсчет слов на странице. Их поисковые пауки могли бы подсчитать количество гиперссылок, указывающих на данную страницу и использовать этот показатель как представление относительной стоимости страницы, предполагая, что высококачественные страниц естественно собирали много таких «бэков» в интернет-сообществе. Первоначально они называли свой поисковик «BackRub», но в конечном итоге переименовали его в «Google», когда он вырос из просто проекта колледжа в большой бизнес проект.

Система PageRank

Система PageRank Google учитывает гиперссылки на страницах как «голоса поддержки». Чем больше поддержки у страницы, тем выше ее рейтинг. Когда ранг страницы растет, растет и вес его голоса, это означает, что один голос от страницы с высоким рейтингом имеет больше значения, чем несколько голосов от менее известных сайтов. Эта система пресекает практику раздувания PageRank путем создания множества страниц с низким качеством ради этой цели, и которая может поднять веб-страницу просто путем привлечения внимания других более высокопоставленных сайтов.

 Автор: Коротина М.В.

Получите пошаговый план построения информационного бизнеса в сети Интернет!
Бесплатная книга!
Я гарантирую 100% конфиденциальность
  • Комментарии на блоге
  • Вконтакте
  • Фейсбук
Добавить комментарий
наверх