понедельник, 18 августа 2008 г.

База Google проиндексировала триллиона страниц

База Google достигла знакового рубежа в триллион URL и продолжает расти в геометрической прогрессии.

В этом триллионе учтены только уникальные веб-страницы, после удаления всех дубликатов. Хотя поисковый робот зарегистрировал их все, но фактически не все они реально проиндексированы для полнотекстового поиска, потому что многие слишком похожи друг на друга, а другие содержат только служебную информацию.

Поисковик начал работу в 1998 году с 28 млн страниц в индексе, а к 2000 году база достигла 1 миллиарда. За последние восемь лет индекс вырос еще в тысячу раз. Как сообщается в официальном блоге, даже разработчики Google не могли предположить такого стремительного роста количества информации веба. В настоящее время Интернет прирастает на несколько миллиардов страниц в день.

Чтобы обрабатывать такие массивы данных, Google в последние годы значительно нарастил мощность своих дата-центров. Если десять лет назад одна рабочая станция в серверной стойке способна рассчитать граф PageRank для всего веба (26 млн страниц) за пару часов и потом неделю поисковик работал без переиндексации, то сегодня Google обновляет индекс гораздо чаще. Связи между триллионом веб-страниц пересчитываются несколько раз в сутки.
Buckster.ru - больше всего денег с Вашего трафика! Инвайты: ICQ 343-268-517

Комментариев нет:

Отправить комментарий