четверг, 15 мая 2008 г.

Google пытается проиндексировать Невидимую Сеть

Разработчики из подразделения краулинга и индексации (Crawling and Indexing Team) сообщили о важном эксперименте, который начался совсем недавно. Они осуществили апгрейд краулера и начали испытывать технологию интеллектуальной обработки HTML-форм. После апгрейда робот-краулер должен научиться получать скрытые URL'ы и веб-страницы, которые генерируются в ответ на обработку форм на различных сайтах и которые невозможно получить иным путем.

На практике технология работает так: при встрече с элементом обработчик форм осуществляет ряд пробных запросов. Для текстовых полей в качестве запросов автоматически выбираются слова с этого самого сайта, на котором находится форма. Значения чекбоксов и выпадающих меню берутся непосредственно из кода страницы. После этого программа пытается обработать полученный URL. Если страница действительно содержит некий контент, то ее отправляют на индексирование в общий поисковый индекс.

Несмотря на кажущуюся простоту и очевидность, обработка HTML-форм является очень важным шагом по вытаскиванию на свет так называемой "Невидимой Сети" (Deep Web) - огромных массивов информации, которые скрываются в больших базах данных, открытых миру через интерфейсы HTML-форм. Это юридические БД, разнообразные справочники (телефоны, адреса, цены) и прочие массивы данных. По некоторым оценкам, Невидимая Сеть содержит сотни миллиардов страниц и охватывает 90% всего содержимого Интернета. Нужно заметить, что именно там скрывается самый ценный контент, который до сих пор не доступен через стандартные поисковики.

Правда, в любом случае, огромный кусок Невидимой Сети по-прежнему останется за пределами досягаемости Google, потому что краулеру запрещено вводить какие бы то ни было пароли или другую персональную информацию в поля форм: таково решение разработчиков и руководства Google. А ведь очень многие сайты предоставляют открытый доступ к информации только после бесплатной регистрации на сайте. Но с юридической точки зрения робот Google не имеет права создавать фиктивную личность специально для регистрации, потому что это является мошенничеством и противоречит принципам всегда дружелюбного гуглобота.

Кстати, знающие люди уже объяснили, откуда растут ноги у новой технологии краулинга. Скорее всего, ее создала команда разработчиков из маленькой компании Transformic, которую Google приобрела в 2005 году. Последние два с половиной года они упорно трудились, совершенствуя свою разработку и помогая интегрировать ее в краулер Google.

Buckster.ru - больше всего денег с Вашего трафика! Инвайты: ICQ 343-268-517

Комментариев нет:

Отправить комментарий