网络就像一个规模与日俱增的图书馆,虽然收藏的图书已有数十亿本之多,却没有中央档案管理系统。Google 使用一种称为网页抓取工具的软件来发现供公众访问的网页。抓取工具会查看网页,并跟踪访问这些网页上的链接,就好像您在网上浏览内容一样。这类抓取工具会逐一访问各个链接,并将各网页的相关数据返回至 Google 的服务器。
通过编入索引整理信息
当抓取工具找到一个网页时,Google 的系统就会像浏览器一样呈现该网页的内容。我们会记下关键信号(从关键字到网站新鲜度),然后会在 Google 搜索索引中跟踪所有这些内容。
Google 搜索索引中包含数千亿个网页,其大小远远超过 1 亿千兆字节。它就像图书后部的索引一样 - 编入索引的每个网页上出现的每个字词都对应着一个条目。在将某个网页编入索引时,系统会将该网页分别添加到其包含的所有字词的对应条目中。