首页>>搜索指导

 

 关键词搜索引擎的信息搜集系统、索引数据库和查询接口

sowang.com  2002/03/26


 

关键词搜索引擎有网站搜索和网页搜索。

  网站搜索是将网站作为信息搜索对象,一般由人工完成;网页搜索引擎的信息搜集系统是通过网络机器人(robot)或是网络蜘蛛(spider)来自动完成的,不需要任何的人工处理。

  网络机器人(robot)或是网络蜘蛛(spider)从一组已知的文档出发,通过这些文档的超文本链接确定新的检索点,然后用机器人或蜘蛛周游这些新的检索点,标引这些检索点上的新文档,加入索引数据库组成倒排文档。因此如何从原始文档中抽取出全部有用信息,并将抽取的信息记录到索引库中是关键。

  关键词搜索引擎的的索引数据库建立的策略很大程度上影响了搜索引擎的效率与准确性。在设计一个索引数据库时,要针对实际需要确定索引数据库的数据结构和存储方式。

  由于搜索引擎系统通常处理的都是海量的信息,因此还要设计一定的压缩策略,对索引库进行有效的压缩,以提高检索的速度。

  关键词搜索引擎的检索接口除了要提供对单个字符串进行检索的基本检索功能外,还要支持多种复杂的高级检索功能,如多个字符串组合检索、模糊检索等。

  网页搜索引擎的检索接口还担负着检索结果相关性排序等关键技术的实现。

 


Copyright ©  2001-2002 SOWANG.COM All rights reserved. 
中文搜索引擎指南网  版权所有