中文搜索引擎指南网

标题: 雅虎网页搜索引擎的基本技术原理 [打印本页]

作者: sowang    时间: 2006-8-15 19:23
标题: 雅虎网页搜索引擎的基本技术原理
YST是Yahoo!全球搜索技术(Yahoo! Search Technology)的简称,是一个涵盖全球100多亿网页的强大资料库,拥有数十项技术专利和近万台服务器的分布式集群架构,支持38种语言,服务全球50%以上网友的搜索需求。

        雅虎网页搜索引擎的基本技术原理如下:






        首先,搜索引擎会建立一个网页地图(Webmap),记录互联网的链接结构,再使用网页抓取的蜘蛛程序(Robot)根据网页地图来抓取(Crawl)质量好的网页,存储到网页快照数据库中。接下来,索引程序(Indexer)会将快照数据库中的网页编号存储到网页索引数据库中,在这个过程中会利用相关技术去掉作弊网页(Spam)。

        当用户输入一个查询词搜索时,查询程序会使用这个查询词到索引数据库中比较,并经过相关性计算后,按照相关的程度对网页进行排序,相关性越高的排的越靠前。相关性的计算是包括各种因素的综合结果,例如:网站标题或网页内容对查询词的匹配,网页被链接的次数等。




欢迎光临 中文搜索引擎指南网 (http://sowang.com/bbs/) Powered by Discuz! X3.2