中文搜索引擎指南网

 找回密码
 禁止注册

QQ登录

只需一步,快速开始

搜索
查看: 17701|回复: 0
打印 上一主题 下一主题

雅虎网页搜索引擎的基本技术原理

[复制链接]
跳转到指定楼层
1#
发表于 2006-8-15 19:23:56 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
YST是Yahoo!全球搜索技术(Yahoo! Search Technology)的简称,是一个涵盖全球100多亿网页的强大资料库,拥有数十项技术专利和近万台服务器的分布式集群架构,支持38种语言,服务全球50%以上网友的搜索需求。

        雅虎网页搜索引擎的基本技术原理如下:






        首先,搜索引擎会建立一个网页地图(Webmap),记录互联网的链接结构,再使用网页抓取的蜘蛛程序(Robot)根据网页地图来抓取(Crawl)质量好的网页,存储到网页快照数据库中。接下来,索引程序(Indexer)会将快照数据库中的网页编号存储到网页索引数据库中,在这个过程中会利用相关技术去掉作弊网页(Spam)。

        当用户输入一个查询词搜索时,查询程序会使用这个查询词到索引数据库中比较,并经过相关性计算后,按照相关的程度对网页进行排序,相关性越高的排的越靠前。相关性的计算是包括各种因素的综合结果,例如:网站标题或网页内容对查询词的匹配,网页被链接的次数等。
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏

Archiver|手机版|小黑屋|教你搜 ( 鲁ICP备16006309号

GMT+8, 2024-11-23 03:25 , Processed in 0.156495 second(s), 24 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表