海量:全球首个网页收录量达到100亿的中文搜索引擎
一直致力于后台技术研发和数据积累的搜狗,在2006年8月份的时候就成功支持了50亿中文网页的查询,成为了全球首个中文网页收录量达到50亿的搜索引擎,即将于2007年1月1日震撼上线的搜狗网页搜索3.0更是将数据量拓展到了100亿的惊人数字,再创全球中文网页收录量新高。
目前市场上各家搜索引擎对于中文数据的收录量远比英文数据的收录量低很多,导致了用户想要的信息找不到,这也是长期以来中文搜索引擎的用户满意度要比英文的低很多的一个主要原因,而数据量的大小,直接反映了搜索引擎研发团队的技术实力。
此次,搜狗技术团队采用了自行开发的文件系统和数据库,大幅提升了服务器利用率,并对后台的抓取、页面分析、滤重、索引、排序、反垃圾等一系列的功能模块都进行全方位的升级,以支持更大的容量的内容储备,向网友提供创纪录的百亿网页的信息资源,进一步拉开了与竞争对手的差距,重新定义了搜索引擎业界标准,奠定了搜狗技术团队行业绝对领先的地位。
及时:每天更新5亿网页,最新资讯最快1分钟即可被检索到
在及时性方面,搜狗网页搜索3.0通过智能分析技术,对于不同网站、网页采取了差异化的抓取策略,充分地利用了带宽资源来抓取高时效性信息,更是确保互联网上的最新资讯能够被用户及时检索到。
经过对互联网上的热点新闻事件搜索的测试,搜狗网页搜索3.0仅需1分钟时间就能完成从抓取到页面分析到建立索引到上线的全部过程,在第一时间呈现大量相关结果。在这样的速度下,每天搜狗的服务器集群并行更新5亿的网页,用户不必再专门到新闻搜索引擎上,就能获得最新资讯。
为了满足对及时性要求极高的用户的需求,搜狗还特意提供了按时间排序的功能,更加显示了搜狗网页搜索3.0强大的网页及时迅速的更新能力。
精准:评测指标业内领先 基于搜狗网页评级的结果排序
搜索结果的精准性是搜狗网页搜索3.0三大特点之一。搜狗网页搜索3.0在搜索结果的排名上采用了被业界广泛认可的搜狗网页评级体系。网页评级是搜狗衡量网页重要性的指标,不仅考察了网页之间链接关系,同时考察了链接质量、链接之间的相关性等特性,网页评级越高,该网页在搜索中越容易被检索到。由于有了网页评级体系的保证,搜狗的搜索结果能够做到更加精准。
另外,用户对于搜索结果的点击,代表了用户对搜索结果的认可。数据分析表明,用户每次搜索后,点击结果的次数越多,说明搜索结果越精准。搜狗网页搜索3.0从用户体验出发,将结果点击次数与搜索次数的比率,即点击通过率,作为评估搜索结果精准性的重要指标,进行优化,确保我们的算法满足用户对于“精准”的理解。搜狗网页搜索3.0版本上线后,网页搜索的点击通过率预计将提升了10%。
由于Web2.0概念的普及,博客、论坛、社区、圈子等应用的涌现,互联网上越来越多的用户从信息的获取者变成了信息的发布者。面对求知若渴的众多网友,目前国内搜索引擎市场远远达不到用户对海量、及时、精准的三点要求,导致目前国内搜索行业处于停滞不前,利益当先的状况,因此搜狗网页搜索3.0的诞生是对目前龙鱼混杂的搜索市场的一次梳理,也是长期以来的尝试和发展过程中勇于创新的成果,必将打破目前搜索行业的陈旧格局,成为2007年搜索风暴的引领者。
搜狐公司董事局主席兼首席执行官张朝阳先生非常有信心地说:“在信息呈现爆炸式增长的今天,海量、及时和精准已经成为搜索引擎的衡量标准。搜狗网页搜索3.0将会成为中文互联网中品质最好的搜索引擎。搜狗技术研发团队近两年的技术储备,将为搜索领域带来深刻的蜕变。2007年1月1日,搜狗网页搜索3.0正式发布,将会证明一切,我们期待那个时刻的到来,同时也是给一直以来支持搜狗的网友们一份新年大礼,我们将同网友一同见证这个在搜索行业标入史册的重要时刻”。
从诞生之日起,为网民提供最好的互联网体验就是搜狗团队一直不懈努力的目标,从凭借打字速度快而火速窜红的搜狗输入法到中文网页评级最权威的行业标准Sogou
Rank;从运用领先的pxp技术提供流畅的在线音乐试听到为网民提供了无限乐趣的文品指数,以及国内首个搜索引擎实验室——搜狗网络实验室,都证实了搜狗的强大技术创新能力。【来源:搜狐IT】
搜狗网页搜索3.0版本介绍
张朝阳:百度的技术人员搜狗看不上