百度Google文档搜索应用与比较
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
http://www.sowang.com 2004年9月23日 作者:loverty |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
互联网上除一般网页外,还如PDF,DOC,RTF,xls,PPT(S)等的文档文件,虽然这些文件不象
HTM文件那样多,但这些文件通常会包含一些别处没有的重要资料,因此具有独特的价值和吸引力!所以对网络中这部分资源的挖掘和利用也是搜索引擎的一个重要功能.对网络的这部分资源的挖掘和分析的水平也成了衡量一个搜索引擎完整与否,成熟与否的重要指标.多文档搜索是高级搜索的重要内容,与其他高级搜索功能一起,构成高级搜索功能体系.
主要比较文档数量,语法使用的灵活性,准确性,多语法混合使用等等
数据
参比引擎
百度
Google
filetype:doc
搜索引擎
1050
743
filetype:doc
计算语言学
546
214
filetype:doc
计算机检索
17700
6080
filetype:ppt课件
13900
1480
filetype:ppt
软件开发模型
filetype:ppt 软件
模型
560
697
919000
697
filetype:pdf
xml高级编程
55
116但是匹配的质量很差,由各自不同的分次特点决定的。
filetype:pdf
服务器安全
17800
6240
filetype:xls
报名
9940
1890
filetype:xls
名单
32300
3000
表1
文档数量比较
性能
参比引擎
百度
Google
灵活性
支持三种方式查询
支持三种方式查询
准确性 整体上讲根网页搜索的效果差不多
,由于各自分词的特点不同,所以对中文语义的理解上就会出现差异,所以在结果的数量并不是全部,但是对大多数关键词来说,百度的结果还是比较符合搜索目标的,而个别google的搜索结果就不太能令人满意。这也是由于google的强行前台分词造成的,结果数量多,并不精准。对于文档搜索来说准确恰当才是最重要的,数量只是其次。
多语法混用
一般的逻辑搜索:+
- | 均能很好的支持
其他高级搜索指令:
其他支持
1
支持对所有文档类型的搜索,filetype:all
1
不支持对所有文档类型的搜索,
表2其他参数比较
一搜也提供文档搜索,目前支持的文件类型不多,文档的数量也不够(或者可检出的数量不够),而且使用习惯与其他的不同(google,altavista,alltheweb等)所以不列入比较范围。 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
Copyright © 2001--2004 SoWang.com.All
Rights Reserved
中文搜索引擎指南网
版权所有