中文搜索引擎指南网
标题:
如何得知搜索引擎收录某一类型文件的总数量
[打印本页]
作者:
stonewang
时间:
2006-7-28 16:55
标题:
如何得知搜索引擎收录某一类型文件的总数量
前天写的文章
《寻找“后缀名为.ico的图片”》
,最后用一个检索式“
filetype:ico -dfggahbhab
”来表示Google收录的
所有
ico文件。可能有朋友不明白,为什么这个检索式能搜索出所有的ico文件,我解释一下。
首先,要明白filetype语法。file——“文件”,type——“类型”,合起来就是文件类型的意思。Google等搜索引擎支持搜索某种
特定
的文档,如word文件、pdf文件,实现的方式就是filetype后面加上该文件的
后缀名
。如“
搜索引擎 filetype:ppt
”的意思是查找关于搜索引擎的PowerPoint幻灯片(这种文件的后缀名是ppt)。
补充:
百度搜索帮助中关于
filetype的说明
:
http://www.baidu.com/search/page_feature.html#07
Google中的相关说明
:
http://www.google.com/intl/zh-CN/features.html
其次,还要懂得“减号”在检索式中的含义。"A -B"就是搜索出现A而
不
出现B的网页,如“
笑傲江湖 -电视剧
”,搜索结果中就没有“电视剧”。
补充:
百度帮助中的说明:
http://www.baidu.com/search/page_feature.html#09
下面的“要求搜索结果中不含特定查询词”
Google的说明
:
http://www.google.cn/help/refinesearch.html
再来看这个检索式“
filetype:ico -dfggahbhab
”,为什么它的搜索结果就是Google收录的
所有
ico文件呢。从两方面着手,filetype限定了结果都是ico文件;而“dfggahbhab”是我随意敲键盘出来,当时
没有任何网页
包含这个字符串(如果不确定,可以自己先搜索一下看看结果),综合起来,所有结果
减去
0,还是所有结果。 可能有人有疑问,为什么比直接用“
filetype:ico
”呢,尝试一下就知道,这样Google不出结果的。
这时候,解决“标题”的疑问就简单了。
看看Google收录的多少PDF文件:
filetype:pdf -aewgadgv
约有
96,600,000
项 //9千多万,真够多的
Excel文件呢,
filetype:xls -aewgadgv
约有
4,050,000
项
用这个方法来查看百度的收录数量就不行了,
filetype:pdf -aewgadgv
,无结果。不过,还有个
inurl语法
,
使用
filetype:pdf inurl:pdf
,相关网页约393,000篇。
PS:在以前的
搜索研究院
右上角
经典搜索案例1001
中有一道题目,可以参考:
问:◆想知道google收录了多少asp网页
搜索关键词:
[
filetype
:asp -fkdls](限google)
答:“
filetype
:asp -fkdls”的意思是:搜索所有asp格式的网页,并且减去所有含关键词fkdls的网页。因为没有网页含有关键词fkdls,所以理论上会列出所有的asp格式的网页。要搜索Google收录了其它多少格式的网页,也可以用这种搜索方法。比如,用“
filetype
:pdf -fkdls”并且限制在简体中文搜索,可以知道Google收录简体中文的pdf网页3万多页。 (搜索引擎9238)
PS2:由于搜索引擎的各种策略,理论上等价的检索式,结果数也会发生较大的变化。如“
filetype:pdf -aewgadgv
”、“
pdf filetype:pdf
”、“
inurl:pdf filetype:pdf
”、“
pdf filetype:pdf -aewgadgv
”,Google的结果数量变化巨大,高的甚至达到
478,000,000
项。不过,这些都是次要的,重要的是掌握其方法和原理。
[
本帖最后由 stonewang 于 2006-7-28 16:57 编辑
]
欢迎光临 中文搜索引擎指南网 (http://sowang.com/bbs/)
Powered by Discuz! X3.2