中文搜索引擎指南网

 找回密码
 禁止注册

QQ登录

只需一步,快速开始

搜索
查看: 23342|回复: 0
打印 上一主题 下一主题

如何得知搜索引擎收录某一类型文件的总数量

[复制链接]
跳转到指定楼层
1#
发表于 2006-7-28 16:55:46 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
前天写的文章《寻找“后缀名为.ico的图片”》,最后用一个检索式“filetype:ico -dfggahbhab”来表示Google收录的所有ico文件。可能有朋友不明白,为什么这个检索式能搜索出所有的ico文件,我解释一下。

首先,要明白filetype语法。file——“文件”,type——“类型”,合起来就是文件类型的意思。Google等搜索引擎支持搜索某种特定的文档,如word文件、pdf文件,实现的方式就是filetype后面加上该文件的后缀名。如“搜索引擎 filetype:ppt”的意思是查找关于搜索引擎的PowerPoint幻灯片(这种文件的后缀名是ppt)。
  补充:
  百度搜索帮助中关于filetype的说明http://www.baidu.com/search/page_feature.html#07
  Google中的相关说明http://www.google.com/intl/zh-CN/features.html

其次,还要懂得“减号”在检索式中的含义。"A    -B"就是搜索出现A而出现B的网页,如“笑傲江湖 -电视剧”,搜索结果中就没有“电视剧”。
   补充:
   百度帮助中的说明:http://www.baidu.com/search/page_feature.html#09 下面的“要求搜索结果中不含特定查询词”
   Google的说明http://www.google.cn/help/refinesearch.html

再来看这个检索式“filetype:ico -dfggahbhab”,为什么它的搜索结果就是Google收录的所有ico文件呢。从两方面着手,filetype限定了结果都是ico文件;而“dfggahbhab”是我随意敲键盘出来,当时没有任何网页包含这个字符串(如果不确定,可以自己先搜索一下看看结果),综合起来,所有结果减去0,还是所有结果。 可能有人有疑问,为什么比直接用“filetype:ico”呢,尝试一下就知道,这样Google不出结果的。
  
这时候,解决“标题”的疑问就简单了。
  看看Google收录的多少PDF文件: filetype:pdf   -aewgadgv   约有96,600,000项  //9千多万,真够多的
   Excel文件呢,filetype:xls   -aewgadgv     约有4,050,000
  用这个方法来查看百度的收录数量就不行了,filetype:pdf -aewgadgv,无结果。不过,还有个inurl语法
使用 filetype:pdf inurl:pdf,相关网页约393,000篇。

PS:在以前的搜索研究院右上角经典搜索案例1001中有一道题目,可以参考:
  问:◆想知道google收录了多少asp网页
  搜索关键词:[filetype:asp -fkdls](限google)
  答:“filetype:asp -fkdls”的意思是:搜索所有asp格式的网页,并且减去所有含关键词fkdls的网页。因为没有网页含有关键词fkdls,所以理论上会列出所有的asp格式的网页。要搜索Google收录了其它多少格式的网页,也可以用这种搜索方法。比如,用“filetype:pdf -fkdls”并且限制在简体中文搜索,可以知道Google收录简体中文的pdf网页3万多页。  (搜索引擎9238)

PS2:由于搜索引擎的各种策略,理论上等价的检索式,结果数也会发生较大的变化。如“filetype:pdf   -aewgadgv”、“pdf   filetype:pdf ”、“inurl:pdf   filetype:pdf ”、“pdf   filetype:pdf    -aewgadgv”,Google的结果数量变化巨大,高的甚至达到478,000,000项。不过,这些都是次要的,重要的是掌握其方法和原理。


[ 本帖最后由 stonewang 于 2006-7-28 16:57 编辑 ]
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏

Archiver|手机版|小黑屋|教你搜 ( 鲁ICP备16006309号

GMT+8, 2024-5-20 02:32 , Processed in 0.165163 second(s), 20 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表