1 什么是“看不见的网页”
“看不见的网页”(The Invisible
Web),又叫隐形网页,简单说是那些因为各种原因,不能被普通搜索引擎如google,Yahoo!等搜索到的网页。研究搜索引擎的Bright
Planet公司发表一份研究报告显示,到2000年底,互联网上未被搜索引擎收录的网页是是被收录网页的500倍。虽然现在搜索引擎技术日新月异飞速发展,但Bright
Planet公司估计,相比较于被普通搜索引擎收录的10亿网页,仍有550,0亿网页未被收录。而且“看不见的网页”在网上增长最快,也就是说网上有更多的资源出现,但我们不能用普通的搜索引擎查找到。
2 为什么会有“看不见的网页”
“孤岛网页”。如果一个网页没有被其它网页链接,网页的主人又没有把网址提交给搜索引擎,搜索引擎就无法收录这些网页。或者网页主人有意设置口令保护、禁止索引的网站标记。
一些以非普通的html格式存在的网页,搜索引擎收录存在技术问题。虽然搜索引擎技术在不断发展,象google等搜索引擎已经可以搜到 pdf和MS
Word,但对于网上其他格式如wkx,mw,flash,ps,rtf 及图象、声音、视频等文件,一般搜索引擎是很难搜到的。
专用网页(The Proprietary
Web),某些网页只有注册用户才能浏览,需要填写口令密码,认证后才能访问,搜索引擎的Spider不会思考不会填表,当然也就没法索引收集。
搜索引擎无法找到“动态网页” 动态页面是在用户“输入内容”或者进行“选择”时动态生成的,但是搜索引擎的SPIDER也无法“输入”和“选择”。
另外还有实时信息,如最新新闻,某一时刻公司股票价格等,因为其实时在变化,搜索引擎不去收录,或者说收录的都是过时的信息。
3 搜索“看不见的网页”
可以从网站目录 、“看不见的网页”搜索站点(引擎)、免费网页数据库以及一些专业搜索引擎来搜索“看不见的网页”,下面是一些列表
· Direct Search ( http://www.freepint.com/gary/direct.htm )
· Profusion ( http://www.profusion.com )
· The Invisible Web Directory( http://www.invisible-web.net/ )
· Complete Planet ( http://www.completeplanet.com/ )
· Librarians' Index to the Internet( http://www.lii.org )
· Find Articles( http://www.findarticles.com/PI/index.jhtml )
原发于: http://bujai.51.net/blog/index.php?p=121