亚马逊新近搜索类图书印象（上）-搜索技巧-中文搜索引擎指南网

亚马逊新近搜索类图书印象（上）

原作:曹溪 11:24:36 10月29日

民国时候拿自个写的东西当翻译作品发表，得到的评价“译笔流畅”，以假乱真总得有点谱儿，所以这位仁兄的写作桌上放着日本地图。这几天在亚马逊网上书店看了部分搜索类图书，有些想法，拉拉杂杂写下来。需要说明的是，原书都没看过，依据是每本书的Sample Pages。

（1）《网络搜索大全》（Find it Online: The Complete Guide to Online Research by Alan M. Schlein）

亚马逊最新的网络搜索图书。作者Alan M. Schlein是华盛顿新闻记者，我们大提猜测得出本书的特色会是哪些。丰富的新闻资源外，还有找人、地图、黄页、政府网站，在政府资源这一章里，作者不厌其烦地罗列出各个州的政府站点。可以想像得到，关于网络资源准确性、可信度、权威性的评估一章，也不会差到那儿。

全书共分14章：1.Creative Uses of the Internet; 2.The Basics--Internet Terminology & Concepts; 3.Framing Your Search Strategy; 4.General Search Tools; 5.Specialized Tools; 6.Government Resources; 7.Public Records--The Information Trail; 8.News Resources Online 9.Business Tools--Business Resources; 10. International Research; 11.Managing & Filtering Information--Keeping-Up Tools; 12.Evaluating Accuracy, Credibility, and Authority; 13.Search Strategies and Sample Searches; 14.Privacy & Protection

本书第1版获得Irvin奖，今年8月份出的是第3版，有家研究搜索的网站Pandia又给它颁了次奖，亚马逊的13篇读者评论也颇多赞誉之词，“太好了”、“放在键盘边上的书”、“珍宝”。。。不一而足，还有人喊出了Eureka。作为读者，如果挑剔一些的话，可以认为整本书内容不过是给各种搜索工具与网络资源罗列了一张张清单。作为新闻记者，在搜索方面肯定有不少独特的“旁门左道”，这可以用来弥补对主要搜索工具及搜索策略介绍的不足。正所谓，戏不够，歌来凑。对多数普通网络用户来说，本书不应该是第一本搜索入门读本，至少它不会教你搜MP3。

（2）《看不见的网页》（The Invisible Web: Uncovering Information Sources Search Engines Can't See by Chris Sherman, Gary Price）

2001年3月第二届“网络小姐”评选中，有道测试题是根据驾照的户主姓名和号码，3分钟内在网上搜索相关的信息，结果没有一个选手找到正确答案。用搜索引擎肯定查不到，应该查公安交通管理局的违章数据库。这就是invisible web。那个时候国外也很少有人谈invisible web，BrightPlanet公司的那个Deep Web白皮书还没出来呢。当然，不知道invisible web这个词并不意味着不会用，以前我分类外文书遇到Personal finance、Strategic management拿不准的时候，就一边念叨着“三人行，必有我师”一边查中国国家图书馆、北大图书馆以及清华图书馆的数据库。
2001年下半年开始，一下子冒出了好几个搜索invisible web的网站。一些网络搜索教程也在“搜索引擎”、“分类目录”后增加又副册invisible web。invisible web搜索就是分类搜索，可以在分类搜索重点介绍一下，完全必要再单列。分类目录的编制经常被人嘲笑为没有意义的简单劳动，invisible web可以说是分类目录存在意义的佐证之一。
Chris Sherman和Gary Price的The Invisible Web一书里，把“看不见”又分成四种：第一种是不透明网页（The Opaque Web），搜索引擎可以索引但没有索引的网页，比如某一站点有大量网页，搜索引擎对SPIDER爬网页的数量有所限制，比如还没有收集的新网页，比如一个网页跟其它网页没有链接，网页的主人又没有把网址提交给搜索引擎等；第二种是私人网页（The Private Web），本来是可以索引的，由于网页主人加了口令保护、禁止索引的网站标记、robots文件，便将SPIDER拒之门外。第三种是专用网页（The Proprietary Web），某些网页只有注册用户才能浏览，SPIDER不会填表，当然也就没法收集。第四种是搜索引擎因为技术原因无法收集索引的真正看不见的网页（The Truly Invisible Web）。到目前为止，大部分搜索引擎能够收集索引的还是HTML等语言编写的常规网页，只有GOOGLE才能索引PDF、postscript跟Microsoft Office文件。（这儿应该修正一下，ALLTHEWEB也能索引PDF文件了。）再就是数据库访问形成的动态网页了，SPIDER一方面不敢陷进无休止的圈子，更主要的是它不能填写查询表单，自然也爬不进数据库。传统搜索引擎只能搜索全部网络信息的16%，在剩下的84%中，有不少的数据库还是非常有价值的，这就成了Chris Sherman和Gary Price写这本书的理由。
全书共27章：1.The Internet and the Visible Web; 2.Information Seeking in the Visible Web; 3.Specialized and Hybrid Search Tools; 4.The Invisible Web; 5.Visible or Invisible? 6.Using the Invisible Web; 7.Case Studies; 8.The Future: revealing the Invisible Web; 9.The Best of the Invisible Web; 10.Art and Architecture; 11.Bibliographies and Library Catalogs; 12.Busines and Investing; 13.Computers and Internet; 14. Education; 15.Entertainment; 16. Government Information and Data; 17.Health and Medical Information; 18.U.S.and World History; 19.Legal and Criminal Resources; 20.News and Current Events; 21.Searching for People; 22.Public Records; 23.Real-time Information; 24.Reference; 25.Science; 26.Social Sciences; 27.Transportation
一半的篇幅都是罗列各种资源，这些资源在大部分Invisible Web网站目录都可以检索到。另一小半的篇幅是网络信息搜索的老生常谈，还是从阿帕网家史讲起的。本书的作者之一Chris Sherman是一家咨询公司Searchwise的总裁，并主持About.com的the guide to Web searching，另一位Gary Price是乔治华盛顿大学的图书馆员。