谷歌称全球藏书总量近1.3亿册公布统计方式

sowang · 发表于 2010-8-6 13:54:33

　　北京时间8月6日消息，据国外媒体报道，谷歌软件工程师雷奥尼德·塔切尔（Leonid Taycher）周四在该公司官方博客中撰文称，按照谷歌制定的统计标准，目前全球范围内各大、小图书馆及其他机构的藏书总量将近1.3亿册，其精确数字为129,864,880册。

　　2004年12月，谷歌启动了一项名为“数字图书馆”的庞大工程，即计划将全球各公共及大学图书馆藏书转化成数字图书。对于谷歌该项目，外界存在较大争议。赞成者称谷歌数字化图书项目可促进全球信息的沟通交流。反对者称谷歌此举不但侵犯了相应作家及出版商的版权，而且会导致谷歌垄断数字图书市场。

　　塔切尔周四撰文称，任何一家计划进行图书扫描的公司，都会面临着同一问题：全球藏书总量究竟为多少？对于藏书数量的统计，不同机构有不同的标准。谷歌制定的统计标准是：同一版本的图书，只能算为一册。

　　一些文学名着通常会有多个版本，谷歌确定这些不同版本的标准是：各版本的序言和跋等内容并不相同。塔切尔指出，多数情况下，同一版本的文学着作发行量往往较大；而一些学术着作发行量并不高，部分学术着作仅被一些大学图书馆所收藏。

　　塔切尔还指出，对于同一版本的图书，通常还会有精装本（hardcover）和平装本（paperback）的区别，但谷歌在对这两种版本的内容进行分析比较后，如果内容没有太大差异，也视为同一版本书籍。此外，谷歌还参考了国际标准图书编号（ISBN）的相应数据。但ISBN数据也有其局限性，毕竟ISBN标准于上个世纪60年代开始实施，70年代才被广泛接受，而且主要是被西方国家接受。早于ISBN标准出版的图书、不以商业目的发行的图书以及不执行ISBN编号标准的图书，仍然不在ISBN范围之内。

　　谷歌还指出，另一方面，虽然ISBN图书编号方式已成为既定标准，而执行过程中却存在一些偏差：在某些情况下，不同内容的图书会使用同一ISBN编号。此外，谷歌还发现ISBN图书编号被用于CD唱片甚至服装的情况。

　　统计过程

　　塔切尔表示，鉴于业界统计标准的混乱，谷歌首先做的工作是：收集图书元数据，这些数据来自全球150多个国家和地区，具体来源包括各图书馆、出版目录信息提供商及其他商业机构。塔切尔称，截至目前，谷歌已收集了将近10亿册图书原始材料，但通过初步删除内容重复的图书材料，该原始材料数量已降至6亿册。

　　那么是否就可以据此认为，全球藏书总量应该是6亿册？还不能这样认为。原因就是在这6亿册图书当中，仍存在大量内容重复的版本。而这种情况下，又存在ISBN编号混乱、图书作者姓名相同等杂乱情况。谷歌通过自家算法对上述6亿册图书进行“清理”后，相应数字已降为2.1亿册。

　　但这2.1亿册，仍不能视为全球藏书的总量。原因是谷歌还必须删除这部分统计数据中的非图书内容，如微型成像作品（800万个）、音频记录（450万条）、视频（200万条）、地图（200万份）以及印有ISBN编号的T恤衫（约1000件）等等。通过这种“清理”工作，相应数字又降为1.46亿册。

　　塔切尔表示，1.46亿册的数字，应该已经接近全球藏书的实际数量。但谷歌又发现，部分图书仍存在序列号重复的问题，再删除这部分重复的内容，所得出的最终数字为将近1.3亿册，即129,864,880册。来源：www.qq.com

sowang · 发表于 2010-8-6 13:55:42

　导语：谷歌公司谷歌图书(Google Books)团队在其官方博客上发表博文称，其统计了截至2010年8月1号全世界所有图书的数量，一共约1亿2986万4880本。科技博客CrunchGear发表评论文章对谷歌图书计划做了评论，认为该计划实施难度巨大，但影响将会不可估量。以下是评论全文：

　　谷歌的目标一直是将地球上所有的数据都电子化、分类、索引到其巨大的服务器里。谷歌图书恐怕是这个巨大的工程中最有野心的布局之一。但是不要忘了，人类将文字和智慧记载入图书里已经有了五、六千年的历史，书的数量可以说不计其数。谷歌图书将使世界上所有的图书都可以在线搜索，影响将是不可估量的。谷歌为了完成这一浩大的工程，使用了当今很多最新的科技手段。

　　谷歌图书团队刚刚在其官方博客发了一篇博客，讲述了他们是如何计算出世界上所有的图书有1亿2986万4880本这个他们认为相对准确的数字的。

　　其实我对他们具体是如何得出这一数字并不感兴趣，但是我很乐意看到他们主动去挑战海量的数据。因为这意味着，在未来我们还有很多东西可以学习，还有很多关于如何处理数据的问题会被提出。

　　举个例子说：谷歌要处理非常多类似于ISBN(国际标准书号)的图书数据，还要与众多大学图书馆、公共图书馆、私人收藏、博物馆等等非常多的机构合作，处理这些机构提供的相似的图书记录，并区分出这些记录的微小差异。设计高效的算法来从这些重叠非常多的图书记录中找到每一本书的最初版本不是一件容易的事，毫无疑问需要频繁的人工干预。谷歌需要使用了类似于算法的程序区分、分类、分析大量的图片。

　　使用OCR(光学字符识别)技术扫描图书并非易事。例如：错误率要控制在多少？对于不同印刷技术的书是否需要不同的扫描仪？是否需要人工整理书页的褶皱？手动翻书的人的手指盖住了部分内容怎么办？如此之类的问题数不胜举。

　　当然，书籍作品本身的规律一定程度上降低了扫描工作的难度。大部分图书作品都有很清晰的开头和结尾，期刊和杂志都是按期发行编号清晰等等。

　　另一个问题是，如何存档存有巨量信息的因特网？现在有人在做这种工作，可是问题是他们如何将每一个网站都以一个标准的模式整体打包？一个名为 Internet Archive的网站就在做整个因特网的存档工作。但是我怀疑这项工作真的那么有意义吗？因为我们现在根本就看不懂两千年前的数据，那两千年以后的人能看懂现在保存的数据吗？

　　让一个商业化的公司把人类所有的信息都电子化是一件耸人听闻的事。当然，我不反对谷歌这么做，而且我认为这是谷歌所做的为数不多的合法、免费贡献给全世界的好产品之一。毫无疑问，谷歌会在这些电子书中卖广告，但是它为了将这一工程商业化所花费的财力人力巨大，它有权利这么做。毕竟在过去，自由获得取信息还只是少数人的特权，而谷歌图书将会彻底改变这一点。(张和)新浪科技

		自动登录	找回密码
密码			禁止注册

谷歌称全球藏书总量近1.3亿册公布统计方式

谷歌图书团队称全世界约有1.3亿本图书

浏览过的版块

谷歌称全球藏书总量近1.3亿册 公布统计方式

谷歌图书团队称全世界约有1.3亿本图书

浏览过的版块

谷歌称全球藏书总量近1.3亿册公布统计方式