Blog on 27th Floor

宇宙数字图书馆

图书数字化的工作可能还是靠了Google的刺激才为更多人所知，但很明显，因为Google是家商业公司，还要为股东的钱负责，再加上敏感的版权问题，一些机构并不愿意让Google扫描自己的书。在国内，Google更是有比较直接的阻力。

现在由卡内基・梅隆大学牵头，在世界范围内组织了一个宇宙数字图书馆，Universal Digital Library，到目前为止，它已经扫描了100多万本书。而它的目标，是要扫描人类所有的图书，据估计，这个数字可能是1亿册，所以现在刚刚完成1%。但很可能还能找到的书大概只有一半了，因为在人类短短的写书历史中，已经发生过很多次故意或无意的毁灭活动了。

根据Linux.com的这个报道，UDL 的这位负责人对Google的图书计划略有微辞，他认为Google是为了广告，而不是真的为了保存知识――这么说略有点过，Google图书页面上广告还是比较少的吧，只有“Buy this book”有几条，也很不明显。不管怎么说，这类工作是多多益善，就是重复劳动也无所谓，就算是信息冗余，可以抵挡岁月的侵蚀。

现在UDL有1000多名工作人员，在全球50个地点做扫描工作，平均每天可以扫描7000本书，还是挺快的。这个项目竟然在国内有合作伙伴，重要的就是浙江大学，而在它的成员名单上，有浙大校长，中科院研究生院院长，前成员甚至有教育部副部长等等，一开始就走了上层路线，并且看来有点成功。目前，已经扫描的书中中文有97万多本，是英文书的两倍多（这是到11月24号的数字，超出100万本很多了），不知道是不是浙江大学把图书馆里的书扫得差不多了。

和Google一样，UDL目前也是把1923年以前出版的书当作是公共领域的，之后的仍然是有版权的，所以前者可以看全本，后面的就只能看部分，在UDL上设定为10%（有本1924年的书可以看15%）。在Google上似乎情况比较多，也许是由出版者自己决定能显示多少。但这个1923年在我国似乎还有点问题，著作权法的规定是作者终生及死后50年，现在也许还有些后代可以主张著作权的。

Google强的一点是公共领域的图书提供了整本下载，UDL目前还没有提供。Google显示的是图片，下载的是PDF，而UDL使用了据说更厉害的djvu格式，说是面向网络，显示更快更漂亮，对付大分辨率图片以及扫描图的效果更好等等。Djvu有专门的浏览器，也有各种浏览器的插件可以直接在浏览器窗口里看，不会像pdf一样拖慢浏览器。

美国人一向重视这些知识，或者说历史，甚至国会拨款给所有二战老兵留下记录。网上的Internet Archive也是个很好的地方，不光有网络内容，还有很多图书；Gutenberg项目就不说了，为了让民族产业bisheng.com/cn发展更好，暂时采取了一些贸易壁垒。如果到北京魏公村那里的话，可以看到宏伟的图家数字数字图书馆大楼，很大，非常大，也许等装修好了可以搞点数字化工作，然后仅限馆内浏览使用。

12/23/07 23:27:00，由cathayan发表。目录：阅读