图书数字化的工作可能还是靠了
Google的刺激才为更多人所知,但很明显,因为Google是家商业公司,还要为股东的钱负责,再加上敏感的版权问题,一些机构并不愿意让Google扫描自己的书。在国内,Google更是有比较直接的阻力。
现在由卡内基・梅隆大学牵头,在世界范围内组织了一个
宇宙数字图书馆,Universal Digital Library,到目前为止,它已经扫描了100多万本书。而它的目标,是要扫描人类所有的图书,据估计,这个数字可能是1亿册,所以现在刚刚完成1%。但很可能还能找到的书大概只有一半了,因为在人类短短的写书历史中,已经发生过很多次故意或无意的毁灭活动了。
根据
Linux.com的这个报道,UDL 的这位负责人对Google的图书计划略有微辞,他认为Google是为了广告,而不是真的为了保存知识――这么说略有点过,Google图书页面上广告还是比较少的吧,只有“Buy this book”有几条,也很不明显。不管怎么说,这类工作是多多益善,就是重复劳动也无所谓,就算是信息冗余,可以抵挡岁月的侵蚀。
现在UDL有1000多名工作人员,在全球50个地点做扫描工作,平均每天可以扫描7000本书,还是挺快的。这个项目竟然在国内有合作伙伴,重要的就是浙江大学,而在
它的成员名单上,有浙大校长,中科院研究生院院长,前成员甚至有教育部副部长等等,一开始就走了上层路线,并且看来有点成功。目前,已经扫描的书中中文有97万多本,是英文书的两倍多(这是到11月24号的数字,超出100万本很多了),不知道是不是浙江大学把图书馆里的书扫得差不多了。
和
Google一样,UDL目前也是
把1923年以前出版的书当作是公共领域的,之后的仍然是有版权的,所以前者可以看全本,后面的就只能看部分,在UDL上设定为10%(有本1924年的书可以看15%)。在Google上似乎情况比较多,也许是由出版者自己决定能显示多少。但这个1923年在我国似乎还有点问题,著作权法的规定是作者终生及死后50年,现在也许还有些后代可以主张著作权的。
Google强的一点是公共领域的图书提供了整本下载,UDL目前还没有提供。Google显示的是图片,下载的是PDF,而UDL使用了据说更厉害的
djvu格式,说是面向网络,显示更快更漂亮,对付大分辨率图片以及扫描图的效果更好等等。Djvu有专门的浏览器,也有各种浏览器的插件可以直接在浏览器窗口里看,不会像pdf一样拖慢浏览器。
美国人一向重视这些知识,或者说历史,甚至国会拨款给所有二战老兵留下记录。网上的
Internet Archive也是个很好的地方,不光有网络内容,还有很多图书;Gutenberg项目就不说了,为了让民族产业bisheng.com/cn发展更好,暂时采取了一些贸易壁垒。如果到北京魏公村那里的话,可以看到宏伟的图家数字数字图书馆大楼,很大,非常大,也许等装修好了可以搞点数字化工作,然后仅限馆内浏览使用。