宇宙数字图书馆


12/23/07。  cathayan.org版权所有,保留一切权利。转载请保留此说明。谢绝商业转载。

图书数字化的工作可能还是靠了Google的刺激才为更多人所知,但很明显,因为Google是家商业公司,还要为股东的钱负责,再加上敏感的版权问题,一些机构并不愿意让Google扫描自己的书。在国内,Google更是有比较直接的阻力。

现在由卡内基・梅隆大学牵头,在世界范围内组织了一个宇宙数字图书馆,Universal Digital Library,到目前为止,它已经扫描了100多万本书。而它的目标,是要扫描人类所有的图书,据估计,这个数字可能是1亿册,所以现在刚刚完成1%。但很可能还能找到的书大概只有一半了,因为在人类短短的写书历史中,已经发生过很多次故意或无意的毁灭活动了。

根据Linux.com的这个报道,UDL 的这位负责人对Google的图书计划略有微辞,他认为Google是为了广告,而不是真的为了保存知识――这么说略有点过,Google图书页面上广告还是比较少的吧,只有“Buy this book”有几条,也很不明显。不管怎么说,这类工作是多多益善,就是重复劳动也无所谓,就算是信息冗余,可以抵挡岁月的侵蚀。

现在UDL有1000多名工作人员,在全球50个地点做扫描工作,平均每天可以扫描7000本书,还是挺快的。这个项目竟然在国内有合作伙伴,重要的就是浙江大学,而在它的成员名单上,有浙大校长,中科院研究生院院长,前成员甚至有教育部副部长等等,一开始就走了上层路线,并且看来有点成功。目前,已经扫描的书中中文有97万多本,是英文书的两倍多(这是到11月24号的数字,超出100万本很多了),不知道是不是浙江大学把图书馆里的书扫得差不多了。

Google一样,UDL目前也是把1923年以前出版的书当作是公共领域的,之后的仍然是有版权的,所以前者可以看全本,后面的就只能看部分,在UDL上设定为10%(有本1924年的书可以看15%)。在Google上似乎情况比较多,也许是由出版者自己决定能显示多少。但这个1923年在我国似乎还有点问题,著作权法的规定是作者终生及死后50年,现在也许还有些后代可以主张著作权的。

Google强的一点是公共领域的图书提供了整本下载,UDL目前还没有提供。Google显示的是图片,下载的是PDF,而UDL使用了据说更厉害的djvu格式,说是面向网络,显示更快更漂亮,对付大分辨率图片以及扫描图的效果更好等等。Djvu有专门的浏览器,也有各种浏览器的插件可以直接在浏览器窗口里看,不会像pdf一样拖慢浏览器。

美国人一向重视这些知识,或者说历史,甚至国会拨款给所有二战老兵留下记录。网上的Internet Archive也是个很好的地方,不光有网络内容,还有很多图书;Gutenberg项目就不说了,为了让民族产业bisheng.com/cn发展更好,暂时采取了一些贸易壁垒。如果到北京魏公村那里的话,可以看到宏伟的图家数字数字图书馆大楼,很大,非常大,也许等装修好了可以搞点数字化工作,然后仅限馆内浏览使用。


12/23/07 23:27:00,由cathayan发表。目录:阅读

Comments

1条评论

netwjx:

???????? ??? ???????
djvu??????? ????????? ?????????? ????????
于 01/09/08 20:33:26 发表  

Add Comments

This item is closed, it's not possible to add new comments to it or to vote on it

TrackBack