Blog on 27th Floor
主页 随便 电脑 电影 社会 阅读 下载 本站 存档
主页 随便 电脑 电影 社会 阅读 下载 本站 存档

宇宙数字图书馆

12/23/07。  cathayan.org版权所有,保留一切权利。转载请保留此说明。谢绝商业转载。


图书数字化的工作可能还是靠了Google的刺激才为更多人所知,但很明显,因为Google是家商业公司,还要为股东的钱负责,再加上敏感的版权问题,一些机构并不愿意让Google扫描自己的书。在国内,Google更是有比较直接的阻力。

现在由卡内基・梅隆大学牵头,在世界范围内组织了一个宇宙数字图书馆,Universal Digital Library,到目前为止,它已经扫描了100多万本书。而它的目标,是要扫描人类所有的图书,据估计,这个数字可能是1亿册,所以现在刚刚完成1%。但很可能还能找到的书大概只有一半了,因为在人类短短的写书历史中,已经发生过很多次故意或无意的毁灭活动了。

根据Linux.com的这个报道,UDL 的这位负责人对Google的图书计划略有微辞,他认为Google是为了广告,而不是真的为了保存知识――这么说略有点过,Google图书页面上广告还是比较少的吧,只有“Buy this book”有几条,也很不明显。不管怎么说,这类工作是多多益善,就是重复劳动也无所谓,就算是信息冗余,可以抵挡岁月的侵蚀。

现在UDL有1000多名工作人员,在全球50个地点做扫描工作,平均每天可以扫描7000本书,还是挺快的。这个项目竟然在国内有合作伙伴,重要的就是浙江大学,而在它的成员名单上,有浙大校长,中科院研究生院院长,前成员甚至有教育部副部长等等,一开始就走了上层路线,并且看来有点成功。目前,已经扫描的书中中文有97万多本,是英文书的两倍多(这是到11月24号的数字,超出100万本很多了),不知道是不是浙江大学把图书馆里的书扫得差不多了。

Google一样,UDL目前也是把1923年以前出版的书当作是公共领域的,之后的仍然是有版权的,所以前者可以看全本,后面的就只能看部分,在UDL上设定为10%(有本1924年的书可以看15%)。在Google上似乎情况比较多,也许是由出版者自己决定能显示多少。但这个1923年在我国似乎还有点问题,著作权法的规定是作者终生及死后50年,现在也许还有些后代可以主张著作权的。

Google强的一点是公共领域的图书提供了整本下载,UDL目前还没有提供。Google显示的是图片,下载的是PDF,而UDL使用了据说更厉害的djvu格式,说是面向网络,显示更快更漂亮,对付大分辨率图片以及扫描图的效果更好等等。Djvu有专门的浏览器,也有各种浏览器的插件可以直接在浏览器窗口里看,不会像pdf一样拖慢浏览器。

美国人一向重视这些知识,或者说历史,甚至国会拨款给所有二战老兵留下记录。网上的Internet Archive也是个很好的地方,不光有网络内容,还有很多图书;Gutenberg项目就不说了,为了让民族产业bisheng.com/cn发展更好,暂时采取了一些贸易壁垒。如果到北京魏公村那里的话,可以看到宏伟的图家数字数字图书馆大楼,很大,非常大,也许等装修好了可以搞点数字化工作,然后仅限馆内浏览使用。


12/23/07 23:27:00,由cathayan发表。目录:阅读

1条评论

名字叫的太离谱了 还宇宙 地球就够可以啦
djvu的格式不很好说 看目前主要是扫描件 还是适合打印到纸张上 屏幕阅读很不漂亮

netwjx 于 01/09/08 20:33:26 发表. 


这篇文章已经关闭,不能添加评论和投票
I am watching and will delete all spam.

我的E-Mail


Copy&Paste Exchange

访问CPeX Group

订阅Feed

订阅Feedburner
Feedsky订阅
本站订阅

请登录

导航

cathayan.org Web

最新贴

RIME 小狼毫/鼠须管的极点及五笔拼音配置
Software that rocks or sucks less
一棵热带的树换新叶的过程
几个有用的Vim招术
论语七 述而
Nomacs 图像浏览器
Windows 文件校验
Windows 10 文件批量命名简单方法
Windows 10 文件删除高级操作
本站也算是有响应式设计了

最新评论

Powered by

Powered by Nucleus CMS

版权声明

Creative Commons License
Blog on 27th floor by Cathayan is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 3.0 Unported License.
Powered by Nucleus CMS v3.71. Best view with Mozilla browsers.