Blog on 27th Floor
主页 随便 电脑 电影 社会 阅读 下载 本站 存档
主页 随便 电脑 电影 社会 阅读 下载 本站 存档

12/23/07

宇宙数字图书馆

cathayan.org版权所有,保留一切权利。转载请保留此说明。谢绝商业转载。
图书数字化的工作可能还是靠了Google的刺激才为更多人所知,但很明显,因为Google是家商业公司,还要为股东的钱负责,再加上敏感的版权问题,一些机构并不愿意让Google扫描自己的书。在国内,Google更是有比较直接的阻力。

现在由卡内基・梅隆大学牵头,在世界范围内组织了一个宇宙数字图书馆,Universal Digital Library,到目前为止,它已经扫描了100多万本书。而它的目标,是要扫描人类所有的图书,据估计,这个数字可能是1亿册,所以现在刚刚完成1%。但很可能还能找到的书大概只有一半了,因为在人类短短的写书历史中,已经发生过很多次故意或无意的毁灭活动了。

根据Linux.com的这个报道,UDL 的这位负责人对Google的图书计划略有微辞,他认为Google是为了广告,而不是真的为了保存知识――这么说略有点过,Google图书页面上广告还是比较少的吧,只有“Buy this book”有几条,也很不明显。不管怎么说,这类工作是多多益善,就是重复劳动也无所谓,就算是信息冗余,可以抵挡岁月的侵蚀。

现在UDL有1000多名工作人员,在全球50个地点做扫描工作,平均每天可以扫描7000本书,还是挺快的。这个项目竟然在国内有合作伙伴,重要的就是浙江大学,而在它的成员名单上,有浙大校长,中科院研究生院院长,前成员甚至有教育部副部长等等,一开始就走了上层路线,并且看来有点成功。目前,已经扫描的书中中文有97万多本,是英文书的两倍多(这是到11月24号的数字,超出100万本很多了),不知道是不是浙江大学把图书馆里的书扫得差不多了。

Google一样,UDL目前也是把1923年以前出版的书当作是公共领域的,之后的仍然是有版权的,所以前者可以看全本,后面的就只能看部分,在UDL上设定为10%(有本1924年的书可以看15%)。在Google上似乎情况比较多,也许是由出版者自己决定能显示多少。但这个1923年在我国似乎还有点问题,著作权法的规定是作者终生及死后50年,现在也许还有些后代可以主张著作权的。

Google强的一点是公共领域的图书提供了整本下载,UDL目前还没有提供。Google显示的是图片,下载的是PDF,而UDL使用了据说更厉害的djvu格式,说是面向网络,显示更快更漂亮,对付大分辨率图片以及扫描图的效果更好等等。Djvu有专门的浏览器,也有各种浏览器的插件可以直接在浏览器窗口里看,不会像pdf一样拖慢浏览器。

美国人一向重视这些知识,或者说历史,甚至国会拨款给所有二战老兵留下记录。网上的Internet Archive也是个很好的地方,不光有网络内容,还有很多图书;Gutenberg项目就不说了,为了让民族产业bisheng.com/cn发展更好,暂时采取了一些贸易壁垒。如果到北京魏公村那里的话,可以看到宏伟的图家数字数字图书馆大楼,很大,非常大,也许等装修好了可以搞点数字化工作,然后仅限馆内浏览使用。

12/23/07 23:27:00,由 cathayan发表。 本文链接

12/19/07

沟通万年的不可能

cathayan.org版权所有,保留一切权利。转载请保留此说明。谢绝商业转载。
最近在看一本书,名为《改变西方世界的26个字母》,三联出版,译的水平一般,看到第四页就有明显错误;不过,看到12页发现了一个有趣的东西,叫《横跨十个千年的沟通方法》( Communication Measures to Bridge Ten Millennia)。

这是一个报告,主要作者是印第安纳大学的符号语言学教授Thomas A. Sebeok,发起者是美国能源部,针对目标是核废料处理。这两个东西是怎么联系到一起的呢?原来这些核废料是装在某种桶里,然后深埋在某些地方的地下深处。为了避免不知情的人到这些核废料场上挖坑,从而引发不可知的危险,就有必要在这些地方设立标志,告诫人们不要在这些地方乱挖,甚至根本不要接近。如果只考虑现在,可以画那个标准的核辐射标志或者再加上警示语句,就像“光纤无铜,挖也没用”这样的;但如果要考虑到这些废料的长远影响,比如10000年后它们的危险才会消除,而人类自己在这未来的10000年里已经破坏了文明,退化到穴居、根本看不懂什么标志和英语什么的,那该怎么办呢?或者就算人类一直正常发展,10000年后的人是否能看懂今天的标志呢?于是这位教授就被赋予这一伟大的使命,研究一种可靠的可以把信息传递10000年的方法。

很不幸的是,Sebeok领导的小组最后的报告给出了一个消极的结论,他们认为,这个任务是不可能的,这种标志不存在,没有任何方法可以保证信息在10000年后可以被有效理解。

但是,按照美国人积极向上的不要抱怨问题,要提出Proposal的思路,他们提出了一个思路,即建立一个委员会,或者叫使命团,就类似于某种宗教上的神秘组织,像“达芬奇密码”中提到的郇山隐修会、天主事工会一样,肩负神秘使命,秘密地保守着一个秘密,那就是――某某地是个核废料场,不可靠近――为此目的,他们即便把这条消息变成一个民间神话传说也是可以接受的。

这个报告可以从上面网站下载到,详细内容也应该很有趣。

不知道最终美国人是否听从了这个计划,这个神秘的“核废料隐修会”是否已经存在了呢?但这个研究结论告诉我们理解的人类历史是多么地不可靠,一种文明又多么地容易中断。说英语的人读中世纪英语已经有困难,我们学习一下可以读2000年前的文字,但是很长时间以来,专门研究文字已经成为一种学问,称为“小学 ”,以至于许多国学学者批判他人著作,就说一句,小学不行,就判了人家半个死刑。孔子时代已经要努力维护周公之礼,汉时孔子那些东西也已经要各路学者来回解读;要往前说到商朝的文化,也只有近百年挖出的甲骨为证了,上面还有很多字至今没有解读,至于已经解读的那些意思又对了多大成分,实在是很难说了。



摘要

1980年,美国能源部设立了人类交流任务级(HITF),来研究核废料场在封闭之后的最终标记问题。它的任务是设计一个方法,来警示未来的人类在搞清楚自己行为的后果之前,不要在这些地方进行开采或打井的活动。因为在10000年的时间里,人类世代之间交流越来越弱化的可能性很大,所以必须设计一种经得起时间考验的警示系统。本报告对此问题进行了符号语言学上的分析,并对其进行讯息和符号理论上的研究。由于涉及的时间很长,本报告建议创设一种讯息的中继或接力系统,这一讯息应包括一组图标,索引和符号;同时应保持该信息的高度冗余。


总结

所有的自然语言,扩展一下,所有的人类交流系统,都会随着时间而变化,这是一个广为接受的结论。而且,这些符号语言系统更会发生越来越大的变化,当未来世代的人类试着去理解它时,其表意功能会变得不可靠(比如中世纪英语对我们而言),甚至是完全不能理解。对书写形式和口语形式来说,这在不同程度上都是对的。

接下来的结论是,并没有一种万无一失的交流方法可以管用到10000年以后。要想有效实施这一计划,必须把要传递的信息再次编码,并且按相对不太长的间隔进行重复的编码。为此,强烈建议创建一种“接力”传播系统,内建加强机制,为了强调起见这里把它称为“核能祭司”,也就是一个使命团,同未来的政治动向保持相对独立,由团员自己选择一切手段来加强这一讯息,包括那些带有民间传说性质的手段。

不论何种情况,所有的讯息都应当尽可能地保持最大冗余,明智地混合使用语言和非语言元素,最好包含图标、索引和语言符号的组合。

最后,只要可行,此任务也应从一开始就考虑国际合作。

12/19/07 13:18:00,由 cathayan发表。 本文链接

我的E-Mail


Copy&Paste Exchange

访问CPeX Group

订阅Feed

订阅Feedburner
Feedsky订阅
本站订阅

请登录

导航

cathayan.org Web

最新贴

RIME 小狼毫/鼠须管的极点及五笔拼音配置
Software that rocks or sucks less
一棵热带的树换新叶的过程
几个有用的Vim招术
论语七 述而
Nomacs 图像浏览器
Windows 文件校验
Windows 10 文件批量命名简单方法
Windows 10 文件删除高级操作
本站也算是有响应式设计了

最新评论

Powered by

Powered by Nucleus CMS

版权声明

Creative Commons License
Blog on 27th floor by Cathayan is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 3.0 Unported License.
Powered by Nucleus CMS v3.71. Best view with Mozilla browsers.