12/23/07

宇宙数字图书馆

cathayan.org版权所有,保留一切权利。转载请保留此说明。谢绝商业转载。

图书数字化的工作可能还是靠了Google的刺激才为更多人所知,但很明显,因为Google是家商业公司,还要为股东的钱负责,再加上敏感的版权问题,一些机构并不愿意让Google扫描自己的书。在国内,Google更是有比较直接的阻力。

现在由卡内基・梅隆大学牵头,在世界范围内组织了一个宇宙数字图书馆,Universal Digital Library,到目前为止,它已经扫描了100多万本书。而它的目标,是要扫描人类所有的图书,据估计,这个数字可能是1亿册,所以现在刚刚完成1%。但很可能还能找到的书大概只有一半了,因为在人类短短的写书历史中,已经发生过很多次故意或无意的毁灭活动了。

根据Linux.com的这个报道,UDL 的这位负责人对Google的图书计划略有微辞,他认为Google是为了广告,而不是真的为了保存知识――这么说略有点过,Google图书页面上广告还是比较少的吧,只有“Buy this book”有几条,也很不明显。不管怎么说,这类工作是多多益善,就是重复劳动也无所谓,就算是信息冗余,可以抵挡岁月的侵蚀。

现在UDL有1000多名工作人员,在全球50个地点做扫描工作,平均每天可以扫描7000本书,还是挺快的。这个项目竟然在国内有合作伙伴,重要的就是浙江大学,而在它的成员名单上,有浙大校长,中科院研究生院院长,前成员甚至有教育部副部长等等,一开始就走了上层路线,并且看来有点成功。目前,已经扫描的书中中文有97万多本,是英文书的两倍多(这是到11月24号的数字,超出100万本很多了),不知道是不是浙江大学把图书馆里的书扫得差不多了。

Google一样,UDL目前也是把1923年以前出版的书当作是公共领域的,之后的仍然是有版权的,所以前者可以看全本,后面的就只能看部分,在UDL上设定为10%(有本1924年的书可以看15%)。在Google上似乎情况比较多,也许是由出版者自己决定能显示多少。但这个1923年在我国似乎还有点问题,著作权法的规定是作者终生及死后50年,现在也许还有些后代可以主张著作权的。

Google强的一点是公共领域的图书提供了整本下载,UDL目前还没有提供。Google显示的是图片,下载的是PDF,而UDL使用了据说更厉害的djvu格式,说是面向网络,显示更快更漂亮,对付大分辨率图片以及扫描图的效果更好等等。Djvu有专门的浏览器,也有各种浏览器的插件可以直接在浏览器窗口里看,不会像pdf一样拖慢浏览器。

美国人一向重视这些知识,或者说历史,甚至国会拨款给所有二战老兵留下记录。网上的Internet Archive也是个很好的地方,不光有网络内容,还有很多图书;Gutenberg项目就不说了,为了让民族产业bisheng.com/cn发展更好,暂时采取了一些贸易壁垒。如果到北京魏公村那里的话,可以看到宏伟的图家数字数字图书馆大楼,很大,非常大,也许等装修好了可以搞点数字化工作,然后仅限馆内浏览使用。

12/23/07 23:27:00,由 cathayan发表。 本文链接
  

为什么微软不是网络公司?

cathayan.org版权所有,保留一切权利。转载请保留此说明。谢绝商业转载。

说起来QQ已经是一个平台,微软的Windows也是一个平台。在QQ平台上搞插件,会被腾讯公司提起民事诉讼,会被深圳检方提起刑事公诉,但在微软平台上搞插件,微软不会提起民事诉讼,作者也不用担心什么时候突然被FBI包围。

就像微软卖给你一辆车,那车就是你的了,除非有设计错误要召回修补之外,它就不再管了,有坏小子在你车身上喷点污言秽语,微软是不会管的,用户自己清洗不掉,挡不住也不是微软的事;但腾讯卖你一辆QQ,就很不同,它管得远,不但随时有可能会修这个车,也不允许别人往车身上喷漆,只有它自己来喷。差距这么大我原因,就是微软靠卖Windows赚钱,卖完就完,而腾讯靠用户使用QQ来赚钱,用户使用这个行为的本身是它赚钱的武器,于是他就得管上用户怎么用。这就是网络公司与非网络公司的区别。

也就是说,网络的意思就是伸长手的传统公司,这样用户可能受到一些限制,但用户不用担心车子被人做手脚,比如卸个轮子什么的──要放在微软,按它的用户协议,不管用户怎么撞车,不管气囊是否一个都不开,也完全不是它的责任。反观Google,它是网络公司,于是它就很无微不至,搜索结果中就有危险网站提示,帮助中有网站指南。

做为一个半日常的Windows用户,其实很希望微软把自己变成个网络公司,把Windows变成一种服务,而不是一种产品,我支持它起诉所有病毒、木马制造者,也支持它在Windows上投放一点广告,包括把这种权利卖给其他公司,如果它能限制那些滥用的话。

不过这种事怎么说都有些牵强,虽然Windows自己现在绝对是一种网络应用。

12/23/07 21:26:00,由 cathayan发表。 本文链接
  

12/22/07

竞争真激烈

cathayan.org版权所有,保留一切权利。转载请保留此说明。谢绝商业转载。

在地铁上看报看杂志,发短信看电子书都很常见,吃包子也很常见,但朗读今天是第一次见,并且还是一位JJ,并且读的还是德语。

在挤得转身都不行的车厢里,在众人或B4或艳羡或无所谓的目光中,在郁闷的空气中飘来的恶心的包子味中,她大声读着以西、喝、古吞等语。真不容易啊。包括在西直门的人流中排队进站的时候人家还在读。

不知道德国人是不是最近进攻比较凶猛,在2号线上又见到一位捧读一本封面上写着《目标》二字的课本的JJ,似乎还是德语初级。

又说这包子,自己吃应该挺香的,为什么飘过来的二手味差那么多呢?

再说某日在街上经过一网吧,黑黑的小小的门上贴着一张告示,只有8个大字:

同行勿入
见到就打

竞争真是激烈啊。

12/22/07 20:25:00,由 cathayan发表。 本文链接
  

12/21/07

正确使用筷子的手法

cathayan.org版权所有,保留一切权利。转载请保留此说明。谢绝商业转载。

经过多方观察,发现经常一块儿吃饭的人当中,能正确使用筷子的已经成了少数,多数人,包括我在内,使用筷子的手法都不正确,都完全不能体现筷子的什么力学的杠杆的原理。下面这种方法是正确的:



小时候家长还曾经努力纠正过我用筷子的方法,可惜都没能坚持下来,于是到现在还是业余,比许多刚来北京的老外还差。这种错误的方法其实是把筷子上部某个点并在一起,当成一个夹子来使,效果很不好,对付滑溜的东西如猪皮冻,或者小颗粒,比如黄豆,都容易发生半路掉下的错误;如果碰上太尖的筷子,那更是连花生米都夹不住。

但是由于成了习惯,而又不是每天都要夹黄豆吃,所以就这么算了,祖国的一项伟大的文化遗产只好让别人继承了。

这个页面上还写了用筷子的禁忌,其实用叉子一样不能干这些事,下面有图显示正确和错误两种方法。这里还有对岸的有才人士发明了“儿童造型学习筷”,想法很好,功能很强大,没有自信的人可以给下一代准备一双。



12/21/07 20:59:00,由 cathayan发表。 本文链接
  

12/20/07

Firefox 3.0 beta 2又有很多改进

cathayan.org版权所有,保留一切权利。转载请保留此说明。谢绝商业转载。

都已经到Beta阶段了,Firefox 3b2还是推出了许多改进,都有点不习惯了。

其中之一是地址栏,输入地址时下面的下拉列表变得更清晰了,网站都按两行显示,上面是网站标题,下面是URL,每个页面之间有分隔线;其次是输入时的搜索更加智能,它会搜索书签和访问历史,不限于URL,还包括了网站标题,自己加的标签等,直接输入中文也没有问题,非常好用。为了这个,专门把 Delicious的书签备份出来,又导入了Firefox,导入没有问题,包括标题和自己的备注都正确地识别了,只是标签似乎没有了。

说到书签,Firefox现在的书签管理已经成为一个小的独立应用了,叫做Places Organizer,很强大。分成工具栏和菜单两大类,每类下面可以分子文件夹;工具栏内里面有智能书签,就是定义出来的一些最近访问,最近加星标,刚加入书签,最经常访问等,这些放在书签工具栏上使用很方便。

但现在这个Places工作起来有点慢,比如移动几百个书签到某个文件夹的操作就很慢。

其他的改进包括内存使用,号称修补了许多内存泄露和XPCOM问题,感觉如果已经在用Beta1的话,是一定要升级的;如果不是特别要求扩展,也很值得尝试这个新版。

12/20/07 20:21:00,由 cathayan发表。 本文链接
  

12/19/07

沟通万年的不可能

cathayan.org版权所有,保留一切权利。转载请保留此说明。谢绝商业转载。

最近在看一本书,名为《改变西方世界的26个字母》,三联出版,译的水平一般,看到第四页就有明显错误;不过,看到12页发现了一个有趣的东西,叫《横跨十个千年的沟通方法》( Communication Measures to Bridge Ten Millennia)。

这是一个报告,主要作者是印第安纳大学的符号语言学教授Thomas A. Sebeok,发起者是美国能源部,针对目标是核废料处理。这两个东西是怎么联系到一起的呢?原来这些核废料是装在某种桶里,然后深埋在某些地方的地下深处。为了避免不知情的人到这些核废料场上挖坑,从而引发不可知的危险,就有必要在这些地方设立标志,告诫人们不要在这些地方乱挖,甚至根本不要接近。如果只考虑现在,可以画那个标准的核辐射标志或者再加上警示语句,就像“光纤无铜,挖也没用”这样的;但如果要考虑到这些废料的长远影响,比如10000年后它们的危险才会消除,而人类自己在这未来的10000年里已经破坏了文明,退化到穴居、根本看不懂什么标志和英语什么的,那该怎么办呢?或者就算人类一直正常发展,10000年后的人是否能看懂今天的标志呢?于是这位教授就被赋予这一伟大的使命,研究一种可靠的可以把信息传递10000年的方法。

很不幸的是,Sebeok领导的小组最后的报告给出了一个消极的结论,他们认为,这个任务是不可能的,这种标志不存在,没有任何方法可以保证信息在10000年后可以被有效理解。

但是,按照美国人积极向上的不要抱怨问题,要提出Proposal的思路,他们提出了一个思路,即建立一个委员会,或者叫使命团,就类似于某种宗教上的神秘组织,像“达芬奇密码”中提到的郇山隐修会、天主事工会一样,肩负神秘使命,秘密地保守着一个秘密,那就是――某某地是个核废料场,不可靠近――为此目的,他们即便把这条消息变成一个民间神话传说也是可以接受的。

这个报告可以从上面网站下载到,详细内容也应该很有趣。

不知道最终美国人是否听从了这个计划,这个神秘的“核废料隐修会”是否已经存在了呢?但这个研究结论告诉我们理解的人类历史是多么地不可靠,一种文明又多么地容易中断。说英语的人读中世纪英语已经有困难,我们学习一下可以读2000年前的文字,但是很长时间以来,专门研究文字已经成为一种学问,称为“小学 ”,以至于许多国学学者批判他人著作,就说一句,小学不行,就判了人家半个死刑。孔子时代已经要努力维护周公之礼,汉时孔子那些东西也已经要各路学者来回解读;要往前说到商朝的文化,也只有近百年挖出的甲骨为证了,上面还有很多字至今没有解读,至于已经解读的那些意思又对了多大成分,实在是很难说了。



摘要

1980年,美国能源部设立了人类交流任务级(HITF),来研究核废料场在封闭之后的最终标记问题。它的任务是设计一个方法,来警示未来的人类在搞清楚自己行为的后果之前,不要在这些地方进行开采或打井的活动。因为在10000年的时间里,人类世代之间交流越来越弱化的可能性很大,所以必须设计一种经得起时间考验的警示系统。本报告对此问题进行了符号语言学上的分析,并对其进行讯息和符号理论上的研究。由于涉及的时间很长,本报告建议创设一种讯息的中继或接力系统,这一讯息应包括一组图标,索引和符号;同时应保持该信息的高度冗余。


总结

所有的自然语言,扩展一下,所有的人类交流系统,都会随着时间而变化,这是一个广为接受的结论。而且,这些符号语言系统更会发生越来越大的变化,当未来世代的人类试着去理解它时,其表意功能会变得不可靠(比如中世纪英语对我们而言),甚至是完全不能理解。对书写形式和口语形式来说,这在不同程度上都是对的。

接下来的结论是,并没有一种万无一失的交流方法可以管用到10000年以后。要想有效实施这一计划,必须把要传递的信息再次编码,并且按相对不太长的间隔进行重复的编码。为此,强烈建议创建一种“接力”传播系统,内建加强机制,为了强调起见这里把它称为“核能祭司”,也就是一个使命团,同未来的政治动向保持相对独立,由团员自己选择一切手段来加强这一讯息,包括那些带有民间传说性质的手段。

不论何种情况,所有的讯息都应当尽可能地保持最大冗余,明智地混合使用语言和非语言元素,最好包含图标、索引和语言符号的组合。

最后,只要可行,此任务也应从一开始就考虑国际合作。

12/19/07 13:18:00,由 cathayan发表。 本文链接
  

12/13/07

北京北京

cathayan.org版权所有,保留一切权利。转载请保留此说明。谢绝商业转载。

IMG_4058

IMG_4079

IMG_4069

IMG_4046

IMG_4083

12/13/07 20:29:00,由 cathayan发表。 本文链接
  

12/11/07

风度问题

cathayan.org版权所有,保留一切权利。转载请保留此说明。谢绝商业转载。

风度就是通风和温度,坐了几天上下班的地铁,让这个问题搞得很难受。作为从野地里长大的农民,很受不了通风不好的环境;而作为一个准胖子,对高温也比较敏感;而在高峰时段的地铁车厢里,这两个条件都成了对准胖农民的考验。

一直有个不太恭敬的想法,就是SARS那阵子的公交车挺好的,除了人少,还都通风,经常是所有能开的窗户都开到了最大,保持通风,疏散病毒,没有任何人有怨言,这种状态持续了很长时间。现在就不行了,没有威胁,所有的窗户都是封闭的。当然,靠窗户的人还坐着,并不挤,既没有运动又没有密度,他们估计在现在的天气里会有点冷,可是靠里挤着的人大体都不会太好受。

地铁没有窗户问题,所以通风全靠列车员开关风扇,就我的观察,每趟车是否开风扇比较随机,似乎没有一定的规矩。可以想到的规矩就是列车员自己身边的情况,就是车头车尾那个驾驶室里的情况。那里的情况要比车厢内可好多了,一平米的面积上绝不会站上9个人,也绝不会让人脚不沾地也不倒,所以早上地铁经常是不开风扇的,车厢里的温度和气味就糟糕透顶。有些车跑起来之后会有风,有些车跑起来也还是没风,不知道是不是有什么可以开的地方。

还有就是商场,在节能减排的今天也照样把暖气开到25度,每个穿大棉衣进来的顾客都要抱着棉衣来逛,怎么也不会舒服啊。看那些服务员,他们倒是有准备,每人都是单衣――又或者就是因为管暖气的穿了单衣才把暖气开得如此足吧。

每个人都只能从自己的切身体会来做决定,这是正常的,但在涉及公众生活的这些场合,还只让几个人来做决定是不合适的,也许民主就是在这些地方才显得不是太坏吧。不过说回来,真要对地铁车厢的环境进行投票,通风倒也不一定能胜过取暖派吧。

12/11/07 14:11:00,由 cathayan发表。 本文链接
  

12/09/07

Google Picasa for Linux 2.7 beta

cathayan.org版权所有,保留一切权利。转载请保留此说明。谢绝商业转载。

Google新发布了这个Linux版的照片管理软件的Beta版,功能上和Windows版应该是更为接近了,可以上传照片到picasa web,编辑照片可以存在硬盘上,有了目录级联显示的模式,有了加星号照片功能,对RAW格式支持也更好了。可以一试。

问题还有一些,可能不支持中文目录名,在输入文字的地方输入文字后如果想改却不能用退格键删除,点文件夹管理器在我机器直接整个程序僵死。反倒不如Google Linux软件仓库中的上一个版本。

Google的Linux软件仓库中Stable中的Picasa是2.7.3711-1,另外还有个testing库,可能更新些。现在还是用2.7.3711。

然后又跑去下载了Google earth for linux,目前版本也已经是4.2了,工作还不错。但是也有点问题,似乎不支持compose,在窗口中另开其他窗口时,比如看照片,拿尺子量距离时显示都有问题,老是一闪而过。我用的是xfce自带的compose功能。关掉这个功能就没有问题了。

12/09/07 20:09:00,由 cathayan发表。 本文链接
  

12/08/07

四合院坐班心得

cathayan.org版权所有,保留一切权利。转载请保留此说明。谢绝商业转载。

近日有幸进城干活,入住一个两进的小四合院,感觉很好;中午太阳好的时候,望着大约1公里以外的紫禁城发黄的迷糊天空,心里不禁生出许多感慨,当年翰林院的侍诏检讨编修学士们写毛笔字无聊时也会在院子里看天吧。

说起来来北京这么多年了,对北京了解还是很少,许多地方不知道,尤其是城里,只去过西单王府井北海公园这种地方,对其他地方可能还不如参加胡同游的老外看得多。所以,真的坐在一个两进的四合院中,看着正房朝南大窗户上的亮堂堂的光线,感觉还很奇妙。有一阵子觉得似乎回到童年,80年代中期以前,那时我国大部分地方其实都还是农业社会,从那时长起来的人对接近土地的院子,对耕读传家金榜题名的生活有点下意识的感觉是很正常的。

院子里调角种着两棵树,似乎是海棠,其余两角开了花床,但种的是草,可能是近几年美化北京的草坪热中给改的。正房三个台阶,东西厢房两个台阶,台阶全是整条的大青石垒的,都已经有些风华剥离了。墙是青砖,靠近地面的地方已经有些掉灰,看来有些年头;椽子不知道是否修过,居然都很完整;屋顶的瓦看上去还有些古意,不是后来机制的瓦,屋脊两头原件已毁,后补的东西有点粗制滥造了。院子西南角加盖了卫生间,旁边的墙壁上做了个告示牌,号称是名人故居,受保护的院落,住户一定要小心使用等等。仔细看了看以前的住户,也算是一般名人吧,都是黄埔毕业领过兵打过仗的。

四合院阳光之好,实在超出我的想像,可能住了几年楼房,早已经忘了正常院子的天光是什么样子了;也可能是因为在老城区,四周没有高楼遮挡;总之在正常上班时间内这种屋子完全不需要开灯,很环保;并且有向南的大窗户,太阳一照,就跟暖房一样,本来也应该省暖气。但是可能大家习惯了开灯看电脑,所以白天还是开灯,暖气片比一般新楼也还长 :p

最好的可能是抬头就能看到外面,看到树,看到对面屋顶上散步的猫,很有感觉吧?如果是夏天,估计还能绿叶满眼,繁花遍地,该是何等的惬意啊。这一度是我的住房理想啊,估计这辈子都挣不到了。

这院子离外面一条大街不过50米,却居然听不到车响,很不错。这可能是因为这地方居住密度低,大片的地方都是一层,没有大商场,没有大写字楼,汽车最多的时候都可以直接过那条大街,在五道口那种地方可是不敢想。如果全北京都按这种密度安排的话,不知会不会一直延伸到天津去。

说起这个走路,现在进城,地铁应该是首选了,全程才两块钱。但这个地铁吧,17公里的路,其实从出家门到进办公室,也要走上1个小时,平均速度也就比骑车快点。似乎有一半时间费在倒车上,走到城铁站,再从西直门楼上走到地下,这个最恐怖,某天早上在那个栏杆迷宫处转圈时差不多睡了一觉,前后用时12分钟。车上很多时候很挤,可以让人只穿秋天的衣服。某天挤下车后才发现,背包两层拉链都被人拉开了,幸亏里面只有真假两个笔记本,人家也没要。

每天从喧闹的匆忙的地铁走进安静胡同,又或者从胡同走进地铁站,尤其是在西直门被人流涌着前进的时候,大脑都会安静下来,不知道想什么才好。所以,好几天都不知道写什么。

12/08/07 15:07:00,由 cathayan发表。 本文链接
  

12/05/07

《森林之歌》很好看

cathayan.org版权所有,保留一切权利。转载请保留此说明。谢绝商业转载。

已经被王晓峰等一众Blogger吹捧过的央视的《森林之歌》确实不错,反正以前没看过我国的森林,画面很美,内容很丰富,解说词没有过度煽情,也没有过于干巴。推荐观看。

中央一套,晚10:40-11:30。

12/05/07 22:43:36,由 cathayan发表。 本文链接