Blog on 27th Floor

05/31/07

Google Gears

Google发布一套新的软件Gears，可以做为浏览器的扩展，把用户原来在线看的内容下载到本地并管理起来。它同时又是自成体系的一套软件，分服务端——在本地执行远程服务器的功能，数据库——在本地保存离线内容并提供检索，和快递员——跑服务器那里把东西取下来。

现在除有几个例子之外，比较实用的就是Google Reader的离线功能，在Reader的右上角可以看到这个新特性。安装之后，可以自动下载最新的2000条RSS。

这个功能似乎并不比其他桌面Rss reader更强，这个下载再处理的思路似乎也不比Email客户端更有创新。但从以浏览器为平台的思路来看，还是很厉害的，尤其是对一些并不需要保持连线的应用来说，比如Gmail和GDoc这些。另外，内容保存在本地之后，除了可以搜索更快，提供API对内容进行处理的方法也会更多。

似乎是考虑到其他几家也有此类工作，Google这个是开源的，也可以说是提供了一种开发桌面应用的可能吧，其他的Mozilla的浏览器平台，Adobe的Apollo平台也都类似。

其实这些应用也完全可以用VB/VC搞出来，但似乎会简单一点吧（没经验胡说），跟微软争桌面应用开发者这一招还是比较厉害的。

05/31/07 10:21:14，由 cathayan发表。本文链接

05/27/07

准备夸Zooomr

[最新情况]今天下午2点多钟，偶尔看了一眼，Zooomr上线了，不过只有10来分钟，缺省是它自己的ID登录，用Email账号注册，也还有原来的OpenID登录。不过这10分钟之后，它的服务器突然坏了，中文Blog上说是硬盘坏了。希望明天早上能看到它。

这个贴子已经迟了快一周了，但是Zooomr.com自己一直不能上线，所以一直没夸出来。

之所以要夸它，是因为在它这次号称Mark III的升级后，它将为所有用户提供无限制的存储空间和上载流量，同时照片尺寸也没有限制。

我还不知道有哪家照片服务敢于提供这个条件，以服务器多著称的Google也只有1GB的照片空间──不过用起来还不错，比Flickr限制只显示200张还是要好点。

这个Zooomr，以前推广时还分Pro账号，看上去那自然就有普通账号，可实际上我翻遍它的网站，也没有见到任何关于用户区分的说明，也没有什么容量的说明，差不多就是说它一直就没有限制什么，现在是正式声明无限制了。

同时它的特性也很厉害，没升级前有Geotag，就是为照片在Google map上指明方位，国内没有地图的地方可以用卫星图；另一个是加语音注解，似乎是Flash的，没用过。升级之后还要加上一个卖照片的服务（可能暂时没有），卖到的钱自己留9成，给Zooomr一成。同时也会提供API给开发者。

不过Zooomr这次升级确实有点弱了，搞得他们在主页上声明：我们只是一家两个人的公司，想想吧。嗯，确实很厉害，似乎还只有其中的Kris是程序员，一个人搞定这么多事情，不赞一个牛B是不行的。

升级的过程他们有实时视频可以看，包括可以看Kris睡觉。还有Flickr的员工给他送了一个披萨。聊天中有人说可能的开放日期是明天（美国那边），希望到时能看到。如果到时他们还没搞定，岂不有点像倒彩了 :mrgreen: 不过我已经在它那里存了好几百张照片，近期Blog上的图片也全部放在那里，可千万要正常启动啊。

不如Google把它买了算了。

05/27/07 23:52:31，由 cathayan发表。本文链接

05/17/07

Google启用通用搜索及试验搜索结果页

据GOS报道，昨天Google在总部搞了个搜索学（Searchology）大会，探讨了搜索技术的过去、现在和未来（实话实说？），他们说搜索还是个很困难的课题，有许多问题要解决，但搜索仍将是Google的核心竞争力。

同时，Google发布了新设计的“通用搜索”（Universal search）结果页面，上面把新闻、图片、视频、图书甚至本地的一些内容都当作正常的搜索结果按其重要程度列出，而不再是只列出网页结果，也就是说结合了所有的内容源，要“最精确地”满足用户的搜索需求。

GOS报道中给出的例子搜索词“Nosferatu”，结果页上确实有视频，来自Google video，同时，比GOS的抓图更进一步，原来显示多少条结果的那个蓝条也进行了重新设计，变成漂亮的有一点3d效果的条，上面会显示Web News Image和Video，具体显示什么似乎各个词不太一样。

而原来出现在搜索框上的Web image等特定搜索页的链接已经和Google的其他服务一起跑到了页面的左上角，上面列出了所有的服务，最前面列出用户最常用的──应该是登录后会根据个人使用情况动态变化，这个设计很有用，最后的more是个下拉菜单，里面的其他的那些。这个设计在Gmail里也有，中文版似乎也有了。据说这个设计将出现在所有Google服务上。

Google还推出了搜索实验页，专门让大家看各种设计的结果页，有按时间线显示的，显示在地图上的，还有键盘快捷键（又是Vim规则，充分说明了Vim的影响力 :mrgreen: ）。下面插播一条广告：

Vim好就好在低可当记事本，高可以编程控制，中间还有无数命令可用，
并且自由开源，学习一次终生受益，各硬件平台统吃，永无找Key之烦恼
──采自水母新软版，略改。

另外还有把搜索导航条设计到左边或右边的实现。

按Gos的报道，Google还将试验一定程度的语义搜索，即当用户输入一串搜索词句后，主动猜测它的中心意思，变换搜索词，再来提交结果，并且还将试验翻译用户搜索词，用其他11种语言进行搜索。不知道这些猜测含义的工作能走到哪一步，是否还要像翻译一样，承认“100%正确翻译的理想仍然没有实现”，然后加上用户提交校正的按钮呢？

这些还是比Google中国推出的东西要吸引人，像最近推出的相关主题，大家试了后会看到那个more:选项，自然会在more前面加上其他词试一下，不想结果上方的相关还是都给加了“车主”什么的，犯晕啊。现在英文搜索上也有“Searches related to:”，倒没有这个more算法。

05/17/07 18:30:20，由 cathayan发表。本文链接

05/16/07

Linux下的有趣命令

来自水木讨论，总结一下。有些是搞笑的，有些也还是很有用的：

yes：输出一串y，有时可以用来对付很多y/n选择的应用

banner：打印字符标题，就是用字符拼出大字来

ddate：把日历转成什么其他历，Today is Sweetmorn, the 63rd day of Discord in the YOLD 3173

fortune：输出一句话，内容有很多种，据说有唐诗宋词

cal 9 1752：打印日历，不过那一个月的有问题，哈，还有个ccal有农历的不知道怎么样了

tac：concatenate and print files in reverse，把文件的行反过来打印

ptx - produce a permuted index of file contents，生成索引？不知道

xev：打印即时的X事件

xeyes：出眼睛那个，进X第一都要玩玩吧

cowsay/cowthink：打印一个小牛（或其他动物）说话或想像，内容可自定

factor：分解因数

shred：覆盖文件让它不能再读

aptitude moo/apt-get moo -vvvvv：debian搞笑的

还有make love，翻成中文倒不好玩了

还有人说who am i，不够有意思

有人说 rm -fr /，还有dd if=/dev/zero of=/dev/mem，这就太坏了，没事别试，尤其是root敢死队不要试

csmash：一个3d乒乓游戏，没玩过。

05/16/07 22:33:41，由 cathayan发表。本文链接

05/15/07

现在汉语的词汇数量及分布

有水木网友把前一段谷歌拼音1.0.15版中的词库（ZIP文件）给搞了出来，就是在网有争议现在没消息的那一版。总结这些词可真也不容易，总数快有34万，应该比较能反映（大陆）汉语的现状（不知道他们分析时抓的网页有没有包括港台以及海外中文网页），也就是说常用词汇有这么34万，一般正规词典上收词不过3/4万。当然，这里面有许多不是非常严格的词，而是个短语，包含了不同的句子成分，不过既然人民这样用了，那就得承认。

总计词汇数：33,9100
单字：0
二字词：12,0603, 35.6%
三字词：11,5229, 34.0%
四字词：9,2813, 27.4%
五字词：5564, 1.6%
六字或更多字：4891, 1.4%

可以看到二字词、三字词占了绝大多数，都超过了1/3，四字词也接近1/3，再多字的就是少数。按这样的词汇数量，也和西方拼音文字的词汇量不相上下了，当然不包括那些无聊的专用名词。

数字都按4位点了点，这样符合汉语习惯，一下就能读出多少万，再上一点的话就是亿，再上面是万亿。英语用3位就要进一下，分别是千、百万和十亿，所以他们才用3位点个点的写法。

单字字数没个定论，下面是各个计算机处理汉字用的标准所收录的文字数。这些字数都很大，一般人其实都用不到这么多，3000字足以。

GB2312，6763字
GBK，21003（21886）非国家标准，CP936
GB13000，20902字（也就是ISO的标准）
GB18030，27533字
BIG5，13461字
Unicode CJK，20902字，两个扩展区，总数七万多字。

把这些词全部写成单个的字，sort|uniq之后，发现共用了 5800个不同的汉字。这5800字按重复次数排序（没有排除一字在同一词内重复的情况），出现最多的前一百字是：

人不一大中的在学国有上了生机电业子工小网
出来会下发我文动天行家理新用性心法分作水
成公高化地开时品金无市者能自经为方过信是
力制可好年长海三手到数多美体之产通合面山
本车部要得物后个安路事说全教区外件道明名

其中，“人”字出现 7270 次，“名”字出现也有 1741 次，按最少的“名”的出现频率来算，这些字的组词数量也超过了一半（如果没有太多词内重复）。

05/15/07 20:29:45，由 cathayan发表。本文链接

05/09/07

Pidgin (Gaim) 2.0

Gaim因为和AOL的AIM有名字上的纠纷，所以改了名字，现在叫做Pidgin，这个词的读音是鸽子，不知道是不是有这个意思，反正现在他们就用了鸽子做为图标了。域名现在也改为pidgin.im，.im还是相当地帅的。

这个软件是一个多协议的集成化的即时通讯（IM）工具，可以支持AIM, Bonjour, Gadu-Gadu, Groupwise, ICQ, IRC, MSN, QQ, SILC, SIMPLE, Sametime, XMPP, Yahoo!, Zephyr。常用的MSN不用说了，XMPP就是Jabber和Google talk所用的通讯协议，QQ也是新近加入支持的，表现还不错。并且它还支持IRC，可以直接上频道玩。

它同时也支持文件传送（只用过MSN的），离线消息（QQ的可以确认），以及可以在同一窗口里开多个标签页聊天等，使用非常方便。当然，它不支持什么传情动漫和振屏等超垃圾特性，不用担心被人打扰，连有人爱用的取代文字的小无聊图标似乎也可以关掉，省得猜它们到底是什么意思了。不过似乎也没找到利用那种名字下的“口号”的功能，就不能每天改不同的签名档了。

Pidgin是开源软件，基于开源的GTK+图形库，所以安装包通常把GTK也打包进去了，装完了倒也可以直接装GIMP，也算是不错的图形编辑处理软件。Linux下这些基本都是标配了，就不说了。

05/09/07 22:44:34，由 cathayan发表。本文链接

05/06/07

未来的信息工作桌面

这是微软演示的未来的信息工作桌面。根据视频，它有一个大型的触摸屏，像桌子那么大，分成多个区域，可以对文件拍照，实现数字化，语音识别控制，随时对桌面上的物体进行调整大小和旋转的操作，还可以搞视频会议，安排日程，由于屏幕大，所以可以同时看到许多内容，进度条可以一直显示在眼前。数字化的文件上可以签名。

这个东西用起来应该比较爽，可以给人一种宇宙飞船指令长的感觉吧。但是我觉得这个桌面似乎是为CXO定制的，完全是个摆设，估计就是今后的老板台的发展方向了 :mrgreen: XO们在上面唯一动手的操作就是签名。

信息类的工作还是很烦的，它是无数的文字/图/表格以及它们之间的编辑、创新和计算，总之是面向细节的，而不是大手一挥万事立就型的。所以微软还是老实做自己的Office吧。但在微软从事这种扯淡研究应该不是一般地爽。

05/06/07 23:36:29，由 cathayan发表。本文链接

05/03/07

Digg对可能违法材料的处理

昨天，有人在网上贴出了破解HD-DVD或是蓝光DVD内容保护所需要的一串数字，128位，然后AACS-LA，就是给DVD软硬件厂商发许可的这个机构让律师给这些网站发了信，要求他们撤下这些贴子。刚开始digg把网友推出来的贴子给关掉了，然后触发了更激烈地反抗。最后digg管理方给出了下面这段话，贴子的标题上直接就包含了这串数字：

但现在，在看了数百个贴子和成千上万个留言之后，我们觉得你们说得很清楚了。你们更愿意看着Digg在战斗中倒下，而不是看着它向一家大公司低头。我们听你的，从现在起我们不会再删除任何包含那个代码的贴子和留言，并准备处理此举可能带来的任何后果。

如果我们输了，管它呢，至少我们试过了。

感觉这段话很厉害，也是这种以用户为基础的网站所能采取的比较激烈的一招。好在他们最不济也不过上法庭输掉而后关门而已，人身上应该不会有问题，这邦家伙才会如此牛B。

这已经又引发了一个数字是否会成为非法，以及是否可以进行版权保护等话题。这和上回几年前DVD破解代码时有位牛人拿出来的那个素数还有所区别，那个素数代表了压缩后的C代码，现在这个数字还只是一个破解的基础而已。不知道这事是否会上法庭。不过反正它已经传播开来，HD/br-DVD保护内容的努力又一次失败了，在大家基本还没有看过这种光盘之前。

05/03/07 17:30:45，由 cathayan发表。本文链接

Jump to navigation