Blog on 27th Floor

新汉码

从Jserv大侠那里看到这篇文章－－“等待新汉码－－汉字和数位化与中华文化的冲击”，原作登在GDocs上面。这个标题有点语法问题。

这篇文章主要的意思是：

汉字有数千数万个，在数字化时代要处理它，就得给他分配编码；汉字是一字一码，也就是一个汉字就有一个编码，所以编码非常庞大；而这个码要想通用，又必须是通过一些的程序，经过国际的标准化组织认定之后才能使用，所以要想改变编码非常难，要想往里面加新码也是更难。这样就造成了很多问题。

第一个问题是怎么编码也有不够的时候，最后弄到Unicode已经有7万多字（这么多？？？），这不但难找，而且给存储有限的设备增加许多负担；第二个问题是固化了汉字，我们只有用这些汉字，而无法再创造新的汉字，像那些以“鱼”为偏旁的字，或者像那些以“马”为偏旁的那些马。

总之，就是汉字在这种编码方法下僵住了。

解决方法是：汉字必须是灵活的，必须能创新，能造新字；而创造新字的方法就是“形声造字法，这是汉字特质，也是汉字的活力和魅力所在。”

至于具体的造字方法，作者阿江没有细说，但在他的GooglePage上面，看到一个专利叫做“动态组字”。我想他的方法是：指定一些汉字偏旁或汉字，让它们做为基础（字母），在字库中只对它们进行编码，然后用这些偏旁或汉字，动态地组成新的汉字，就像韩文字母的那种拼法吧，总之由计算机来确定显示出来的样子，偏旁就小一点，主体部分就大一点，怎么拼得好看还待研究。

可以说，这是一个方法，但我不认为它是一个好方法。这样做无疑会弄出许多我们从来没有见过，也不一定就能读出，读出也不知道它的意思的字，趋向于英语那上百万的单词；而同时造字就讲究来历，如果不能搞清某个字的原始来历，那样也造不出什么字来；这种字用计算机也许处理方便，但如果手写呢？难道每年出本字典告诉大家某字怎么写？又如作者举出的MODEM这个英文字，是一长串单字的首字母组成的，难道我们也要用“调制解调器”这五个字的首笔画来组成个新字表示这个意思吗？

我想作者只是有一个简单的弯没有拐过来：就是对岸把英文中的Word翻译成了“字”，而想当然地把这个英文“字”同汉字对等了。我以前就搞过非科学的现代汉语研究，早就勇猛地指出，不是这样的。

这边把Word是翻译成单“词”的，它是词，而不是字，它本身是由字（字根或字母）组成的，我们与它相应的东西不是单个的汉字，而应该是词、词组、短语、成语。汉语表达意思，不需要老是囿于一个字，它的字形，它的读音，单个汉字的作用必然会越来越弱化，而越来越强化的将是词。

实际上这也正在走上其他文字发展走上的道路，差不多可以叫拼音化。只不过我们不再拼单个的音，而是把单个的字拼在一起。这样的字会有多少个呢？著名人物太祖，其选集一至四卷，总字数超过66万，只用了2891个单独的字。我想一般人，也不写那么多字，更不想那么多事，很有可能，我想2000就足够了。

2000字，组词的能力是很惊人的，二字词2000×2000，三字词再乘个2000，除去这些组合中大量无意义的，仍然会有巨大的空间，而不必担心它不够用，想想英语才多少音节，就已经组出这么多万的词了。

今后作家要想出彩，只怕必须走这条路，在这方面开风气之先，起到开创语言新方向的作用，或者是把大家发明出来的词规范化，能有这个水平，岂不是现代莎士比亚？白话文的历史其实不长，就是加上明清小说这种半白话的时间，也不是很长，真正注意创造新词，接受大量新事物，还都是现代以来的事，所以这个方向上肯定是大有可为的。

说起来我光这个Blog也已经写了3年了，也不知道敲了多少字，用了多少汉字，很可能不超过2000吧，有空倒要统计一下。

更加民科和武断地说，我们将来使用的语言是一门2000字母的拼音语言，这将是个自然的演化过程，会把其他一切汉语拼音化的方案打败。上面说到老猫先生用字2891个，实际上来自这篇文章－－拼音汉字，其中设想以拼音字母来代表汉字的意义而不是读音，像动物要用d，机械要用j。我只为找那个2891的数字，没细看文章，不知道现在网上流行的dd是不是都是动物，jj们是否都太过机械？

12/21/06 16:42:51，由cathayan发表。目录：阅读

这篇文章已经关闭，不能添加评论和投票

I am watching and will delete all spam.

Jump to navigation