有水木网友把前一段
谷歌拼音1.0.15版中的词库(ZIP文件)给搞了出来,就是在网有争议现在没消息的那一版。总结这些词可真也不容易,总数快有34万,应该比较能反映(大陆)汉语的现状(不知道他们分析时抓的网页有没有包括港台以及海外中文网页),也就是说常用词汇有这么34万,一般正规词典上收词不过3/4万。当然,这里面有许多不是非常严格的词,而是个短语,包含了不同的句子成分,不过既然人民这样用了,那就得承认。
总计词汇数:33,9100
单字:0
二字词:12,0603, 35.6%
三字词:11,5229, 34.0%
四字词:9,2813, 27.4%
五字词:5564, 1.6%
六字或更多字:4891, 1.4%
可以看到二字词、三字词占了绝大多数,都超过了1/3,四字词也接近1/3,再多字的就是少数。按这样的词汇数量,也和西方拼音文字的词汇量不相上下了,当然不包括那些无聊的专用名词。
数字都按4位点了点,这样符合汉语习惯,一下就能读出多少万,再上一点的话就是亿,再上面是万亿。英语用3位就要进一下,分别是千、百万和十亿,所以他们才用3位点个点的写法。
单字字数没个定论,下面是各个计算机处理汉字用的标准所收录的文字数。这些字数都很大,一般人其实都用不到这么多,3000字足以。
GB2312,6763字
GBK,21003(21886)非国家标准,CP936
GB13000,20902字(也就是ISO的标准)
GB18030,27533字
BIG5,13461字
Unicode CJK,20902字,两个扩展区,总数七万多字。
把这些词全部写成单个的字,sort|uniq之后,发现共用了 5800个 不同的汉字。这5800字按重复次数排序(没有排除一字在同一词内重复的情况),出现最多的前一百字是:
人 不 一 大 中 的 在 学 国 有 上 了 生 机 电 业 子 工 小 网
出 来 会 下 发 我 文 动 天 行 家 理 新 用 性 心 法 分 作 水
成 公 高 化 地 开 时 品 金 无 市 者 能 自 经 为 方 过 信 是
力 制 可 好 年 长 海 三 手 到 数 多 美 体 之 产 通 合 面 山
本 车 部 要 得 物 后 个 安 路 事 说 全 教 区 外 件 道 明 名
其中,“人”字出现 7270 次,“名”字出现也有 1741 次,按最少的“名”的出现频率来算,这些字的组词数量也超过了一半(如果没有太多词内重复)。