Blog on 27th Floor
主页 随便 电脑 电影 社会 阅读 下载 本站 存档
主页 随便 电脑 电影 社会 阅读 下载 本站 存档

现在汉语的词汇数量及分布

05/15/07。  cathayan.org版权所有,保留一切权利。转载请保留此说明。谢绝商业转载。


有水木网友把前一段谷歌拼音1.0.15版中的词库(ZIP文件)给搞了出来,就是在网有争议现在没消息的那一版。总结这些词可真也不容易,总数快有34万,应该比较能反映(大陆)汉语的现状(不知道他们分析时抓的网页有没有包括港台以及海外中文网页),也就是说常用词汇有这么34万,一般正规词典上收词不过3/4万。当然,这里面有许多不是非常严格的词,而是个短语,包含了不同的句子成分,不过既然人民这样用了,那就得承认。

总计词汇数:33,9100
单字:0
二字词:12,0603, 35.6%
三字词:11,5229, 34.0%
四字词:9,2813, 27.4%
五字词:5564, 1.6%
六字或更多字:4891, 1.4%

可以看到二字词、三字词占了绝大多数,都超过了1/3,四字词也接近1/3,再多字的就是少数。按这样的词汇数量,也和西方拼音文字的词汇量不相上下了,当然不包括那些无聊的专用名词。

数字都按4位点了点,这样符合汉语习惯,一下就能读出多少万,再上一点的话就是亿,再上面是万亿。英语用3位就要进一下,分别是千、百万和十亿,所以他们才用3位点个点的写法。

单字字数没个定论,下面是各个计算机处理汉字用的标准所收录的文字数。这些字数都很大,一般人其实都用不到这么多,3000字足以。

GB2312,6763字
GBK,21003(21886)非国家标准,CP936
GB13000,20902字(也就是ISO的标准)
GB18030,27533字
BIG5,13461字
Unicode CJK,20902字,两个扩展区,总数七万多字。

把这些词全部写成单个的字,sort|uniq之后,发现共用了 5800个 不同的汉字。这5800字按重复次数排序(没有排除一字在同一词内重复的情况),出现最多的前一百字是:

人 不 一 大 中 的 在 学 国 有 上 了 生 机 电 业 子 工 小 网
出 来 会 下 发 我 文 动 天 行 家 理 新 用 性 心 法 分 作 水
成 公 高 化 地 开 时 品 金 无 市 者 能 自 经 为 方 过 信 是
力 制 可 好 年 长 海 三 手 到 数 多 美 体 之 产 通 合 面 山
本 车 部 要 得 物 后 个 安 路 事 说 全 教 区 外 件 道 明 名

其中,“人”字出现 7270 次,“名”字出现也有 1741 次,按最少的“名”的出现频率来算,这些字的组词数量也超过了一半(如果没有太多词内重复)。

05/15/07 20:29:45,由cathayan发表。目录:电脑

这篇文章已经关闭,不能添加评论和投票
I am watching and will delete all spam.

我的E-Mail


Copy&Paste Exchange

访问CPeX Group

订阅Feed

订阅Feedburner
Feedsky订阅
本站订阅

请登录

导航

cathayan.org Web

最新贴

RIME 小狼毫/鼠须管的极点及五笔拼音配置
Software that rocks or sucks less
一棵热带的树换新叶的过程
几个有用的Vim招术
论语七 述而
Nomacs 图像浏览器
Windows 文件校验
Windows 10 文件批量命名简单方法
Windows 10 文件删除高级操作
本站也算是有响应式设计了

最新评论

Powered by

Powered by Nucleus CMS

版权声明

Creative Commons License
Blog on 27th floor by Cathayan is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 3.0 Unported License.
Powered by Nucleus CMS v3.71. Best view with Mozilla browsers.