UTF-8成为主流的问题


05/07/08。  cathayan.org版权所有,保留一切权利。转载请保留此说明。谢绝商业转载。

阮一峰这篇Blog引用了一张互联网网页编码统计图,上面显示UTF-8的比例正在迅猛上升,而欧美字母编码正在下降,显得比较乐观;但GB2312的比例变动很小,而且我国主流大站基本还是采用GB2312的编码,Unicode的前景又显得很不乐观。

其实中文网页增速应该是很快的,如果它快过全世界网页的平均增速的话,这个比例不变岂不已经说明使用UTF-8的还是在增加?Unicode确实有很多好处,本着不再将就、一了百了的方针,还是很应该采用的。

前些天换空间的时候,本站就转了一把,从GB到UTF-8,过程基本顺利,但也挺麻烦的,似乎还没有很稳妥的工具可用。原因在于这些字符虽然99%都是GB2312的,在那7000字的范围之内,但也有少数超出了这个范围,比如有一些怪字或繁体字。当然这里浏览器表现都很好,虽然不在GB2312范围内,它们也能处理和显示。但是不知道它是作为什么编码存储和处理的,这个问题在在转UTF-8时出现了。iconv这个工具要求说明从哪种编码到哪种编码,然后它似乎就只在这两个范围内转换,这样就老是出问题,总是在某字节处断掉。假装原来是GBK也不行,估计字符是相当怪或者碰到了iconv的能力极限。A core提醒说可以让它闭嘴只是干活,但我怀疑那样保留下来的编码可能还不是UTF-8(?)。

最后借用的是在这些问题上表现比较好的字处理器,实践表明,OpenOffice.org在这方面(直接打开备份的sql文件)比MS word 2003略微强那么一点,显示正确的比例比Word要大那么一点点。但它们也仍然没有完美显示所有字符,也出现了由于某个字符出问题,引起后面一串乱码,只好手工在Vim切换编码直到显示正常再拷贝过来。

总之,这些都是编码不统一造成的毛病,今后就一了百了了(希望吧)。但iconv这种编码转换工具显然还有改进的空间。除了习惯力量大,结构复杂尾大不掉之外,没有特别好的转换工具也许是造成许多大站不敢转向Unicode的一个小原因吧。当然,如果微软的产品缺省全部都转用Unicode的话,就一了百了了。


05/07/08 10:01:39,由cathayan发表。目录:电脑

Comments

10条评论

huisi:

????????iconv??????????gbk???????????gb18030?????????????
于 05/07/08 10:36:23 发表  

btsb:

??? ????????????????????????????
于 05/07/08 10:58:06 发表  

ec2049:

?Win2000?Windows??????Unicode??????????GBK????c_936.nls??????????????????????????????ANSI……
于 05/07/08 14:31:05 发表  

ec2049:

???Windows???Uni2Me?iconv????????
http://alf-li.pcdiscuss.com...
??????????
http://alf-li.pcdiscuss.com...
于 05/07/08 14:34:21 发表  

? ??:

iconv ?? GB18030 ?? CP936 ???
?? iconv ????? GB2312 ? GBK??????????????????????
于 05/07/08 19:42:06 发表  http://larryli.yo2.cn/

ec2049:

GBK???BIG5???????????????????

?GB18030???Unicode?CJK???????4???CJK????????????????????????GB18030?????????????????????????????Unicode????????

??????????????????GB13000
http://www.google.cn/search...

?IRG?????GB18030/GB13000???????GB13000??“??”??????????????
于 05/08/08 08:28:11 发表  

ec2049:

IRG????????????????
http://www.google.cn/search...
于 05/08/08 08:30:52 发表  

haha:

?????GBK?????????????GB13000????ISO10646??????????????GB18030?????????????????????????????8???????Unicode?????????????????
于 05/08/08 09:04:39 发表  

free:

????????blog??????????????dvd??????????????
于 05/15/08 09:59:20 发表  http://www.freerainbow.cn

ck:

?iconv??gbk?utf8?????,???maillist???iconv?bug,?????????????????????php?mbstring??????????????????????iconv???
于 05/24/08 15:30:35 发表  http://blog.i5un.com

Add Comments

This item is closed, it's not possible to add new comments to it or to vote on it

TrackBack