近日根据《香港增补字符集-2004》里面的资料,得知Unicode里面编码空间在2E00-2FFF这一段的字符是康熙部首。我因此去查了Unicode 4.1 版标准的文档。在标准里面,2E80这个平面(2E80-2EF3)被注明为CJK增补部首,而2F00平面(2F00-2FD6)才是康熙部首。 这我就糊涂了,那到底2E80-2EF3这些字符是不是康熙部首呢。如果是,Unicode好像没有必要特别注明它们是CJK部首吧?另外,康熙部首到底有多少个啊?Unicode里面收录的2F00-2FD6这一段215个字符是不是全部的康熙部首呢?还请语言文字方面的行家朋友不吝赐教! 另外个人感觉汉字的编码还是有欠考虑的地方。比如在CJK统一汉字(Unicode 的说法是CJK统一表意字符)里面,实际上有不少的字符并不是汉字,而是汉字部首或部件。为什么不能把汉字部件(包括部首)和汉字分开编码(我指的是分在不同的编码平面,而不是用不同的编码标准)呢?因为现在这种混合编码的方式给实际中的应用造成了很大的不便。最典型的,我国很早以前就制定了汉字偏旁部首规范和汉字部件标准,但目前的GB编码体系中并没有将所有这些部首和部件编码进去,而且编码时汉字和部件不分,这样我们做中文信息处理软件的时候想有关分别对部首和部件类型的字符及汉字字符进行处理是很麻烦的。如果部件和部首能单独地编码在一个区间内,编程时只要校验字符所属的编码区间就能知道一个字符是汉字还是部件了。但现在显然不行,我们还必须自己额外地建立一个有关汉字部首和部件的数据库。而且收集这个数据库的数据也是很麻烦的,因为现有的大多数输入法都不能很好或很完整地对这些部件进行编码。程序员总不能自己浏览一遍所有的字符来挑出这些部件字符吧。 因此强烈建议国家能尽快确定汉字偏旁部首和部件规范的正式标准,并真正的与计算机汉字编码标准和字型标准制定的工作结合起来。总感觉我国语言文字规范的制定工作和汉字编码工作似乎缺乏必要的合作和交流,因做出来的东西总是不太搭调。让我们这些处在边缘的”中文信息处理软件“开发作者感到十分的不痛快。不知大家以为如何? |
网站声明:如果转载,请联系本站管理员。否则一切后果自行承担。
加入交流群
请使用微信扫一扫!