有关汉字部件和部首的编码……(TR)


贤惠保卫面包
贤惠保卫面包 2022-10-08 12:17:48 50666
分类专栏: 资讯
有关汉字部件和部首的编码……
W
发表于 2005-12-27 21:14:18 |只看该作者 凯文君 |倒序浏览


近日根据《香港增补字符集-2004》里面的资料,得知Unicode里面编码空间在2E00-2FFF这一段的字符是康熙部首。我因此去查了Unicode 4.1 版标准的文档。在标准里面,2E80这个平面(2E80-2EF3)被注明为CJK增补部首,而2F00平面(2F00-2FD6)才是康熙部首。

这我就糊涂了,那到底2E80-2EF3这些字符是不是康熙部首呢。如果是,Unicode好像没有必要特别注明它们是CJK部首吧?另外,康熙部首到底有多少个啊?Unicode里面收录的2F00-2FD6这一段215个字符是不是全部的康熙部首呢?还请语言文字方面的行家朋友不吝赐教!

另外个人感觉汉字的编码还是有欠考虑的地方。比如在CJK统一汉字(Unicode 的说法是CJK统一表意字符)里面,实际上有不少的字符并不是汉字,而是汉字部首或部件。为什么不能把汉字部件(包括部首)和汉字分开编码(我指的是分在不同的编码平面,而不是用不同的编码标准)呢?因为现在这种混合编码的方式给实际中的应用造成了很大的不便。最典型的,我国很早以前就制定了汉字偏旁部首规范和汉字部件标准,但目前的GB编码体系中并没有将所有这些部首和部件编码进去,而且编码时汉字和部件不分,这样我们做中文信息处理软件的时候想有关分别对部首和部件类型的字符及汉字字符进行处理是很麻烦的。如果部件和部首能单独地编码在一个区间内,编程时只要校验字符所属的编码区间就能知道一个字符是汉字还是部件了。但现在显然不行,我们还必须自己额外地建立一个有关汉字部首和部件的数据库。而且收集这个数据库的数据也是很麻烦的,因为现有的大多数输入法都不能很好或很完整地对这些部件进行编码。程序员总不能自己浏览一遍所有的字符来挑出这些部件字符吧。

因此强烈建议国家能尽快确定汉字偏旁部首和部件规范的正式标准,并真正的与计算机汉字编码标准和字型标准制定的工作结合起来。总感觉我国语言文字规范的制定工作和汉字编码工作似乎缺乏必要的合作和交流,因做出来的东西总是不太搭调。让我们这些处在边缘的”中文信息处理软件“开发作者感到十分的不痛快。不知大家以为如何?




网站声明:如果转载,请联系本站管理员。否则一切后果自行承担。

本文链接:https://www.xckfsq.com/news/show.html?id=18773
赞同 0
评论 0 条
贤惠保卫面包L0
粉丝 0 发表 8 + 关注 私信
上周热门
如何使用 StarRocks 管理和优化数据湖中的数据?  2951
【软件正版化】软件正版化工作要点  2872
统信UOS试玩黑神话:悟空  2833
信刻光盘安全隔离与信息交换系统  2728
镜舟科技与中启乘数科技达成战略合作,共筑数据服务新生态  1261
grub引导程序无法找到指定设备和分区  1226
华为全联接大会2024丨软通动力分论坛精彩议程抢先看!  165
2024海洋能源产业融合发展论坛暨博览会同期活动-海洋能源与数字化智能化论坛成功举办  163
点击报名 | 京东2025校招进校行程预告  163
华为纯血鸿蒙正式版9月底见!但Mate 70的内情还得接着挖...  159
本周热议
我的信创开放社区兼职赚钱历程 40
今天你签到了吗? 27
如何玩转信创开放社区—从小白进阶到专家 15
信创开放社区邀请他人注册的具体步骤如下 15
方德桌面操作系统 14
用抖音玩法闯信创开放社区——用平台宣传企业产品服务 13
我有15积分有什么用? 13
如何让你先人一步获得悬赏问题信息?(创作者必看) 12
2024中国信创产业发展大会暨中国信息科技创新与应用博览会 9
中央国家机关政府采购中心:应当将CPU、操作系统符合安全可靠测评要求纳入采购需求 8

加入交流群

请使用微信扫一扫!