一、几个基本概念 1、bit 与 byte bite 是二进制的即0和1,译作比特。 Byte是指八个bit,代表一个Ansi或Ascii 代码,即一个英文字母,译作字节。由于汉字使用了16位(比特)代码,所以称为双字节。 其换算关系很简单,一byte等于八bit。 2,ANSI码,ANSI是(American National Standard Institude)的简写。ANCII是American Standard Code for Information Interchange的简写。 ANSI是以标准的八位来显示一个字符的,可以代表256字。基本上包括了拉丁语系中所需要的全部字符。起初美国人认为7位(比特)就足够了,因为2的7次方等于128,而英文字母只有26个,大小写加一起52个,再加上十个数字,几个标点和数学运算符号,也够了。所以就制定了ANCII七位的代码系统,这七位的代码系统的128位与ANSI的256中的前128完全一致,加之现在的计算机系统都能自动分别,所以,这两个概念也就不太分别了。 二、GB 2312 汉字编码字符集 GB2312码是中华人民共和国国家标准汉字信息交换用编码,全称《信息交换用汉字编码字符集•基本集》,标准号为GB 2312—80(GB是“国标”二字的汉语拼音缩写),由国家标准总局发布,1981年5月1 日实施。习惯上称国标码、GB码,或区位码。它是一个简化字汉字的编码,通行于中国大陆地区。新加坡等地也使用这一编码。 GB 2312—80收录简化汉字及一般符号、序号、数字、拉丁字母、日文假名、希腊字母、俄文字母、汉语拼音符号、汉语注音字母,共7445个图形字符。其中汉字以外的图形字符682个,汉字6763个。由于6763比那GB 2312-80要好记得多,尤其是在GBK也流行的时代,人们总是习惯用6763来代指那通行(同时也让我们痛苦了)若干年的字符系统。 GB 2312-80规定,“对任意一个图形字符都采用两个字节(Byte)表示。每个字节均采用GB 1988-80及GB 2311-80中的七位编码表示。两个字节中前面的字节为第一字节,后面的字节为第二字节。”习惯上称第一字节为“高字节”(Upper),第二字节为“低字节”(low)。 GB 2312-80将代码分为94个区(Section),对应第一字节,每个区94个位(Position),对应第二字节。两个字节的值,分别为区号值和位号值各加32(20H)。我们通常所说的区位便由此而来。 GB 2312-80规定,01~09区(原规定为1~9区,为表示区位码方便起见,现改称01~09区)为符号、数字区,16~87区为汉字区。而10~15区、88~94区是有待于“进一步标准化”的“空白位置”区域。便第10区推荐与第3区的94个图形字符(即GB1988-80中的94个图形字符)相同,字形宽度为其宽度的一半。) GB 2312-80把收录的汉字分成两级。第一级汉字是常用汉字,计3755个,置于16~55区,按汉语拼音字母/笔形顺序排列;第二级汉字是次常用汉字,计3008个,置于56~87区,按部首/笔区顺序排列。字音以普通话审音委员会发表的《普通话导读词三次审音总表初稿》(1963年出版)为准,字形以中华人民共和国文化部、中国文字改革委员会公布的《印刷通用汉字字形表》(1964年出版)为准。 例:汉字“啊”,第一字节为0110000,第二字节为0100001,即16区、01位,用16。 这些字的来源我不知道是根据什么,但就我处理文献的情况看,有些是对很常用的字,如用于人名的“璟”字,一是明代著名戏曲理论家“沈璟”,一是南唐中主(同时又是文学家)“李璟”,出现频率比较高,但却汉有收有6763之中,而象“芏”“塄”“蓥”等近千字几乎用不上的字却占据着极紧张的资源。 以后的GBK更有这种情况。 三、GB/T12345 汉字编码字符集 GB/T12345和GB2312一样,是中华人民共和国国家标准汉字信息交换用编码,全称《信息交换用汉字编码字符集辅助集》,标准号为GB/T12345-90,中华人民共和国国家技术监督局1990年6月13日发布,1990年12月1日实施。 GB/T12345-90是一个关于繁体汉字的编码标准。所谓“辅助集”,是与“基本集”(GB2312-80)相对应而言。即:GB/T12345是“与GB2312相对应的图形字符集。原则上,本字符集是将GB2312中的简化字用相应的繁体字替换而成。因此,这些替代的繁体字具有与被替代的简化字相同的编码;未曾简化的汉字以及非汉字图形字符,仍是GB2312中的汉字及图形字符,并具有与之相同编码。” 关于繁体字替换简化字的原则,GB/T12345注明:“本标准原则是按照《简化字总表》中所列繁体字与简化字的对应关系进行替换。”《简化字总表》由中国文字改革委员会1964年5月发表,后经国家语言文字工作委员会作个别修订,国务院1986年6月4日批准重新发表。 除了以上的根本差异外,GB/T12345与GB2312的区别还有以下几点:1,增补了个别图形字符,共收录7583个图形字符:汉字以外的图形字符716个,汉字6866个(其中一级汉字3755个,二级汉字3008个,增补汉字103个。) a,“根据排版需要,增补了竖排标点符号29个,这些字符增补于6区57位至85位。” b,“根据GB5007.1(《信息交换用汉字24×24点阵字模集》),增加了6个汉语拼音用图形字符,这些字符增补于8区27位至32位。” c,“GB2312中,由于60年代汉字简化被精简的字有103个,这些被精简的字根据繁体字处理系统的需要增补于88~89区。”所谓精简,即废除某个繁体字,而用另一个字代替,如废除“雲”字,而以“云”字代替。由此形成一个简化字对应两个或两个以上繁体字的现象。 2,GB/T12345规定的在七位环境中指明图形字符集的转义序列不同,同时规定了在八位环境中的转义序列。 GB/T12345没有指明其字符集字形依据,便它使用的繁体汉字,与《简化字总表》中所使用的字形一致。其绝大多数汉字,使用了“新字形”。例如,“产”的繁体字,它使用了新字形“產”,而不自旧字形“產”。因此,一些旧字形与新字形的差异,被视为字形的差异(异体字),而不是繁体与简体的差异。如:收录“奂”“换”“唤”,而不用“奐”“換”“喚”,即因为“奐”是旧字形,而非繁体字。但是其中极个别字又使用了旧字形,如“为”“伪”的繁体字,使用了旧字形“爲”“僞”,而上用新字形“為”“偽”。关于新旧字形,可参见中国社会科学院语言研究所编纂的《现代汉语词典》(商务印书馆1978年第一版)、《新华字典》(商务印书馆1979年修订版)所附的《新旧字形对照表》,以及辞海编辑委员会编纂的《辞海》(上海辞书出版社1979年出版)所附的《新旧字形对照举例》。 关于被精简的汉字: 1,88~89区所列的103个汉字,GB/T12345称为“60年代汉字简化时被精简的字。”,这一表达不完全准确。例如:,“丰”与“豐”,汉字简化时精简了“豐”字,以“丰”字替代,而GB/T12345将被精简的“豐”字,作为“丰”的繁体,置于23~65,而将“丰”字置于88~19。类似的情况占其103字的三分之一左右。 2,所谓103个“被精简的汉字”,只是被精简的“繁体字”,而未包括被精简(废除)的“异体字”。例如,“昇”和“陞”,作为“升”的异体字,被停止使用,GB/T12345亦未收录。相关的法定文件为中华人民共和国文化部、中国文字改革委员会1955年6月发布的《第一批异体字整理表》,该表列出异体字810组,1865字,并规定废除异体字1055个。一些异体字,习惯上也被看作是简化字,所以,《简化字总表》特地从《第一批异体字整理表》中选出39个异体字,列为附录。 3,按照汉字简化原则,在容易引起歧义时不简化。例如“余”和“餘”,《简化字总表》对“餘”字的脚注说;“在余和餘意义可能混淆时,仍用餘,如文言句“餘年无多”。同时,有些汉字只简化其字义的某一个或几个义项,如徵,在象徵等义项上被简化为征,而在音乐调值的义项上(即宫商角徵羽的徵,读作zhi[止]),并不简化。因此在GB2312中,保留了个别繁体(或异体)字,也就是说,同时收录了一个字的简体和繁体(或异体),这包括“干乾、后後、伙夥、么麽、于於、余餘、折摺、征徵”等。作为与GB2312对应的繁体编码,GB/T12345在这些字上处理较混乱。例如:GB/T12345将“伙”置于27-79,“夥”置于66-23,与GB2312編碼相同,即,以“伙”對應“伙”,以“夥”對應“夥”。另一種情況是,GB/T12345將“後”置于26-83,对应GB2312的“后”,将“後”置于65-65,对应GB2312的“後”;将“徵”置于53-87,对应GB2312的“征”,将“征”置于65-71,对应GB2312的“徵”,显然不当。 注: 1,以上代码表,除06、08区增补符号用GIF图形编制外,其他均使用GBK代码编制,只有在你的电脑能完全正确GBK汉字时,才能保证看到的上表与GB/T12345标准印刷件(中国标准出版社1991年10月版)相同的字形。 2,尽管满足查看GBK汉字的条件,仍有两个汉字的显示,与GB/T12345标准印刷件有所差异。两个字的代码为47-22、80-89。第一字的印刷件字形,未列入有关简化字的法定文件,但习惯上被视为“隙”的繁体,而GBK编码未收录此字,无法显示,故以“隙”替代。第二字的印刷件字形,系对应简体“瘞”,按照《简化字总表》第二表《可作简化偏旁的简化字和简化偏旁》,“夾”简化为“夹”,所以,“瘗”对应的繁体字,应该是“瘗”,同时,印刷件上的此字不见于字书,因此它可能是排版时错误,故上表使用了“瘗”字。 3,01~15区的符号和空白位置,除增补者以外,与GB2312的符号、编码位置完全相同。 |
网站声明:如果转载,请联系本站管理员。否则一切后果自行承担。
添加我为好友,拉您入交流群!
请使用微信扫一扫!