汉字的特点
汉字字数,GBK字库GB18030
汉字从商周时代的甲骨文演变到当代的方块形,已经历了数千年的漫长 进程,是世界上使用历史最悠久、使用人口最多的文字。汉字的数量是随着时间的推移而不断增加的。西汉的《仓颉篇》仅有3300字;东汉的《说文解字》收录 了9353字;清朝的《康煕字典》突破了47000字;现在的《汉语大字典》所收汉字高达54678个。各地小范围流通使用的地名、人名用字还有许多,如 果全部收集起来,总数大约有9万。
尽管汉字的数量如此庞大,但常用汉字的数量是有限的。孙中山先生写 《三民主义》,总字数约16万,仅用了2134个不同的字;《选集》一至四卷,总字数超过66万,也只用了2981个不同的字;小说《骆驼祥子》, 总字数达10万多,用到的汉字数为2413。郭沫若先生曾说过,汉字的数目大体上有五万多字的光景,这五万多字中绝大多数已经不使用了,目前一般知识分子 日常所使用的大概有五、六千。也就是说绝大多数汉字仅在古籍资料中才能见到。
那么计算机能够输入多少汉字呢?这与它的系统软件和汉字库有关。汉字库通俗地说就是计算机软件系统中的汉字仓库,依据不同的标准,字库中汉字的数量是不同的。
近二十多年来,我国的中文信息交换和处理技术取得了突飞猛进的发展,从而使计算机的汉字库也变得越来越庞大。
一、1980年国标(GB)字库 6763字
从1975年开始,我国为了研究汉字的使用频度,进行了大规模的字 频统计工作,在数以亿计的浩瀚文献资料中,统计出不同的汉字数为6335个,其中3000多字的累计使用频度达到99.9%,而另外的3000多字累计频 度不到0.1%,说明了常用汉字与次常用汉字的数量合起来不足7000个,这就为国家制定汉字库标准提供了依据。
1980年,国家标准总局颁布了国家汉字信息交换用编码,全称《信息交换用汉字编码字符集——基本集》,国家标准号为:GB2312-80,自1981年5月1日起实施,通行于大陆。新加坡等地也使用此编码。
GB2312收录7445个图形字符,其中汉字占6763个,还选入了682个非汉字字符,包含有数字、一般符号、拉丁字母、日本假名、希腊字母、俄文字母、拼音符号、注音字母等。
GB2312规定“对任意一个图形字符都采用两个字节表示,每个字节均采用七位编码表示”,我
们习惯上称第一个字节为“高字节”,第二个字节为“低字节”。
GB2312将代码表分为94个区,对应第一字节;每个区94个位,对应第二字节。94个区中,01-09区为符号、数字区;16-87区为汉字区;10-15区、88-94区是有待进一步标准化的空白区。
GB2312将收录的汉字分成两级:第一级是常用汉字,计3755个,置于16-55区,按汉语拼音字母/笔形顺序排列;第二级汉字是次常用汉字,计3008个,置于56-87区,按部首/笔画顺序排列。
GB-2312的实施,保证和满足了一般汉字处理技术的基本要求,从而奠定了中文信息处理的基础。它对于初创阶段电脑中文的应用和发展,功不可没。但经过实践,也暴露了不少问题:
1. 收字量过小。目前学术界认为汉字总数在六万左右,而它仅收了十分之一。该标准制定的主要依据是1956年公布的《汉字简化方案》和当时报刊的字频统计,它 显然不符合21世纪今天的需要,也不能全面表达三千年文明史留下的大量文献,更不会为汉字文化圈其他国家和民族所认同。
2. 收字不合理。基本集中有不少稀见字,如“厍、茺、庹”等,在本已狭小的编码区间中白白占据了宝贵的位置。
3. 所收字形的标准也有失一律,如“仝、苎、雠”等。
4. 两级汉字库各收汉字3000有余,但其排列次序一级为拼音,二级为偏旁,并未采取一以贯之的排列方式,造成了人为的困难和混乱。
5. 在技术处理上,现已发现的差错有80处之多。当时,我国大陆各种中文DOS版本、Windows3.1/3.2版本,装入的字库都是国标一二级字库。正由 于当时对汉字的实际需要量认识不足,在使用GB-2312的过程中常带来不少尴尬和混乱。如遇到“镕、啰、了、袆、祎、曌、赟、贇、鱻、驫、犇……”等汉 字,既无法输入,又不能打印。特别是自从实行个人存款账户实名制后,便经常碰到打不出来的“失名户”。在高校招生实行计算机录取后,有相当一部分学生的名 字在计算机里成了“黑三角”,影响了录取工作的进程。同样的现象也出现在户籍管理和测绘、古籍、辞书整理等方面。产生这些现象的根本原因是计算机中所装的 6千多个汉字不够用。
二、1983年台湾BIG5字库13461字
1983年10月,科学委员会、教育部国语推行委员会、中 央标准局、行政院共同制定了《通用汉字标准交换码》,后经修订于1992年5月公布,更名为《中文标准交换码》,BIG5是台湾资讯工业策进会根据以上标 准制定的编码方案,它通行于台湾、香港地区,是一个繁体字编码方案,虽存有一些瑕疵,但广泛应用于电脑行业,尤其是互联网中,从而成为一种事实上的行业标 准。
BIG5码是双字节编码方案,共收录13461个汉字和符号,包括:
△符号408个。
△常用字5401个,包括台湾教育部颁布的《常用国字标准字体表》的全部汉字4808个,台湾教科书常用字587个,异体字6个。
△次常用字7652个,包括台湾教育部颁布的《次常用国字标准字体表》的全部汉字6341个,《罕用国字标准字体表》中使用频率较高的字1311个。
三、1993年UCS统一的中日韩汉字20902字
随着汉字全面向信息化社会转型,随着计算机在各个领域的广泛应用, 随着国际间的交流与合作的扩大,信息处理应用对字符集提出了多文种、大字量、多用途的要求。1993年,国际标准化组织ISO发布了一个编码标准,即 Universal Multiple-Octet Coded Character Set(简称UCS),大陆译为《通用多八位编码字符集》,台湾译为《广用多八位元编码字元集》,它与Unicode编码完全兼容。ISO/IEC 10646.1-1993是该标准的第一部分《体系结构与基本多文种平面》。
嗣后,国家技术监督局发布了GB13000.1-93国家标准 (1993年12月24日),对UCS以国家标准的形式予以认可,即GB13000.1等同于ISO 10646.1。该标准采用了全新的多文种编码体系,收录了20902个汉字,使编码空间扩大。同时还编制了《统一的中日韩汉字》,又称“CJK统一汉 字”(C指中国,J指日本,K指韩国)。而其中的中国部分,包括了源自中国大陆的GB2312、GB12345、《现代汉语通用字表》等法定标准的汉字和 符号,以及源自台湾的CNS11643标准中第1、2字面(基本等同于BIG-5编码)和第14字面的汉字和符号。
新的GB13000.1-93国家标准有以下几个特点:
1. 所收汉字数增加了近两倍,比较切实地反映了汉字应用的历史和现状,可以初步改善两岸
书同文的要求。
2. 字符集一律采取了部首及部首外笔画的排列方式,比较妥善地绕开了大字符集注音的难题,并为汉字自然排序提供了一种比较可靠的科学方式。
3. 对汉字字形进行了一次跨国界、跨地区、跨历史的清理工作,采取客观和求同存异的原则,对汉字作了一次有意义的全面研究,并制定了一个两万多字的字表。
4. 释放了CO和CI两个平面,得到了大量的编码空间,可以允许中文及其他文种编码,编纂专业或专用的子字符集,扩充余地也大大增加。
新标准的诞生,是电脑中文取得突破性进展的里程碑。它不仅对我国计 算机的发展产生深远的影响,也对汉字文化圈各国、各地区的文化交流和科技进步起到重大的作用,尤其在对汉字的视听识别和人工智能方面做出了贡献。它促进了 汉字文化圈计算机信息的直接交换,也促进了软件的更新以及数据量的扩大,特别是沟通海峡两岸的计算机技术,有益于祖国的统一。
但是,新标准的建立,也使人们引起某些误解和疑虑,如:
1. 由于收入了许多《汉字简化方案》所规定的“废弃”字,产生了标准和方案相互矛盾的假象,往往被人们误以为是在变相地恢复繁体字。我们说,标准只是为了使 用、交换和生产的便捷而约定的规则,它允许某些灵活性、宽容性、人为的约定性和使用的变通性,所以它不涉及对《汉字简化方案》的否定和对繁体字的肯定。
2. 近十年来,我国在编码输入法的开发上可以说是百花争艳、万“码”奔腾,但绝大多数都是建立在GB-2312基础上的。新标准字库建立后,自然需要新输入法的研究。众所周知,字库的增大,意味着编制输入码的难度要有平方和立方乘积的增长。
四、1995年GBK 1.0字库21886字
为了配合 UNICODE 的实施,全国信息技术标准化技术委员会于1995年12月1日制订了《汉字内码扩展规范》(GBK),英文名称Chinese Internal Code Specification。国家技术监督局标准化司、电子工业部科技与质量监督司于1995年12月15日联合以技监标函[1995]229号文件的形 式,将它确定为技术规范指导性文件,并予以发布和实施。这一版的GBK规范为1.0版。GB即“国标”,K是“扩展”的汉语拼音第一个字母。GBK向下与 GB2312编码兼容,向上支持ISO 10646.1国际标准,是前者向后者过渡过程中的一个承上启下的标准。