汉字字数,GBK字库GB18030

汉字的特点

汉字字数，GBK字库GB18030

汉字从商周时代的甲骨文演变到当代的方块形，已经历了数千年的漫长进程，是世界上使用历史最悠久、使用人口最多的文字。汉字的数量是随着时间的推移而不断增加的。西汉的《仓颉篇》仅有3300字；东汉的《说文解字》收录了9353字；清朝的《康煕字典》突破了47000字；现在的《汉语大字典》所收汉字高达54678个。各地小范围流通使用的地名、人名用字还有许多，如果全部收集起来，总数大约有9万。

尽管汉字的数量如此庞大，但常用汉字的数量是有限的。孙中山先生写《三民主义》，总字数约16万，仅用了2134个不同的字；《选集》一至四卷，总字数超过66万，也只用了2981个不同的字；小说《骆驼祥子》，总字数达10万多，用到的汉字数为2413。郭沫若先生曾说过，汉字的数目大体上有五万多字的光景，这五万多字中绝大多数已经不使用了，目前一般知识分子日常所使用的大概有五、六千。也就是说绝大多数汉字仅在古籍资料中才能见到。

那么计算机能够输入多少汉字呢？这与它的系统软件和汉字库有关。汉字库通俗地说就是计算机软件系统中的汉字仓库，依据不同的标准，字库中汉字的数量是不同的。

近二十多年来，我国的中文信息交换和处理技术取得了突飞猛进的发展，从而使计算机的汉字库也变得越来越庞大。

一、1980年国标(GB)字库 6763字

从1975年开始，我国为了研究汉字的使用频度，进行了大规模的字频统计工作，在数以亿计的浩瀚文献资料中，统计出不同的汉字数为6335个，其中3000多字的累计使用频度达到99.9％，而另外的3000多字累计频度不到0.1％，说明了常用汉字与次常用汉字的数量合起来不足7000个，这就为国家制定汉字库标准提供了依据。

1980年，国家标准总局颁布了国家汉字信息交换用编码，全称《信息交换用汉字编码字符集——基本集》，国家标准号为：GB2312-80，自1981年5月1日起实施，通行于大陆。新加坡等地也使用此编码。

GB2312收录7445个图形字符，其中汉字占6763个，还选入了682个非汉字字符，包含有数字、一般符号、拉丁字母、日本假名、希腊字母、俄文字母、拼音符号、注音字母等。

GB2312规定“对任意一个图形字符都采用两个字节表示，每个字节均采用七位编码表示”，我

们习惯上称第一个字节为“高字节”，第二个字节为“低字节”。

GB2312将代码表分为94个区，对应第一字节；每个区94个位，对应第二字节。94个区中，01-09区为符号、数字区；16-87区为汉字区；10-15区、88-94区是有待进一步标准化的空白区。

GB2312将收录的汉字分成两级：第一级是常用汉字，计3755个，置于16-55区，按汉语拼音字母/笔形顺序排列；第二级汉字是次常用汉字，计3008个，置于56-87区，按部首/笔画顺序排列。

GB-2312的实施，保证和满足了一般汉字处理技术的基本要求，从而奠定了中文信息处理的基础。它对于初创阶段电脑中文的应用和发展，功不可没。但经过实践，也暴露了不少问题:

1. 收字量过小。目前学术界认为汉字总数在六万左右，而它仅收了十分之一。该标准制定的主要依据是1956年公布的《汉字简化方案》和当时报刊的字频统计，它显然不符合21世纪今天的需要，也不能全面表达三千年文明史留下的大量文献，更不会为汉字文化圈其他国家和民族所认同。

2. 收字不合理。基本集中有不少稀见字，如“厍、茺、庹”等，在本已狭小的编码区间中白白占据了宝贵的位置。

3. 所收字形的标准也有失一律，如“仝、苎、雠”等。

4. 两级汉字库各收汉字3000有余，但其排列次序一级为拼音，二级为偏旁，并未采取一以贯之的排列方式，造成了人为的困难和混乱。

5. 在技术处理上，现已发现的差错有80处之多。当时，我国大陆各种中文DOS版本、Windows3.1/3.2版本，装入的字库都是国标一二级字库。正由于当时对汉字的实际需要量认识不足，在使用GB-2312的过程中常带来不少尴尬和混乱。如遇到“镕、啰、了、袆、祎、曌、赟、贇、鱻、驫、犇……”等汉字，既无法输入，又不能打印。特别是自从实行个人存款账户实名制后，便经常碰到打不出来的“失名户”。在高校招生实行计算机录取后，有相当一部分学生的名字在计算机里成了“黑三角”，影响了录取工作的进程。同样的现象也出现在户籍管理和测绘、古籍、辞书整理等方面。产生这些现象的根本原因是计算机中所装的 6千多个汉字不够用。

二、1983年台湾BIG5字库13461字

1983年10月，科学委员会、教育部国语推行委员会、中央标准局、行政院共同制定了《通用汉字标准交换码》，后经修订于1992年5月公布，更名为《中文标准交换码》，BIG5是台湾资讯工业策进会根据以上标准制定的编码方案，它通行于台湾、香港地区，是一个繁体字编码方案，虽存有一些瑕疵，但广泛应用于电脑行业，尤其是互联网中，从而成为一种事实上的行业标准。

BIG5码是双字节编码方案，共收录13461个汉字和符号，包括：

△符号408个。

△常用字5401个，包括台湾教育部颁布的《常用国字标准字体表》的全部汉字4808个，台湾教科书常用字587个，异体字6个。

△次常用字7652个，包括台湾教育部颁布的《次常用国字标准字体表》的全部汉字6341个，《罕用国字标准字体表》中使用频率较高的字1311个。

三、1993年UCS统一的中日韩汉字20902字

随着汉字全面向信息化社会转型，随着计算机在各个领域的广泛应用，随着国际间的交流与合作的扩大，信息处理应用对字符集提出了多文种、大字量、多用途的要求。1993年，国际标准化组织ISO发布了一个编码标准，即 Universal Multiple-Octet Coded Character Set（简称UCS），大陆译为《通用多八位编码字符集》，台湾译为《广用多八位元编码字元集》，它与Unicode编码完全兼容。ISO/IEC 10646.1-1993是该标准的第一部分《体系结构与基本多文种平面》。

嗣后，国家技术监督局发布了GB13000.1-93国家标准（1993年12月24日），对UCS以国家标准的形式予以认可，即GB13000.1等同于ISO 10646.1。该标准采用了全新的多文种编码体系，收录了20902个汉字，使编码空间扩大。同时还编制了《统一的中日韩汉字》，又称“CJK统一汉字”（C指中国，J指日本，K指韩国）。而其中的中国部分，包括了源自中国大陆的GB2312、GB12345、《现代汉语通用字表》等法定标准的汉字和符号，以及源自台湾的CNS11643标准中第1、2字面（基本等同于BIG-5编码）和第14字面的汉字和符号。

新的GB13000.1-93国家标准有以下几个特点：

1. 所收汉字数增加了近两倍，比较切实地反映了汉字应用的历史和现状，可以初步改善两岸

书同文的要求。

2. 字符集一律采取了部首及部首外笔画的排列方式，比较妥善地绕开了大字符集注音的难题，并为汉字自然排序提供了一种比较可靠的科学方式。

3. 对汉字字形进行了一次跨国界、跨地区、跨历史的清理工作，采取客观和求同存异的原则，对汉字作了一次有意义的全面研究，并制定了一个两万多字的字表。

4. 释放了CO和CI两个平面，得到了大量的编码空间，可以允许中文及其他文种编码，编纂专业或专用的子字符集，扩充余地也大大增加。

新标准的诞生，是电脑中文取得突破性进展的里程碑。它不仅对我国计算机的发展产生深远的影响，也对汉字文化圈各国、各地区的文化交流和科技进步起到重大的作用，尤其在对汉字的视听识别和人工智能方面做出了贡献。它促进了汉字文化圈计算机信息的直接交换，也促进了软件的更新以及数据量的扩大，特别是沟通海峡两岸的计算机技术，有益于祖国的统一。

但是，新标准的建立，也使人们引起某些误解和疑虑，如:

1. 由于收入了许多《汉字简化方案》所规定的“废弃”字，产生了标准和方案相互矛盾的假象，往往被人们误以为是在变相地恢复繁体字。我们说，标准只是为了使用、交换和生产的便捷而约定的规则，它允许某些灵活性、宽容性、人为的约定性和使用的变通性，所以它不涉及对《汉字简化方案》的否定和对繁体字的肯定。

2. 近十年来，我国在编码输入法的开发上可以说是百花争艳、万“码”奔腾，但绝大多数都是建立在GB-2312基础上的。新标准字库建立后，自然需要新输入法的研究。众所周知，字库的增大，意味着编制输入码的难度要有平方和立方乘积的增长。

四、1995年GBK 1.0字库21886字

为了配合 UNICODE 的实施，全国信息技术标准化技术委员会于1995年12月1日制订了《汉字内码扩展规范》(GBK)，英文名称Chinese Internal Code Specification。国家技术监督局标准化司、电子工业部科技与质量监督司于1995年12月15日联合以技监标函[1995]229号文件的形式，将它确定为技术规范指导性文件，并予以发布和实施。这一版的GBK规范为1.0版。GB即“国标”，K是“扩展”的汉语拼音第一个字母。GBK向下与 GB2312编码兼容，向上支持ISO 10646.1国际标准，是前者向后者过渡过程中的一个承上启下的标准。

汉字字数,GBK字库GB18030

发布评论取消回复

最近发表

热门文章

标签列表