浅谈汉字特征字母及其提取规那么
所谓特征字母,是指那些最能表征汉字轮廓特点的汉字字母。
人们看到一个汉字时,一般首先注意到的是它的轮廓特征,然后才是它的局部细节。这就是汉字的认知规律。从图形识别的角度来看,汉字认知更加注重轮廓性和整体性,字形的细微变化并不会给汉字认知造成多大影响。因此,特征字母一定是构成汉字轮廓的汉字字母。
研究发现:人们通常是从汉字左上角开始,沿着顺时针方向扫描汉字轮廓的〔见以下列图〕。因此,最能表征汉字轮廓特点的特征字母,首先是构成汉字左上角的汉字字母,其次是构成汉字右上角的汉字字母,再次是构成汉字右下角的汉字字母,最后是构成汉字左下角的汉字字母。
对于左右构造的汉字来说:左上角特征字母通常就是字首首字母〔第一个字母〕;右上角特征
字母通常就是字身首字母;右下角特征字母通常就是字身末字母〔最后一个字母〕;左下角特征字母通常就是字首末字母〔见以下列图〕。
因此,左右构造汉字的特征字母依次是字首首字母、字身首字母、字身末字母和字首末字母。
对于上下构造的汉字来说:左上角特征字母通常就是字首首字母;右下角特征字母通常就是字身末字母;右上角特征字母有时是字首首字母〔如“京〞字〕,有时是字首末字母〔如“简〞字〕,有时是中间字母〔如“雪〞字〕,难以确定;左下角特征字母有时是字身首字母〔如“苡〞字〕,有时是字身末字母〔如“全〞字〕,有时是中间字母〔如“罢〞字〕,同样难以确定。
对于多数上下构造的汉字来说,人们通过一次扫描还无法辨识出汉字,还要进展第二次扫描,
即扫描字身左上角和右上角,扫描的角度较第一次要小些。字身左上角特征字母通常就是字首首字母,而字身右上角特征字母的位置那么难以确定〔见以下列图〕。
因此,上下构造汉字的特征字母依次是字首首字母,字身末字母和字身首字母。
正因为上下构造汉字的辨识需要进展两次扫描,所以,人们辨识上下构造汉字所花费的时间要比辨识左右构造汉字要多些;正因为上下构造汉字的特征字母为3个,比左右构造汉字的特征字母数量少1个,所以,人们对上下构造汉字辨识的错误率比上下构造汉字要高些。这就是在汉字构造类型中,左右构造汉字数量占绝对优势的原因〔见下表〕。
对7785个常用汉字构造类型的统计数据:
构造类型
独体
上下
左右
包围
字    数
323
1648
75055
754
占总字数百分比〔%〕
对于半包围构造汉字,其特征字母的提取类似于上下构造汉字或左右构造汉字。对于全包围构造汉字,仍然需要进展两次扫描,第一次是对汉字外轮廓的扫描,第二次是对汉字内轮廓的扫描,第二次扫描角度较上下构造汉字要大些〔见以下列图〕。
第一次扫描提取的特征字母是字首首字母和字首末字母,第二次扫描提取的特征字母是字身首字母和字身末字母。因此,全包围构造汉字的特征字母依次是字首首字母、字首末字母、字身首字母和字身末字母。
正因为全包围构造汉字的辨识需要进展两次一样角度的扫描,所以,人们辨识全包围构造汉字所花费的时间甚至比辨识上下构造汉字还要多些;正因为全包围构造汉字的特征字母为4个,与左右构造汉字的特征字母数量一样,比上下构造汉字的特征字母数量多1个,所以,人们对全包围构造汉字辨识的错误率比上下构造汉字要低些,与左右构造汉字大体相当。这就是在汉字构造类型中,全包围构造汉字数量比较少的原因。
对于独体字,其特征字母是独体字的首字母和末字母〔见以下列图〕。虽然特征字母只有两个,比其他构造汉字都要少些,但是,独体字的笔画数普遍较少,两个特征字母足以反映其轮廓特征。对两个特征字母的扫描识别速度显然比其他构造汉字要快些。这就是独体字特别容易识记、识别速度最快的原因。
综合起来看,汉字的第1个特征字母应当是字首首字母,第2个特征字母应当是字身末字母,因为这两个特征字母最能反映汉字的轮廓特征,无论是什么样构造的汉字,它的首字母和末字母都是极易确定的。汉字的第3个特征字母应当是字身首字母,因为它除了可以反映汉字的外部轮廓特征之外,还能反映汉字的内部构造特点。不过,独体字是没有字首和字身之分的。为了统一规那么,我们仿照们将独体字的第一个汉字字母视为字首,将其余汉字字母视为字身,这样一来,独体字也是由字首和字身两个局部组成的。
特征字母的提取,应当遵循以下原那么:
假设是提取汉字的一个特征字母,应当提取其字首首字母;
假设是提取汉字的两个特征字母,应当提取其字首首字母和字身末字母,或者提取其字首首字母和字身首字母;
假设是提取汉字的三个特征字母,应当提取其字首首字母、字身首字母和字身末字母。
下表列出了5654个常用汉字特征字母组字次数的统计数据:
汉字字母
1
2
3
4
5
6
7
8
字首首字母
531
1004
475
330
957
1182
470
700
字身首字母
385
1252
646
260
985
939
589
547
字身末字母
643
503
176
1134
1081
416
107
1584
汉字的特点根据表中统计数据,制作成以下坐标图便于比较:
观察上述坐标图发现:字首首字母的组字次数分布折线波动幅度最小,其最大波幅出如今2〔一画竖〕和6〔两画竖〕上,这说明字首首字母中所包含的竖笔最多;字身末字母的组字次数分布折线波动幅度最大,其最大波幅出如今4〔一画捺〕和8〔两画捺〕上,这说明字身末字母中所包含的捺笔〔含点〕最多;字身首字母的组字次数分布折线波动幅度居中,其最大波幅出如今2〔一画竖〕和5〔两画横〕上,这说明字身首字母中所包含的竖笔和横笔最多。
从前面分析中,特征字母的组字次数分布折线波动越小,由这些特征字母所组成的词语字母
组合的区分度就越高,用术语来说,就是这些词语字母组合的重码率就越低。因此,特征字母首选字首首字母,次选字身首字母,后选字身末字母。然而,鉴于字首首字母就是整个汉字的首字母,字身末字母就是整个汉字的末字母,二者位置极易把握,而字身首字母确实定较难些,因为要将汉字正确地划分为字首和字身。因此,即使字身末字母的区分度要比字身首字母的区分度略低些,从方便准确快捷提取特征字母的角度出发,也要优先提取字身末字母。