汉字简繁转换的复杂性和陷阱

The Pitfalls and Complexities of

Chinese to Chinese Conversion

汉字简繁转换的复杂性和陷阱

漢字簡繁轉換的複雜性和陷阱

春遍雀来 (Jack Halpern)

日中韓辭典研究所所长

華留萬陽貳 (Jouni Kerman)

日中韓辭典刊行會软件开发总工程师

0. 摘要

1. 序

2. 转换的四级

3. 讨论和分析

4. 转换的新技术

鸣谢

贴吧女团葫芦妹

参考材料

附录

作者介绍

日中韓辭典研究所

（株）日中韓辭典研究所

The CJK Dictionary Institute, Inc.

〒352-0001　日本国埼玉県新座市東北2-34-14　小峰ビル 3･4F

电话：048-473-3508 Fax：048-486-5032

E-mail：************ 网址:

汉字简繁转换的复杂性和陷阱

春遍雀来，日中韓辭典研究所所长

華留萬陽貳，日中韓辭典刊行會软件开发总工程师

0. 摘要

汉语有两种书面形式：中华人民共和国和新加坡使用的简体中文，和台湾、香港、澳门以及大多数海外华人使用的繁体中文。但是存在一种常见的误解,认为这两个体系之间具有直接的对应关系，相互转换只需要从一个字符集对应到另一个字符集就可以了，例如从国标码(GB2312-80)转换到大五码(Big5)。

虽然很多代码转换工具实现了这种转换，但事实却是截然相反的。这两种体系在不同级别上都存在重要的差异，不论是字符集，编码，拼写法(字的选择)，词汇(词的选择)，还是语义(词义)特别的英语名字，都有着显著的差别。

随着东亚在世界经济里的地位日益重要，地方化公司和翻译公司都有着对中文简繁体转换的迫切需求，但也必须克服以下障碍：(1)现有的转换工具产生的结果不能令人满意；(2)缺乏发展好的转换工具所需的知识；(3)无法得到高质量数据的字典；(4)手工转换费用太高。

1996年, 日中韓辭典研究所(The CJK Dictionary Institute, Inc.)开始深入调查这些问题，并建立了一个总括了中文简繁互转的数据库(300万条，且仍在发展中)，其目的是要使转换软件的准确性接近百分之百.

这篇论文解释了涉及的复杂问题，并展示这项基于Unicode的新技术将如何大大减少中文地方化和翻译项目的时间和费用。

1. 序

1.1 历史背景

汉字在它几千年的历史中经历了许多变迁。很多书法风格，异体字，和字体设计都有逐步的演变。有些完整的，复杂的字体被提升为“正字”，而那些令人眼花缭乱、泛滥成灾的变体则往往被降级为“俗字”。

在中华人民共和国于1949年成立后不久，新政权就发起了一场积极的运动，贯彻大规模的书面语改革。在五十年代，和周恩来提出了简化汉字是一项应该优先完成的任务。1952年成立的语言改革委员会开始深入研究这一问题，并从事编纂简化字表的任务。

这些行动导致了许多书面语的改革，最重要的有：建立了一套标准化的罗马字系统(拼音)，限制日常用字的数量，以及大大地简化了数以千计的字形。一度，这项运动的目的是完全废除汉字，以罗马字母表代之，但后来还是倾向于使用简化字形而放弃了这项政策。

随后几年出版了几种简化字表，其中最著名的是1964年出版的“权威”简化字总表，之后又重新发行了几次并作了次要的修改。最新版本是1986年出版的，收录了2244个简体字[简体字总表 1986]。

台湾、香港和多数海外华人没有实行简化。尤其是台湾,还在严格地遵循着繁体的形式。台

湾教育部出版了几种字符表，例如有4808个字的“常用國字標準字體表”，作为正确字形的标准。

1.2 简体与繁体中文

虽然简体与繁体中文的最大区别在于字形，我们将会看到两者之间还有字符集、编码方式和词汇选择方面的差异。

从实用角度来说，简体中文一词通常指满足以下条件的中文文本：

1．字形：简体中文必须是用简体的字形书写的(除非不存在简体的形式)。

2．字符集：简体中文通常使用国标码字符集，或其扩充版本，国家标准扩展码(GBK)。

3．编码：简体中文通常将国标码编为EUC-CN或用于互联网传送数据的HZ的文本。

4．词汇用法：词汇的选择采用中国大陆的用法。

与此类似，繁体中文一词一般指满足以下条件的中文文本：

1．字形：繁体中文必须是用繁体的字形书写的。

2．字符集：繁体中文通常使用大五码字符集。

3．编码：繁体中文通常编为大五码。

4．词汇用法：词汇的选择采用台湾或香港的用法。

以上只有第一条是必要条件。“简体”中文的定义决定它不能用繁体的字形书写，除非一个繁体字形不存在对应的简体形式。同样，“繁体”中文除了某些次要的例外情况(如某些专有名词)之外必须不能以简体字形书写。字符集和编码方式的限制要小一些，下面1.4节会讨论这一点。

词汇的用法上也有一些变化。例如台湾文本可能会包括某些中华人民共和国式的词汇，而新加坡的文本可能会采用台湾而不是大陆的计算机术语。尽管如此，总的来说简体中文和繁体中文两词的用法如上文所述。

美丽的城市

1.3 问题本质

中华人民共和国的语言改革对书面汉语产生了重大影响。从处理中文数据的角度出发，最相关的问题有以下几个：

1．许多字形经过了较大的简化，以至无法辨认它们的繁体形式。例如，繁体中文中的徵变为简体中文中的征。

2．在很多情况下，一个简体字与多个繁体字对应(相反的情况较为少见)，例如简体中文的征与繁体中文的徵和征对应。根据上下文意思，通常只有一个是对的。

3．有时一个简体字与多个繁体字对应，根据上下文意思，每个对应的繁体都可能是对的。

电脑截屏快捷键怎么操作4．简体中文使用的国标码标准与繁体中文使用的大五码标准互不相容，因此双方都产生了无数的漏字。

上述的第二条是中文简繁转换的关键问题，也是这篇文章的重点。在对此的讨论中采用的“经典”例子是繁体字發和髮。从词源学来看它们是两个不同的字，被合并成了一个简体字发。下表展示了这个以及其它一个简体字对应到多个繁体字的例子。

表1：简繁一对多的对应

简体源字	繁体标字	语义	繁体例子
发 fā	發	Emit	出發 start off
发 fà	髮	Hair	髮 hair
干 gān	乾	Dry	乾燥 dry
干 gàn	幹	Trunk	精幹 able, strong
干 gān	干	Intervene	干渉 interfere with
干 gàn	榦	tree trunk	楨榦 central figure
面 miàn	麵	Noodles	湯麵 noodle soup
面 miàn	面	Face	面具 mask
后 hòu	後	After	後天 day after tomorrow
后 hòu	后	Queen	王后 queen

如上所示，成功地把这些简体字转换为对应的繁体字取决于它们的上下文，尤其是它们所在的词。转换往往不能仅从一个码点对应到另一个码点，而是必须建立在更大的语言单位上，比如词。

除上表之外，数以百计的其它简体字也与多个繁体字对应，产生了语义不清的以一对多的对应，只有上下文能决定它们的关系。在这篇文章里，这些对应被称为多字体的对应，因为一个简体字——或书写单位——可能会与多个的繁体字对应，而相反情况也成立。

1.4 字符集和编码

这篇文章主旨不是对中文字符集和编码方法进行深入的讨论。小林剑(Ken Lunde)的重要著作 CJKV Information Processing 有对此的讨论。[Lunde 1999]这一节只简单地概括一些重要问题，因为我们的主要目的是论述更高一级的语言学问题。

简体中文通常使用国标码字符集，或其扩充版本国家标准扩展码，并通常被编为EUC-CN。在互联网上传送数据时，它常常被编为HZ，或是更早的zW。繁体中文通常被编为大五码，有时也被编为基于标准(Chinese National Standard) CNS 11643-1992字符集上的EUC-TW。

在日本，有些文字处理系统通过JIS X 0208:1997字符集及其附加部分处理中文字符。同样，也可以把中文编为韩国的KS X 1001:1992字符集。但是，这两种情况都没有足够的简体或繁体中文字供日常中文之用。此外还有用来编辑中文的字符集CCCII(仍在使用的台湾早期标准中央电视台邹韵哪里人)，可见情况的复杂程度。

从简繁码转换的角度出发，一个重要问题是国标码和大五码互不相容。前者包括了6763长风破浪会有时直挂云帆济沧海的意思个字，而后者有13053个字。国标码大约三分之一的字是大五码里没有的简体字。这一点导致了双方的许多漏字现象，如下表所示。

表2：国标码和大五码的不相容性

汉字	国标码(EUC)	大五码	Unicode
	*	C059	982D
發	*	B56F	767C
計	*	AD70	8A08
头	CDB7	*	5934
发	B7A2	*	53D1
计	BCC6	*	8BA1
干	B8C9	A47A	5E72
里	C0EF	A8BD	91CC

汉字简繁转换的复杂性和陷阱

发布评论取消回复

最近发表

热门文章

标签列表