中国英汉平行语料库的设计与研制
王克非北京外国语大学中国外语教育研究中心提要:本文论述超大型双语平行语料库的设计与研制问题。在综合述介国内外双语语料库建设情况之后,作者着重论述了中国英汉平行语料库这一超大型双语平行语料库的设计特点(主要有分类架构、历时处理、语料平衡以及通用的和各种专门语料的采集)和研制方法(主要讲述语料的加工标注、检索平台以及各个专门语料库、历时语料库和口译语料库的构建)。其设计与研制对于其他大型语料库的建设具有借鉴意义。
关键词:中国英汉平行语料库;设计;研制
Abstract:The paper deals with the design and construction of asuper-large-scale bilingual parallel corpus.After an overview of parallelcorpora constructions and applications both in China and abroad, the designfeatures(including classification and composition,diachronical arrangement,balance of textual materials,and collection of texts for general or specificpurposes)and the construction methods (including tagging,concordanceplatform,and the construction of specialized corpora,diachronical corpora andinterpreting corpora)of the super-large-scale China English-Chinese ParallelCorpus(CECPC)are focused on.The design and construction discussed areapplicable to the compiling of other large-scale corpora.
Keywords:China English-Chinese Parallel Corpus (CECPC);design;construction
1、中国英汉平行语料库的研制意义
在全球化、信息化的当今世界,翻译已成为了解全球信息、扩大对外宣传、获取国际资源的重要手段。同计算机技术结合而兴起的双语平行语料库建设,则为语言研究、翻译研究、外语教学、词典编纂和跨语言信息检索等提供了最好的平台,同时还可用来考察和验证基于单语语料库或者基于直觉提出的假设,具有广阔的应用前景。
平行语料库承载着相互对应的两种语言,与语言对比研究有着天然的联系,成为语言对比研究中的默认数据源;平行语料库中的两种语言互为对应,记载着两种语言中的对应词和对应单位,成为词典编纂者最可靠的数据来源;平行语料库中的源语言和目标语言互为对应,在翻译教学和外语学习中的用途更是不言而喻。
除此之外,平行语料库对机器翻译和自然语言处理也极为重要。对齐的平行语料能为基于例句和统计的机器翻译系统提供实证模型,同时也可以为基于规则的机器翻译提供验证规则,为机助翻译提供大量翻译记忆。正如欧赫(Och2002)所言,“只要给我足够的双语对应数据,几个小时内我可以给你一个机器翻译系统”。然而现有的英汉平行语料库规模有限,且大多是利用现有同质翻译资源建立的,并非平衡语料库,常常不能较好地代表广泛含义上的源语—译语关系,依此生成的语言模型常常不能够有效地解释
翻译语言,这极大地阻碍了翻译和词典编纂等学科研究的深入,已成为提高机器翻译译文质量的瓶颈。
鉴于此,我们提出设计和研制更大规模、更多功能的超大型平行语料库,即一亿词以上的“中国英汉平行语料库”,以满足各方面研究的需求和语料库事业的发展。
中国英汉平行语料库的研制意义可从以下两方面体现出来。
第一,理论价值:
1)由于大型双语平行语料库规模超大、采样严格,能够较好地代表源语—译语关系,因此能为翻译研究、语言对比研究、语言演化研究、口笔译比较研究等提供可靠的翻译实例和量化数据,从而提高上述研究的可信度。
2)在超大型双语平行语料库建设的基础上,我们还将展开多项具有理论意义的语言和翻译研究。这些研究主要包括历时研究、类比动态描写。研究分析时间跨度大,涉及层面多。
第二,应用价值:
1)在研究方法上,我们将据此探索基于语料库的翻译语言动态类比和描述,为语言的共时与历时比较研究提供有效的、可操作性强的分析模式和研究平台。
2)在大型双语平行语料库的采样和加工方面,将提出更有借鉴价值的模板和方法。
总之,“中国英汉平行语料库”这一超大规模的英汉/汉英平衡语料库,为今后其他语对的双语平行语料库或多语平行语料库的研制、双语对比与研究、英汉语言接触与现代汉语历时变化研究等,提供共同的大型的实证研究基础,为中国的语料库研究走向世界前沿作出贡献。
2、国内外双语平行语料库研制现状
平行语料库的研制历史并不长,从世界上第一个初步的平行语料库TheCanadian Hansard Corpus(包括英法语版本的加拿大议会辩论语料)到目前仅二十年左右。但由于平行语料库对于语言对比研究、翻译研究、翻译教学、翻译技术开发(如机器翻译系统、机辅翻译工具)、双语词典编纂等语言学和自然语言处理研究具有巨大的潜在应用价值,平行语料库的建设在世界上得到迅速发展(参见王克非等2004,McEnery&Xiao2007)。目前,平行语料库研究大多集中在欧洲,涉及语言也主要与欧洲语言有关,特别是欧共体/欧盟等机构的文件。
如兰卡斯特大学早期创建的ITU/Crater平行库包含欧洲委员会有关电信的英法双语文件各一百万词,在句级对齐。
欧洲委员会联合研究中心的JRC-ACQUIS多语种平行语料库包括成员国的22种欧洲语言,目前的3.0版包括五十年代至2006年的欧洲法律文件463,792个,共计十亿词。
欧洲人类语言技术研究网络(ELSNET)1994年发布的欧洲语料库规范多语种语料库1期(ECI/MCI)包括27种语言(主要是欧洲语言,也包括汉语、日语和马来语),以官方文件为主,但也包括少量的报纸、小说、技术报告、词典和词表;该库共48部分,共计9,800万词,其中12个部分包含有平行语料。
MULTEXT语料库是由欧洲语言资源协会资助的项目,其目的是开发多语种工具和语料库;该语料库包括采样于欧洲委员会官方杂志(JOC)的五种语言各40个文档,句级对齐,其中10个文档还作了词性标注。
PAROLE语料库包括欧洲14种语言,采样年代为1997-1998,文本来源包括书籍(20%),报纸(65%),杂志(5%),以及杂类文本(10%),共计2,000万词,每个子库中25万词按照统一标准作了词性标注。
多语种语料库合作(MLCC)项目建立了一个多语种平行语料库,包括九种欧洲语言,语料来源为上述提到的欧洲委员会官方杂志1992-1994年的文本。
爱丁堡大学的EuroparlParallel Corpus收集了1996-2009年间欧洲议会会议记录,涉及11种语言,以双语平行的形式发布,句级对齐,丹麦语、德语、希腊语、西班牙语、芬兰语、法语、意大利语、荷兰语、葡萄牙语、瑞典语分别与英语对应,共约5千万词(以英语计)(Koehn2005)。
上述这些语料库基本上都是文本来源单一、标注也简单的欧洲语言专用语料库,主要用于语言识别、文档级对齐、术语提取等自然语言处理研究,而非从语言学角度研究语言(参见Xiao2008)。
除此之外,也有少数几个精心设计的平行语料库,如由挪威奥斯陆大学研制的最早的英语—挪威语平行语料库,包含英语和挪威语各100个1-1.5万词的英-挪对应母语文本及其挪-英翻译文本,共260万词,语料采样考虑到平衡性而非局限于少数几个语域或语体,涉及小说(儿童小说、侦探小说、一般小说)和非小说(宗教、社会科学、法律、自然科学、医学、艺术、历史地理)。该语料库不仅在句子层面对齐,而且对英挪语料均作了词性标注和词形还原(lemmatisation)处理。
英语—瑞典语平行语料库则是采用英语-挪威语平行语料库的建库标准、由隆德大学(LundUniversity)和哥特堡大学联合研制的平衡语料库,包括64个英语原文文本及其瑞典语译文和72个瑞典语原文文本及其英语译文,共计280万词。
在这两个语料库的基础上,近年来奥斯陆大学又以同样标准开发了奥斯陆多语种语料库(OMC),除了英语、挪威语、瑞典语外还涉及到了德语、法语、荷兰语、芬兰语、和葡萄牙语。这些精心设计的平行语料库适合于翻译与跨语言对比等研究,但局限于欧洲语言。
欧洲语言之外的平行语料库,包括汉语在内,还不多见,精心设计的大型平衡语料库则更少。主要有兰卡斯特大学研制的英国少数民族语料库EMILLE,包含了十五种南亚语言口语及书面语料近一亿词,其
中平行语料库部分包含20万词的英语文本及印地语、孟加拉语、旁遮普语、古吉拉特语及乌尔都语平行对应文本。语言数据联盟(LDC)于2004年发行了香港平行文本库(Hong KongParallel Text),包括590
万词的英语文本和980万字的汉语文本,英汉文本句级对齐;该库由2000年所发行的三个英汉平行语料库组成:香港法律辩论语料库、香港法律语料库、香港新闻语料库。英国兰卡斯特大学创建的Babel英汉平行语料库由从《英语世界》等刊物采样的327篇英汉双语时文构成,采样年代为2000-2001年,共计54万词;该库实现句级对齐,并对英汉语文本都进行了分词和词性标注。台湾辅仁大学初步建立了范本财经英日汉平行语料库,收集语料约10万句对。最近,香港理工大学和北京外国语大学的学者联合研制了英汉旅游文本语料库,约100万字词(参见李德超、王克非2010)。
在我国内地,双语平行语料库的建设近十年来也取得了重大进展,已有多个英汉及日汉等双语平行语料库建成。如北京大学计算语言学研究所的汉英平行语料库(5万多句对)及其所承担的863项目所建的英汉平行语料库(20万句对),哈尔滨工业大学的英汉双语语料库(40-50万句对)。不过这些语料库有一个共同之处,即建库目的主要是自然语言处理而非语言学研究,因此所谓的句对通常是脱离上下文、打乱次序的孤立的句子,英译汉与汉译英语料夹杂,用户不易识别翻译方向。另外,国内近年来也建成了一些专门用途语料库,如上海交通大学的莎士比亚戏剧英汉平行语料库,燕山大学的红楼梦译本平行语料库,绍兴学院的鲁迅小说汉英平行语料库等。这些语料库因为是专门性的,语料来源单一,规模比较小,
适合专门研究而不适合通用语言研究。
国内学界平行语料库研制方面最值得一提的是,2002年以来,北京外国语大学中国外语教育研究中心先后在教育部人文社科重点研究基地重大项目基金和国家社科基金的支持下,建成了规模约三千万字词的大型通用汉英平行语料库,是目前最大规模的平衡语料库,包括英译汉和汉译英双向翻译语料,而且采样均衡,语体、语域及采样年代覆盖面广,全库实现句级对齐及词性标注。其中部分语料(200余万字词)已提供在线检索,为全社会服务。在该语料库基础上开展了一系列课题研究,如语料库研制方面的研究(王克非等2004,常宝宝2004,等)、基于语料库的翻译学研究(秦洪武、王克非2004,王克非、黄立波2006,2008,王克非、胡显耀2008,2010等)、基于语料库的对比语言研究(秦洪武2009,王克非、秦洪武2009,何文忠、王克非2009,秦洪武、王克非2010)等。总之,该语料库为超大型
的中国英汉平行语料库的建设提供了重要的语料库基础和相关研究基础,积累了研制大型平行语料库的经验。
上面对国内外研究现状的简述表明,平行语料库研究目前主要涉及欧洲语言,而且欧盟机构和欧洲国家的研究基金愿意在该领域投入大量研究经费。现有涉及英语和汉语的双语语料资源现状与这一“大语种”语对的地位还不相称,与研究的需要也不相适应,亟需一个大型、平衡的英汉双向平行语料库,使之
成为既适用于自然语言处理与语言工程,又能应用于英汉语言对比研究(包括共时与历时对比)和翻译研究、翻译教学与实践、双语词典编纂的共同研究平台,以便从不同角度展开的研究能真正揭示语言的本质,避免由于不同研究使用不同数据而造成的差异。我们希望通过研制这个中国英汉平行语料库,并在此基础上开展上述各项研究,使中国的双语平行语料库研制与加工走在世界前列。
3、中国英汉平行语料库设计架构
我们在十年前创建汉英对应语料库的基础上(参见王克非2004),开始研制超大型英汉平行语料库——“中国英汉平行语料库”,包括历时性的平衡语料库和若干专门语料库以及口译语料库。在此基础上我们将进一步开展1)平行语料库深加工与标注研究、对齐检索等工具研究,2)英汉语言对比、英汉互译、语言接触与汉语历时发展等方面的研究,3)专门语料库和口译语料库的建库类型与特点研究,4)建库过程中的语料采样标准,数据源标示等标准类研究。
3.1总体框架
世界语种本项目设计的超大型英汉平行语料库,是研制与加工并重、语言研究与翻译研究并重的语料库,是兼顾笔译和口译文本、兼顾文本共时和历时研究的语料库,力求设计科学,分类合理,加工到位。注重以下特点和要点:超大规模、深度加工、多项检索、软件兼容、语料平衡、双语双向、共时历时、通用专门、笔译口译。
3.2主要内容
1)提出科学的语料采集方法,使双语语料的采集既符合随机、真实的原则,又比较对应、完整和具有一定代表性,便于今后语言、翻译、教学等研究工作的开展。
2)进一步优化双语语料的对齐、标注问题,研制过程中开发和改进相关软件,探讨适合汉语词语切分和标注的理论与方法,尝试英汉专门语料和英汉口译语料等特殊语料的标注和检索,为有深度的语料检索打好基础。