智库时代
·114·
智库观察
关于建立渤海大学非洲留学生中介语语音语料库的设想
刘凯 田朝阳 齐美 张茜 张滢
(渤海大学,辽宁锦州 121000)
摘要:本文主要探讨建立渤海大学非洲留学生中介语语音语料库的创作思路,分析录音文本设计和语音库标注等问题。录音文本设计力求全面、典型、合理,尽量涵盖所有的音段和超音段的汉语音节,为此我们设计了单音节、双音节、三音节和四音节四个子库。语音标注体系决定着语音库的建设能否成功,该库采用SAMPA-C 汉语音段标注体系,并且采用曹文、张劲松在2009年提出的汉语中介语语音语料库音段标注规范(BLCU-CAPL)对语音偏误进行标注,使使用者通过文本的标注能了解学习者的偏误,为语言研究和语言教学提供支持。关键词:中介语语音语料库;文本设计;语音标注中图分类号:H11张伦硕钟丽缇
文献标识码:A
文章编号:2096-4609(2019)16-0114-002
根据教育部发布的2015年全国来华留显示,从2003-2015年,来华非洲留学生增长26倍,增长率排名第一,来华非洲留学生已然成为我国外国留学生中规模增长最快的主体。因此,非洲留学生的语言教育问题也逐渐在对外汉语教学界引起重视。
汉语中介语语料库建设是对外汉语教学学科理论研究中一项基础性的课题, 也是一项迫切的任务(储诚志、陈小荷,1993)。语料库语言学作为语言研究的一种方法,因其方便快捷高效,各大高校纷纷建立。比较著名的有北大的《人民日报》标注语料库,北京语言大学的HSK 动态作文语料库。开展面对特定对象、特定环境的汉语中介语音语料库研究和建设虽在21世界初期就已提出,但近几年来研究成果零零散散,规模较小,非裔中介语语音语料库更是语料库语言学中的一个新兴领域。为此提出针对非洲留学生的中介语语音语料库建设的设想,希望可以推动这方面的研究。渤海大学留学生人数众多,且多以非洲留学生为主,这为针对非洲留学生的语音语料库的建设可以提供丰富充足的语料。
一、前期准备语料库设计和编篡的出发点是:如何使得在其基础上开展的语言调查是合理的和可靠的(黄昌宁、李娟子,2001)。为此我们必须保证在建设语音语料库的各个环节中采用科学合理的手段,在前期准备的过程中,我们需要做好以下几方面的工作:
(一)选取调查对象
潘阳照片
本文选取了15位渤海大学非洲留学生(包括来自不同地区的12位男生和3位女生)作为调查对象,其中男生汉语水平均为中高级,女生为初级,且普遍以当地语为母语,以法语为第一外语。选取多位来自不同地区的调查对象,旨在保证语料的丰富性,避免因为调查对象人数少而产生的个体语音失误误导调查结果。(二)文本设计
文本设计需要解决这样一个问题:既要涵盖目的语的基本语音要素,又要严控其大小。因为文本过大,单人收录成本过高,不利于收集更多的语料(王玮、张劲松,2019)。因为经费和时间问题,前期只设计了单音节、双音节、三音节和四音节文本,后期设计将会包含短语和句子,本文只探讨单音节、双音节、三音节和四音节文本的设计方法。
1.单音节
对于初学者而言,“字”音是汉语语音学习的基础(林焘,1996)。关于单音节文本的设计,首先要统计普通话中所有的有意义的音节,然后再与声调组合,去除其中没有实字的音节与声调的组合,最后与汉字相匹配。其中与之匹配的汉字,先在HSK 的甲级词汇中寻,如甲级词汇中没有,可在乙级词汇中,以此类推。因为汉字难度过大,会影响调查对象的语音产出的准确性,造成语音采集工作的困难。为此,我们制作的文本均会有拼音标注。依照以上方法,我们最终选取了1031个汉字和30个儿化词作为单音节文本。
2.双音节双音节文本设计主要用于考察和统计学习者对两个音节连续的掌握情况及其音节间的音联表现(曹文、张劲松,2009)。所以首先要统计声调的组合类型,“阴、阳、上、去”四声加上轻声共有20种组合类型。其次我们要使各种音调组合和声韵母组合最大面积的覆盖,从HSK 词汇中选取较为简单的词汇与之相匹配。最后选取443个词汇为双音节文本。
3.三音节
三音节也是基本节奏单元的常见形式(吴宗济,1990)。其文本的设计不仅要考虑声调组合的问题,还要考虑结构关系的问题。在尽量包含所有的声调组合的基础上,每种声调组合下应有不同结构的三音节词语。三
古力娜扎个人资料
音节声调组合共有80种,加上不同的结构,我们共选取了227个三音节词汇作为三音节文本。
4.四音节
四音节的文本设计较为复杂。从组成成分上来看,它可以是“东西南北”四个单音节词的组合,也可以是“青山绿水”两个双音节词的组合;从结构来看,它可以是联合结构,如“古城钟楼”,也可以是偏正结构,如“高雅文化”,也可以是主谓结构,如“失物招领”等;从轻重音格式来看,它可以是中-次轻-中-重格式,如“高高兴兴”,也可以是中-次轻-重-最终,如“如意算盘”等等。本着控制语料库大小的原则,本
文不考虑其他因素,只根据声调组合来选择四音节词汇。最后选取了167个词汇作为四音节语料文本。
二、语音录制和采集
语料的采集在封闭的教室进行,由实验人员操作设备。发音人根据乱序文本,在距离话筒10厘米左右的位置发音。对录音设备的选取,综合考虑经费问题和录音效果后,最终选取了笔记本电脑里的软件audacity 进行录音,话筒选用Sony ECM T115,使用外置声卡。所有语料的采样率为44100HZ,采样精度为16bits,单声道录音。
考虑到录制语料时环境和设备带来的不可避免的噪音,后期采用audacity 软件进行降噪。
三、语音的标注孤胆手2征兵
朱迅癌症
只有当语言研究者能够从语料库获取知识和信息时,才能说这个语料库是有用的。事实上,为了从语料库中抽取语言信息,必须首先向语料库中植入信息——即添加标注(黄昌宁、李涓子,2002)。该库语音标注使用Praat 软件,语音标注需要的一切声学参数都从Praat 软件中寻,参照汉语音段标注系统 SAMPA-C 进行分级标注,并且采用曹文、张劲松在2009年提出的汉语中介
电脑一直自动重启(下转第116页)