大学英语四、六级计算机口语测试效度、
信度和可操作性研究3
□蔡基刚
提要:不久前,四、六级考试委员会正式出台了《全国大学英语四、六级考试改革方案(试行)》,明确提出“考委会将积极研究开发计算机口语测试,以进一步扩大口语考试规模”。本文通过计算机口语考试和目前的面试型口语考试的对比研究,发现考生在这两个考试中的成绩相关达到017058,97180%的考生得到的成绩等级完全一致或只差半级。更重要的是,通过分析和对比研究,发现计算机考试无论在效度和信度方面都将超过目前四、六级面试型口试;在考试成本上也有较大的降低。文章对如何实行大规模口语考试提出了建议。关键词:计算机口语考试;效度;信度;可操作性
Abstract:The ref or m of the p resent face2t o2face CET Spoken English Test has now been put on the agenda of the CET comm ittee,because,ad m inistered on a rather s maller scale due t o the li m ited nu mber of exa m iners and insuffi2 cient fund,it fails t o meet the de mand of the increasing nu mber of candidates.The way out is t o devel op the comput2 er2based oral p r oficiency test.The comparative study of the t w o tests is carried out in ter m s of validity,reliability and p racticality.It shows that COPT is a successful surr ogate f or the CET2SET.Statistical evidence is quite encouraging: the correlati on o
f the t w o tests are017058and their rates in97180%of the occasi ons either comp letely agree with each other or deviate by only half a grade.Most i m portant,the analysis p r oves the higher validity and reliability of COPT and its l ower cost.
Key words:computer2based oral p r oficiency test;validity;reliability;p racticality
中图分类号:H319 文献标识码:B 文章编号:1004-5112(2005)04-0066-10
1.引言
2004年1月教育部正式颁发了新制订的《大学英语课程教学要求(试行)》,提出了“培养学生的英语综合应用能力,特别是听说能力”这一新的大学英语教学目标。这一新要求是针对目前我国大学生英语听说能力普遍比较薄弱而提出的。其实为了改变这一状况,四、六级考试委员会早在1999年就开始实行了四、六级口语考试。但由于是直接型面试口试,缺乏足够的考官,且受考试场地、设备、尤其是成本开支等因素的限制(张尧学2005),考试的规模一直控制在较小的范围里,即四级考试成绩在80分以上、六级考试成绩在75分以上的考生才有资格报名参加口语考试。因此,尽管每年有接近一千万的四、六级考生,但是参加口试的人数每年平均还不到4万。这样的限制带来了许多问题:
1)划定参加口语考试资格的标准缺乏依据。把报名资格限制在四级考试成绩80分以上、六级考试成绩
75分以上并没有什么理论或实验根据。而常识告诉我们,四级考试在80分以下的考生,其口语能力可以是相当好的。正因如此,广大师生强烈要求降低口试报名资格的门槛。
2)语言考试缺乏完整性。作为一个比较正规的语言考试,如国际上的雅思英语考试、国内的PETS等都把口语作为一个主要项目去测试。美国教育考试中心(ETS)也决定在2005年9月实行的新托福考试中正式
3本研究为教育部大学英语教学改革扩展项目。
增加口语测试项目。作为日益成熟、努力打造民族品牌的四、六级考试,为了其完整性岂能没有口语测试这个重要部分?!银行贷款条件
3)考生的语言水平得不到完整的体现。听、说、读、写是一个人语言综合应用能力的体现,口语能力是语言能力很重要的方面。缺少“说”的表现,很难全面准确判断一个考生的语言水平。而一个不能全面测试考生综合应用能力的考试不能算是一个效度很高的考试。
4)对语言教学产生不良后效作用和影响。四、六级考试不仅对大学英语教学,而且对中、小学英语教学具有一定的指挥棒效应。当一个考生在不用参加口语考试、或口语能力较差的情况下依然可以获得四级优秀证书,学生还有什么动力去训练和提高自己的口语水平呢?
因此可以说,如果大学英语四、六级口语考试(CET2SET)规模不能扩大,将影响大学英语教学的健康发展,影响《大学英语课程教学要求(试行)》的贯彻。而要扩大口语考试的规模,就要改变目前传统的直接型口语考试的方法,引进现代化技术,实行考评分离,降低考试成本。今年2月,四、六级考试委员会正式出台了《全国大学英语四、六级考试改革方案(试行)》,明确提出:“将积极研究开发计算机口语测试,以进一步扩大口语考试规模。”
本研究就是要探索和开发一种计算机辅助口语考试,以替代目前的CET2SET面试型口试。具体说就是利用计算机技术,实行考评分离,为大规模口语测试创造条件。
2.计算机口语考试的设计和实施
2.1理论背景
在口语测试理论上,Clark(1975)最早将口试分为直接型口试和间接型口试。前者的典型形式就是面试型口试(O ral Pr oficiency I ntervie w简称OP I),而间接型口试则不具有面对面的交流形式。在实施中人们发现,尽管前者有较高的表面效度,可以较为真实地测试考生的交际能力,但其“评分信度通常较低”(Shoha my et al.1986)。而间接考试效度虽不很高,但由于评分和考试是分开的,因此其信度又高于直接型口试。为了融合这两种考试各自的优点,研究人员开发了模拟面试型口试(Si m ulated O ral Pr oficiency I ntervie w简称S OP I),或叫半直接型口试(Se m i2D irect O ral Test),即利用磁带录音
方法进行口试,在内容上尽可能接近口语交际活动。如美国教育考试中心在1982年推出的TSE(Test of S poken English)就是一种较早的半直接型口试。由于这种口试保留了间接口试的实施标准化、评分公正性和可操作性强的优点,因此语言测试者都在做这方面的研究:如Clark在1986年做的实验中发现S OP I和OP I之间有较高的相关性(r=193)(引自Jeong2004)。Stansfield et al.(1990)做了同样的实验,得出了两者之间同样的相关性数据(r=193)。而且他们发现,S OP I 的效度、评分容易度和操作性都高于OP I。国内的金艳和郭杰克(2002)等都在探索磁带录音式的非面试型口语考试。但是,利用计算机进行口试,目前的研究和实施还不多。韩国军事学院开发的K2COP I(Multi m edia2 enhanced O ral Pr oficiency),圣地亚哥大学开发的d2VOC I(digital V ideo O ral Communicati on I ntervie w),应用语言学中心研究的COP I(computerized oral p r oficiency instru ment)等,都是在这方面进行的尝试。我们看到,由于技术的发展,口语考试经历了从OP I到S OP I,现在正在向C OPT发展的历程。
2.2设计原则
计算机口语考试(Computer2based O ral Pr oficiency Test,简称C OPT)是否能从实验室走出来,进行大规模的使用,取决于计算机口试是否具有和直接型面试口试同样高的效度和信度。因此本研究是一种对比性研究或替代性研究(a surr ogate t o the OP I)。根据Shoha my et al.(1989)的观点,如果同一批考生在面试型口语考试和计算机口语考试中的成绩具有高相关度,则可证明这两个考试具有同样的效度和可替代性。因此,本研究进行了一项对比实验,对象是参加了2004年11月13日全国四、六级口
语考试(CET2SET)上午场的考生(共225人)中的志愿者,共186名。2004年11月22日,他们参加了计算机口语考试,试卷是CET2SET半年前(即2004年5月份)使用过的一套卷子。
2.3实验目的
我们希望通过这次替代性实验发现:
1)两个考试所得出的成绩相关性是否一致?
2)比起面试型口试,计算机口语考试的信度和效度如何?
3)计算机口试的可操作性如何?成本有何差异?
2.4考场布置
我们选用了1个有100台电脑的考场(考试用电脑的最低配置为128M内存,CP U P III500以上,10G硬盘,网卡10/100M;操作系统为W indows2000Pr ofessi onal;带耳机和话筒一副)。试卷问题统一录制在光盘里。考前我们把考试系统软件(采用了复旦天翼口语考试系统)安装在考场的讲台主机电脑上(作为服务器的笔记本或台式机主机的最低配置为256M内存,CP U P4112G以上,120G硬盘,网卡10/100M;操作系统为W in2 dows2000Pr ofessi onal),建立了一个控制系统,这个系统可对考生的
考试情况进行全方位的监控(如录音是否正常、试卷发送和答卷的上传是否正确等)。试卷通过光盘从考场的主机控制台动态导入。我们设立了一个100人的候考教室,考生只需要提前10分钟到达,在候考教室验明身份,用准考证通过计算机条形码刷卡方式取得自己在考场的座位。候考教室只需一个工作人员。注册满了一个考场人数(100考生)后,程序就进行自动配对,组成3人一个小组。考生进入考场,到指定位置,在屏幕上输入准考证号,登陆。然后进入5分钟的试音阶段(调试音量、与同小组其他两个考生对话试音和熟悉考试程序)。我们考虑今后要在每台计算机上安装摄像头,这样,在讨论时可以看到对方,有利于真实的交流。考场上只需要两个工作人员,其中一个是监考兼技术咨询,另一个是控制台技术人员。参加这次计算机考试的186名学生,分两场在一个小时内完成。
2.5考试实施
题型采用和目前四、六级口试(CET2SET)一样的形式,整个考试分3个部分进行,但做法上略有不同。
第一部分热身。由于是计算机考试,考生必须输入准考证号,登陆取题,所以前面关于验明身份的问题省略了,直接接触正题。录音当中只问一个关于主题的问题。该问题同时显示在屏幕上(理由见下面讨论)。提问结束,屏幕下方立即出现红字“录音”,并同时出现红移动线条表示考生说话所用时间和剩余时间。由于这部分没有交流,考生同时回答,各自录音,因此总耗时只有115分钟,比原来少了3分钟。
第二部分图片描述和讨论。此时电脑上显示图片主题,并出现相关的照片。屏幕下方出现黄移动线条,表示1分钟的准备。1分钟结束后,红录音移动线条先后出现在3个考生的屏幕上。一个接着一个进行115分钟的图片描写陈述,共415分钟。我们建议,这部分既然考的是个人陈述能力,而非交际能力,今后也可以同时进行,这样既可以节省题目,也可节省时间。如准备115分钟(给予更多的准备时间,原因见后面讨论),陈述115分钟,一共3分钟。目前这部分时间是515分钟。接下来是小组讨论,我们设计了6分钟(考虑到这部分效度较高,更接近实际语言运用的形式,更能测试语言的交际能力,因此在原来的415分钟上增加115分钟),并通过设置,给每人各2分钟发言时间,而且规定每人2分钟的发言至少须分两次完成,以突出交际互动性。整个讨论期间,考生可以随时插入讨论。但要发言时,必须先按回车键申请发言,当屏幕出现红线条时表明申请成功,开始发言。没有红线条出现,说明申请没有成功,发言无效。若要想终止本次发言,可随时按空格键停止计时。自己全部的发言时间和对方发言情况都在屏幕上显示。
第三部分是简短问答。录音再问一个相关的问题时,问题同步出现在屏幕上。同样,由于是各自录音,3人同时回答,共115分钟。整个考试共1415分钟(115+1115+115)。若图片描述部分控制在3分钟(原来是515分钟),整个时间还可以减少到12分钟。
216阅卷工作
考试结束后,所有数据输入移动硬盘或刻成光盘,被重新编号,隐去准考证号;并按要求分解题目(如可以按考生阅卷:考生A的答题归到一个阅读员那里,考生B的归到另一个阅卷员那里;也可按项目阅卷:第一部分由一个阅卷员评分,第二部分请另一个阅卷员评分)。我们这次试验是按照目前CET2SET的评分做法,即3个考生为一组同时打分。题目分解后进行打包,刻录成光盘,交给指定的阅卷人员。我们请了四、六级考试委员会认可的、且基本上每次参加SET主考的有经验的考官根据SET的评分标准在家里独立评分。为了能够清楚区分3个考生的声音,我们配备了三组喇叭,三个人的声音从不同方向出来,很容易区别(如换成多
通道耳机,效果更佳)。评分人在计算机的评分系统上打出各档分数,阅完后再送回。釜山图书馆什么梗
3.计算机口语考试的信度和效度研究
3.1基本情况分析
1)录音音质基本达到了要求。尽管是在100人大考场里,计算机位置安排如同一般语言实验室,一台紧挨着一台,虽然100人同时回答问题时考场的噪声很大,但由于录音只接受最靠近的声音,因此效果尚好,能够比较清晰地还原考生本人的声音,没有串音情况,也没有出现声音没有录进去的情况。2)采集样本基本合格。80%的考生基本讲足了所要求的发言时间(如描述的115分钟和讨论的2分钟)。未讲足的原因主要是考生自身的问题,如语言能力,不能连贯表达,结果空耗了自己的发言时间。讨
论时,90%以上的考生能够按要求进行讨论式发言,即分两次用完自己的发言时间,7%-8%的考生甚至分了3次-5次,只有5%不到的考生一口气将时间讲完了。
3.2相关数据分析汪东城
下面几个表是我们对考生参加两个考试的成绩进行描述性统计分析的结果。
表1 平均分和标准差
考试形式考生人数最低分最高分平均分标准差SET182815515111871135
C OPT182913015111761124表2 各等级得分人数的比例
考试形式A+A B+B C+C D SET2244164438
C OPT3153276533
金池 谁3两个考试的相关性:01705816802。
33由于有4人没有参加完所有三个项目,所以在样本中删除了,是以考生人数为182人。
表3 评分一致性
寓言故事作文
小学语文教研工作总结等级差异解  释频数百分比累计百分比0完全一致7038146%38146%
0.5差半个等级(如A+/A,A/B+,C+/C)10859134%97180%
1差一个等级(如A+/B+,A/B,B+/C+)42120%100%
表1表明COPT的平均分略低于SET,两个考试的相关是017058。但根据金艳、郭杰克(2002),两个不同的考试进行同期效度研究,如果相关达到01700,应该说是较为满意的。我们这次实验之所以还未达到更高的相关,主要有以下3个方面的原因:其一,两个考试题目在内容上的难易度不同引起的差异。我们在C OPT 考试中用了2004年5月份的卷子,题目是I f you were mayor of a city。而参加实验的对象在一周前参加SET考试,用的是2005年11月第一场上午的考试,题目是W hat kind of peop le are likely t o be successful in life?显然,后者的题目更具体,更贴近他们的生活,因此在思想组织、话语长度和语言使用上要更容易些。其次,评分标准的掌握不同引起的差异。SET考试是在考试时由两位考官同步打分,然后取他们的加权后的平均分。由于这186位考生是分散在10个考场里,由20个考官(每个考场为两个考官)打出的,因此他们的评分尺度本身就存在一致性问题。而COPT是在这20个考官中挑选一个评分员,186位考生的录音都由她一人听录音判分后加权得出。第三,对象认真态度的不同造成的差异。SET是先考的,他们知道是算成绩的,因此都尽力表现。而C OPT后考,他们知道是实验性质的,成绩好坏对他们没有任何影响,因此并没有非常认真对待。事实上我们这次请了186人参加实验,但其中有4人都没有参加完所有的三个项目(所以在样本中删除了)。
显然,在这种情况下,能取得这样的相关数是很高的了。而Shoha my(1989)和Stansfield&Kenyon(1992)在进行面试型和非面试型两种形式的口语考试的同期效度研究时能达到0190高相关,这是和他们在两个考
试中用同一组考官,并在考试内容和话题等方面保持一致有密切关系的(金艳,郭杰克2002)。
从表3的统计中可以看到,评分还不能完全一致,考生在两个考试中的等级完全一致的只有38146%。但考虑到差一个档次(半个等级)的有59134%,两者相加达到97180%,这个结果还是令人满意的。因为一个档次和另一个档次的临界只有011分。如表4的分数和等级换算表明:一个考生如得1415分是A+,而1414分就是A;得1315分是A,而1314分就是B+;得1215分是B+,而1214分则是B,以此类推。
表4 等级分数换算
等级A+A B+B C+C D 分数15-14151414-13151314-12151214-111019-915914-8719以下
  3.3效度对比分析
3.3.1内容效度(content validity)
一项测试只有能够准确地测试它所希望测试的内容才具有效度(束定芳,庄智象1996)。也就是说,只有试卷内容能测试到各种相关的交际功能,而且这些功能具有足够的代表性,才具有较高的效度。目前的SET 基本上测试到了自我介绍、描述、陈述、论说、争论、支持或反对等功能,但是由于出题形式的限制(只能依靠一张卡片和考官的口头指令),不能考其他的内容和功能。而采用计算机考试后,就可以利用网络资源材料和形式(如表格、图片、动画、电影剪辑等),并利用电脑屏幕的视觉界面和音响效果而使题型变得丰富多彩。如可以试验听一段较浅易的材料,考学生的复述功能;或读一段浅易的文字,然后要其对内容归纳,考其概括的功能等;还可以看一段影视剪辑,然后要其发表看法,或赞成、或反对、或比较、或解释等等,或给予几幅照片,让其进行描述。计算机考试突破了直接型考试的限制,使得考试的形式更丰富,考试的功能更多,效度也随之提高。
其次,由于考题形式的多样化,一场考试中涉及的话题就不像目前SET那样只有一个。因为如果考生恰好对这一话题不熟悉,或理解出现偏差,就会影响考生能力的发挥。同时如果整场考试始终围绕一个话题,那么一个考生观点的重复、内容的重复、乃至词语的重复都会影响样本的质量。目前的SET就是存在这个问题。根据对考官的访谈,在考生对卡片话题陈述后,是进行讨论交流。但由于讨论的内容是和卡片话题基本一致的,因此在讨论中,不少考生根本不顾其他人的讲话,除了一句虚假的连贯I agree with you,接下来又回到自己的卡片,重复陈述时的内容。这样既影响了样本的质量,也没有考到考生的交际功能。而采用计算机考试,技术上可以为一场考试涉及不同的话题创造广阔的前景。
第三,在CET2SET中,考官只能一个一个向考生问问题,一个考生回答问题时,其他两个或3个考生只能坐在旁边听。由于这项内容考的并不是交际能力,所以耗时多,效率低。如果每个问题是115分钟,一轮就要415或6分钟,而每个考生只能问到1个问题。因此,现在的SET整个考试,每个考生只被问到2个问题。而采用计算机口试,问1个问题,不管考生多少,都可以同时回答。这样,同样时间,问的问题就可增加。如同样415分钟,一个考生可被问到3个问题。问题越多,考试效度也就越高。如果整场考试有4个问题,一个考生能考好3个,分数就会更接近他本来的水平。而如果只有2个,一个回答不出,就会失去50%的成绩。也就是说,一场考试中问题越多,考生的机会就越多,偶然性因素就越少,能力的发挥就越全面,样本的质量越高,信度和效度也就越高。
3.3.2表面效度(face validity)
计算机口试的表面效度似乎不及直接型面试口试,因为后者几个人坐在一起面对面的交流,看上去似乎更像是在测试它所要测试的内容:口语的交际能力,而且口试所要求的真实性和互动性也强。但是如仔细分析计算机口试的过程,就会发现其表面效度并不一定比SET低。第一,计算机口试配上了摄像头,完全可以产生可视电话交流的效果。考生可以在屏幕上直接看到对方,交流就更真实。而目前的面试型口试,3个或4个考生是一字排开地入座(摄像要求),讨论时面对考官,倒是缺乏了真实性。考生之间不面对面,容易导致不注意听他人发言,结果自己讲话时,不根据他人的观点发表看法,而是自己讲自己的。