考试与评价·大学英语教研版青年学者园地
General Serial No.110
2021
No.1
1伏潇涵,女,在读研究生,研究方向:语用
2孙莉,女,讲师,博士,研究方向:
语用学,话语分析,学术写作基于学习者自评的中国英语语用能力
量表效度验证
伏潇涵1孙
莉2
(南京工业大学外国语言文学院,江苏南京211816)
摘要:目前学术界对《中国英语能力等级量表》中的语用能力量表效度探究明显不足。本文基于解释/使用论证模式,从学习者自评视角对语用能力量表进行整体效度验证。研究表明,学习者自评成绩与评委评分呈中度正相关。然而,学习者自评的准确度存在不同程度的差异,少数学习者的自评名次与评委评分名次显著偏离,反映出语用能力描述语质量尚存不足,且学习者缺乏相关的文化知识与经历。总体上,评分量表功能符合预期,
测试结果支持语用能力量表的整体效度。关键词:语用能力量表;
自评;整体效度1.引言
2018年4月12日《中国英语能力等级量表》
(以下简称量表)由教育部、国家语言文字工作委员会发布。作为量表建设创新点之一的语用能力量表的构建,有利于引导我国英语教学重视培养学生在特定的交际活动中理解对方意图、得体表达自己意图的能力。其自我评价表的描述语突出学习者的主体地位,有助于培养学习者的元认知意识和技能,为实施“以学习为导向的评价”提供有用的工具(王守仁,2018)。然而,作为量表的主要使用体之一,学习者能否准确理解并运用语用能力量表进行自我评价是
《量表》建设不可忽视的重要因素(刘建达,2021;周艳琼,2021)。为此,有必要对语用能力量表的自评效度进行验证。
目前,学术界关于量表自评效度的实证性研究数量较少,仅涉及听力、口译、阅读以及写作,对语用能力量表的研究尚
处在概念界定和描述框架的建构阶段,
可以说,语用能力量表研究是《量表》的一个重要增长点和突破口。此外,现有研究内容聚焦在描述语效度的整体探究上(刘建达,2021;周艳琼,2021;朱正才、李俊敏,2021),即使有个别学
者对《量表》中的某项语言能力进行效度验证也仅是从描述相关语言能力的众多分量表中,随机选取某些描述语(张洁、赵亮,2017;闵尚超等,2018;许艺等,2019),难免会存在以偏概全的问题。同时,现有的分量表效度验证缺乏对实验设计效度的总体探究。测试目的的明确性、任务设计的得当性以及评分结果的准确性(信度)都是效度的前提(罗凯洲,2019),因此需要从多维度评估实验效度。
多面Rasch 模型在主观性语言测试的效度研究方面具
有独特优势(范劲松、季佩英,2017):它不仅可以将评分过程中的各测量层面参数化,如评分员的严厉度、评分标准的合理性等(Linacre ,2013),还可以在同一个洛基量尺上检验测量层面中每个个体与Rasch 模型的拟合情况,并探究各测量层面的区分度进而从多维度评估实验效度。
基于以上对现有相关研究的梳理和评述,本研究采用多面Rasch 模型,运用Facets 3.83.0统计分析软件验证实验设计的科学有效性,并在此基础上使用SPSS 24.0从学习者自评视角对《量表》中的语用能力量表进行效度验证,以期推动语用能力量表的建设与应用,并为量表自评效度的验证提供新的思路。
119·
·
Testing and Evaluation (College English Teaching &Research)2.理论基础
“解释/使用论证模式”包含两个方面:解释/使用论证(interpretation/use argument,IUA)和效度论证(validity argument)(周艳琼,2021)。解释/使用论证(IUA )目的是搭建一个环环相扣的推理链,每次推理都有待论证,好似构建一个“理论框架”。效度论证是对
“理论框架”的检验过程(如相关证据收集等)。
然而,现有的IUA 理论模型目的是检验某项测试能否外推出目标域分数并据此做决策,与本研究探究语用能力量表在实际使用中的整体自评效度究竟如何的目的不同。鉴于此,本研究依据Kane(2016)提出的IUA 理论模型搭建了语用能力量表自评效度的IUA 推理框架(图1)。该框架包括评分、概化与外推、解释及使用四种推理以及支持这4种推理的理据、假设和相应的反驳构成
图1语用能力量表自评效度的IUA 推理框架
3.研究设计3.1研究问题
(1)总体上,学习者运用描述语自评的成绩多大程度上与评委对其语用能力的评价相关?
(2)个体上,学习者运用描述语自评的成绩与评委对其语用能力的评价存在怎样的偏离?偏离原因是什么?
3.2研究对象
根据对我国英语教育现状的调研,目前的大学英语四
级与六级水平分别相当于
《量表》———语言能力总表中的五级与六级(王守仁,2018)。本研究以南京某工科高校化工专
业的42名三年级本科生为调查对象
(这些学习者最近一年内都有参加大学英语四级或六级考试的经历),探究语用能力量表五级与六级的自评效度具有一定的合理性。
3.3数据收集与分析
本研究采用问卷调查为主,深度访谈为辅的研究方法。问卷设计是基于语用表达能力量表中表达说话意图的11条描述语。为确保问卷填写的真实有效性,
评委先向学习者介绍《量表》的结构、用途及宗旨,并对每条题目下设置的李克特五级量表的各个选项作解释说明。
接着,学习者对自身的语用表达能力进行自评。
问卷提交后,再对学习者进行相应的语用表达能力测试(要求各学习者针对每道情景
120
··
考试与评价·大学英语教研版题给出一段1-2分钟的口头报告)
。三位评委依据李克特五级量表从措辞的准确性、流利度、信息量以及得体性对学习者的表现进行评分。
本研究首先采用多面Rasch 模型,运用Facets 3.83.0解读三位评委评分、学习者自评以及李克特五级量表设置的合理性,以此来验证实验设计的科学有效性;其次,使用SPSS24.0验证学习者自评成绩与评委评分均分的相关度,
并探究学习者自评名次与评委评分名次存在怎样的偏离;最后,对自评时出现显著偏离的学习者进行深度访谈以进一步
探究偏离原因。
4.研究结果4.1相关度
相关度验证的基础是实验设计的有效性。实验有效性的验证首先要考察评委评分及学习者自评严厉度的内在一致性。一致性需加权均方拟合统计量(Infit Mnsq )与未加权
均方拟合统计量(Outfit Mnsq )两个拟合指数显示(Linacre ,2008)。一般情况下,Infit Mnsq 值可接受的区间为[平均值±
2×标准差],且Outfit Mnsq 值必须小于2,相应的评分才是合理的(Liancre ,1999)。由表1可以看出,评委层面的Infit
Mnsq 值或Outfit Mnsq 值均接近理想值1,说明本研究中的三位评委评分的严厉度合理、
内部一致性较好。表2是学习者层面的分析报告。限于篇幅,表中仅列出测量值最低和最高的各5名学习者的数据。从中可以看出,学习者层面的平均值为0.98,标准差是0.44,因而Infit Mnsq 值可接受的区间为[0.1,1.86]。除21号和33号学习者的Infit Mnsq 值分别为2.01、2.10,outfit Mnsq 值分别为2.03、2.12外,其余学
习者(占比约95.2%)的拟合指数均在可接受的范围内。如果拟合不佳的学习者人数在5%左右或者更少,说明数据和模型拟合比较理想(Linacre ,2013)。由此可以看出经过培训后学习者运用描述语对自身语用能力进行评估时的严厉度的内部一致性较好。
表1Facets 对评委层面的拟合情况分析结果
评委编号观测均值公平均值测量值测量误差拟合指数
Infit MnSq Outfit MnSq
Rater 1
1.82
1.77
0.41
0.070.990.99Rater 2  1.67  1.600.800.07  1.04  1.03Rater 3  1.48
1.40
1.280.080.940.95均值  1.66  1.590.830.070.990.99标准差
0.14
0.15
0.35
0.00
0.04
0.04
表2Facets 对学习者层面的拟合情况分析结果
343841123530293
140.42160.48200.61230.7084  2.5587  2.6494
2.85100
3.03
0.380.440.570.672.552.642.863.05
-
3.44-3.21-2.78-2.482.132.342.843.29
0.340.330.320.310.260.270.270.28  1.10.960.560.530.500.490.400.401.58  1.590.960.961.33  1.310.980.94
36117  3.55  3.59  4.810.34
1.28
1.21平均值54.7  1.66  1.640.000.280.980.99标准差
25.2
0.77
0.78
1.93
0.030.440.4514130.390.35-3.560.350.870.85学生编号
总分数观测均值公平均值测量值测量误差拟合指数
Infit MnSq Outfit MnSq
121·
·
其次,实验有效性的验证也涉及到评委评分与学习者自评的区分度。一般而言,分隔系数大于2且分隔信度系数大于0.8,就表明评分区分度良好(Linacre,2013)。由表3可以看出,评委层面的分隔系数为4.64,分隔信度系数为0.96,说明评委评分可大致分为5个等级,且评委评分的区分结果具有可靠性。除此之外,Facets还提供卡方检验结果,用以检验测量层面内部个体测量值是否存在显著性差异(范劲松、季佩英,2017)。卡方检验结果表明,评委评分的区分度显著(X2=67.4;df=2;p=0.00)。Facets报告的学习
者层面的分隔系数为6.74,分隔信度系数为0.98,说明学习者自评的语用表达能力大致分为七个等级,且自评的区分结果可靠。同样,卡方检验结果显示学习者自评的区分结果意义显著(X2=1726.0;df=41;p=0.00),因此可以得出学习者能够合理运用描述语对自身语用能力进行评估的结论。
表3评委及学习者评分区分度统计表
学习者评委
分隔系数=6.74;分隔信度系数=0.98
分隔系数=4.64;分隔信度系数=0.96
卡方检验结果(X2=1726.0;
df=41;p=0.00)卡方检验结果(X2=67.4;
df=2;p=0.00)
最后,实验有效性的验证还需考察评分量表设计的合理性。由表4可以看出,本研究中所有评分维度的观测次数均大于10。第三列显示,各评分维度的难度值随评分维度的升高而单调递增,说明低评分维度对应低能力水平学习者,高评分维度对应高能力水平学习者。第四列数据表明,量表中各评分维度的Outfit MnSq值均接近理想值1,说明这些评分维度在测量过程中没有引入无关内容(周艳琼,2021)。第五列数据表明,阈值校正值呈现由低到高的单向递增状态,并且相邻评分维度的距离均在1.4—5logits 之间,表明本研究采用李克特五级量表能够有效区分学习者的语用表达能力。
表4评分量表功能摘要
分数段频数
平均难度
OUTFIT
MnSq
阈值校
正值0(完全做不到)189(14%)-3.63  1.1—1(勉强做到)460(33%)-2.00  1.0-3.69 2(基本做到)430(31%)-0.020.7-0.92 3(较好做到)251(18%)  1.26  1.2  1.14 4(完全做到)56(4%)  2.68  1.0  3.47上述研究结果证明了实验设计的科学有效性。接下来,本研究使用SPSS24.0,对学习者自评成绩与评委评分均分的相关性进行检验。结果表明学习者自评分数与评委评分均分呈显著中度正相关(r=0.605,P=0.00<0.01),且高水平组学习者的自评均分明显高于低水平组学习者,由此可以判断学习者利用描述语进行自评的成绩较为准确。
表5学习者自评与评委评分均分相关性统计
自评均分评委评分均分Pearson相关系数低水平组12.2910.2050.493*
高水平组17.5724.0240.534*
全体14.9317.1140.605**
注:**表示在0.01的水平上具有显著相关性,*表示在0.05的水平上具有显著相关性
4.2偏离度
怎样查英语四级成绩本节将重点关注每个个体数据,以检验学习者的自我评价与评委在个体层面的评价是否存在不同程度的偏离。
从表6可以看出,一些学习者对自身语用表达能力的评分名次与评委评分名次十分吻合(比如36号、29号、32号等),这说明部分学习者能有效运用描述语对自身语用表达能力进行较为准确的评估。但仍有一些学习者的自评名次与评委评分名次存在较大程度的偏离:一些学习者的自评名次远低于评委评分名次(比如38号、6号等);另有一些学习者的自评名次远高于评委评分名次(比如9号、37号等)。
122··
Testing and Evaluation(College English Teaching&Research)
表6自评分数名次与评委评分名次的偏离情况注:学习者的名次按照分数从高到低依次排列
5.讨论
5.1相关度
综合第4节的研究结果,学习者总体上能够合理运用描述语对自身语用能力进行较为准确的评估。然而,值得关注的是本
研究中高水平组学习者的自评成绩与评委评分均分的相关度高于低水平组学习者。这与一些对大学生英语写作能力自评效度的研究发现“与低水平组相比,高水平组学习者能够比较准确地评估自身的能力水平”(刘建达,2002;孙鑫、李秋菊,2015)的结论一致。究其原因,高水平组学习者对语用表达的准确性与得体性有更好的认知与把握,在表达自己的特定意图时能大体了解自身所运用的社会语言知识是否符合特定情境的期待和需求及其符合程度,因而与评委评分的相关度更高;而低水平组学习者对语用知识的了解不足,在灵活性、表达自如度等方面的认知低于高水平组学习者,因而在判断自己的交际活动是否符合特定交际情境的期待和需求上的误差较大。
5.2偏离度
基于定量数据的分析表明,本研究中出现显著偏离的低分高评的学习者主要为语用表达能力低的学习者。该结
果照应前人研究的发现,即“低水平的学习者在自评过程中往往更容易高估自身的能力水平”(刘建达,2002;孙鑫、李秋菊,2015)。其原因之一是他向的自我,即一种保全面子的倾向。由于对他人的评价十分敏感,低水平学习者更倾向于给自己评高分(吴旭东,2008)。而且学习者在运用描述语进行自评时往往倾向于以情景写作能力作为自己语用表达能力的直接衡量标准,然而在口述时就会出现语言语用失误或社交语用失误等问题,导致低分高评现象的出现。相反,出现“显著偏离的高分低评的学习者主要为高水平学习者”。原因可能是长期负面的课堂学习经历造成部分高水平学习者外语交际自信低下。此外,我国的外语教学忽视了西方文化、价值观的适度导入,致使学习者对英语国家的文化、价值观了解甚少,比如“能礼貌地纠正他人的错误”,学习者普遍表示无法确定自己的某些表达方式算不算礼貌,因而在自评的过程中对自身的相关能力水平十分困惑。
6.结论
本研究基于解释/使用论证模式,从学习者自评视角对《量表》中的语用能力量表进行整体效度验证。基于本研究结果,笔者认为只要评分标准设计科学,大部分学习者在
123··
考试与评价·大学英语教研版