我国外语类大学生思辨能力量具的修订与信效度检验研究
文秋芳1  刘艳萍2  王海妹3  王建卿4  赵彩然
5
提要:本研究依据先导测试结果,对此前使用的自制思辨能力量具进行了认真修订,并在12所高校17个文科专业2770名学生中开展测试检验其信效度。研究结果表明,修订后的量具基本符合要求,总体难易度达到.61,区分度为.31,内部一致性为.70。效度证据有3条:(1)该量具能有效区分生源质量不同的12所高校;(2)该量具能基本区分3个年级学生不同的思辨水平;(3)思辨能力测试成绩与英语专业四级笔试成绩呈显著正相关。
关键词:外语专业;思辨能力;大学生思辨能力量具;信度;效度
A b s t r a c t :A c c o r d i n gt ot h e i t e m a n a l y s i s r e s u l t s o f t h es e l f -d e s i g n e dc r i t i c a l t h i n k i n gs k i l l st e s t u s e di nt h ep i l o t s t u d y ,w e r e v i s e dt h e i n a d e q u a t e t e s t i n g i t e m s .T h e r e v i s e d t e s t w a s t h e n t a k e n b y 2770s t u d e n t s m a j o r i n g i n 17a r t s s u b j e c t s f r o m 12u n i v e r s i t i e s .T h e t e s t i s p r o v e dt ob ef a i r l y g o o db e c a u s et h
ei n d e x e s o f r e l i a b i l i t y a n d v a l i d i t ya r e g e n e r a l l y a c c e p t a b l e .I t so v e r a l ld i f f i c u l t yi n d e xi s.61,d i s c r i m i n a t i n gp o w e ri s.31,a n di n t e r n a lc o n s i s t e n c y r e l i a b i l i t y i s .70.M e a n w h i l e ,t h e r e a r e t h r e e p i e c e s o f e v i d e n c e f o r v a l i d i t y .T h e f i r s t p i e c e i s t h a t t h e t e s t s c o r e s c a n i n g e n e r a l d i s c r i m i n a t e t h e 12u n i v e r s i t i e s w h i c h e n r o l l h i g h s c h o o l g r a d u a t e s w i t h v a r i e d q u a l i t i e s ;t h e s e c o n d p i e c e i s t h a t t h e y c a nd i f f e r e n t i a t et h e s t u d e n t s i n t h r e e g r a d e s i n t e r m s o f c r i t i c a l t h i n k i n g s k i l l s ;t h e t h i r dp i e c e i s t h a t t h e y a r e p o s i t i v e l y c o r r e l a t e dw i t ht h e s c o r e s o nt h eT E M 4.
K e yw o r d s :f o r e i g n l a n g u a g em a j o r ;c r i t i c a lt h i n k i n gs k i l l s ;c r i t i c a lt h i n k i n gs k i l l st e s t f o rC h i n e s eu n i v e r s i t y s t u d e n t s ;r e l i a b i l i t y ;v a l i d i t y
中图分类号:H 319 文献标识码:B  文章编号:1004-5112(2010)04-0019-09
引言
2008年文秋芳等申请了国家社科项目“我国外语类大学生思维能力现状研究”(编号08B Y Y 026),旨在发现我国外语专业学生与其他文科专业学生在思辨能力上是否存在差异。2008年5月课题组构建了思辨能力量具的理论框架,后将其发表在《外语界》2009年第1期上(文秋芳等2009:37-43)。2008年6月课题组
就思辨能力客观性量具的构建开展了先导研究(文秋芳等2010:55-58)。该研究设计了60道题,将其分为两套题型和数量相同、难易度相近的A 卷与B 卷,测试时间为50分钟。参加测试的是来自3所不同学校一、二、三年级英语与非英语专业750名文科学生,其中约一半学生用A 卷,一半学生用B 卷。课题组分析了测试题的难易度、区分度与信度,并进行了因子分析,还就量具的构建与先导研究结果咨询了心理测量、心理学、哲学、应用语言学领域6位专家的意见。总体结论是,构建量具的理论框架
·
19·*本研究获得国家社科项目“我国外语类大学生思维能力现状研究”(编号08B Y Y 026)基金资助,也得到北京外国语大
学“211工程”(三期)建设经费的资助。本文部分内容源于第一作者于2009年5月8日在上海外语教育出版社召开
的“第三届全国英语专业院系主任高级论坛”上的发言。
与思路符合研究规范,但有一半以上题目的区分度未达到要求,总体难易度偏低,题型不够丰富,同时参加先导研究的样本不够大,也不具典型性。
据此,我们进一步阅读文献,修订现有量具,接着用新量具在更大更典型的样本中进行测试。本文将报
告对新量具信效度检验的结果。全文分为3部分:第一部分报告新量具的结构与内容,第二部分介绍新量具的测试过程,第三部分报告并解释新量具难易度、区分度、内部一致性分析结果以及效度证据。
1.新量具的结构与内容
新量具包括40道题,其中25道题来源于先导研究所用的量具(本文简称为老量具),新增15道题。我们把老量具中的10种题型合并为6类,同时新增了4种题型。表1列出了10种新题型的名称以及每种题型所包含的题目数。前6种题型源于老量具,具体例子见文秋芳等(2010)所撰写的论文“我国外语类大学生思辨能力客观性量具构建的先导研究”。表2列出了增加新题型的理由及对新题型内容的说明①。
表1 新量具题型及题数
序号题型名称题数序号题型名称题数1识别假设/论点66数字题2 2推论/形式推理57图表题2 3匹配相似推理/运用潜在规则48根据争论内容评价结论5 4辨别推理错误/评价推理59根据实验报告评价陈述3 5评价附加证据对结论的影响310分析案例评价推论5
表2 增加新题型的理由及新题型说明
新题型增加新题型理由题型内容说明特
图表题有专家提出当今社会信
息呈现的方式多元化,
图形是重要的呈现方式
之一。大学生必须具有
正确解读图表获取信息
的能力。
给出数字及其图形,要求被试根据所给信息
从4个选项中选出答案。
将图与文字结
合,克服了老量
具中信息单模态
的不足。
根据争论内容评价结论
分析案例评价推论老量具中的题型均为4
选项选择题,题型单一,
同时每道题涉及的情况
比较简单。日常生活情
况复杂,需要解决的问
题多种多样。增加这两
种题型是为了克服题型
单一、简单化。
简单介绍争论的议题,然后给出5个个人发
言,这5个发言之间没有联系。要求被试对
每个发言做出判断:
若结论是所给论据的必然结果,选A;
若结论与所给论据矛盾,选B;飞儿乐团成员
若结论既不是所给论据的必然结果,也不与
所给论据矛盾,选C。
被试需要从思辨
角度对发言人所
给结论与论据之
间的关系做出评
价。
描述一个案例,并给出5个推论。要求被试
对每个推论做出判断:
A=推论绝对正确;B=推论很可能正确;C=
推论缺乏足够资料/依据;D=推论很可能错
误;E=推论错误。
这不是对推论简
单的正误判断,
而是对正确到错
误之间5种可能
性的选择。
·
20
·
①新增题型因所占篇幅过大而难以举例。
(续表)
根据实验报告评价陈述正确解读与日常生活相
关的实验报告数据,据
此做出恰当判断,是现
代人须具备的能力。
用表格报告以数字形式呈现一项实验结果,
然后列出3道题,每题含有3个陈述。要求
被试根据以下3个原则从3个陈述选项中选
择1个答案:
如果你认为第一个陈述更可信,选A;
如果你认为第二个陈述更可信,选B;
如果你认为一个不比另一个可信,选C。
将文字与表格结
合是一种多模态
信息呈现方式。
被试需要对3个
选项的可信度做
出恰当判断。
2.新量具的试用
2.1被测学生
2770名被测学生来自12所高校的81个班级,其中有3所“985”学校,3所“211”学校,3所省部共建的省属本科
院校,2所省属普通高校,1所2004年专升本院校。本课题先导研究只涉及其中3所学校的750人,参加本次研究的人数增加了2.69倍,学校数增加了3倍,学校类型也变得多样化,涵盖外语类、综合类、理工类、财经类、师范类学校,涉及的文科专业有17个。我们认为本样本应该具有较好的代表性(见表3)。
表3 12所高校被测学生的人数及专业
学校人数一年级二年级三年级专业
1452165145142 2175606055 3188586367 4224917063 5222687084 6194765761 7284989789 8183636060 9198696663 10228838164 112961597859 12126454041合计27701035887848①英语
②德语
③阿拉伯语
④西班牙语
⑤金融学
⑥法学
⑦经济学
⑧汉语言文学
⑨政治学与行政学⑩教育学
1财政学
12国际贸易
13市场营销
14对外汉语教学15管理工程学
16新闻传播学
17公共事业管理
2.2测试组织者
除了课题组的4名老师外,我们还邀请了70名教师协助组织测试。一般情况下由两名教师负责一个班级。
测试前,我们向这些教师详细解释了测试要求、流程与应注意的问题,同时还印发了书面测试指导语,以便在12个学校81个班级中统一测试要求。
·
21
·
2.3测试实施
本次测试与先导研究测试不同的地方有两处。第一增加了题量,但答题时间从50分钟缩短到45分钟,目的在于提高量具的难度。第二,本次测试前我们将研究目的如实告知被试,原因是先导研究访谈数据表明学生渴望了解自己的思辨水平。下面是我们印发给组织者的测试指导语。
在动员学生配合做题时,请按如下要点说明:
(1)本测试来源于一个国家级课题。该课题研究大学生思维能力现状,并通过测试到问题所在,对高校今后开设该类型的课程有重大意义。测试题目由课题组成员编制。
(2)思维能力对一个人的成长非常重要,也是目前各种就业、选拔型考试(如公务员考试等)涉及的内容。本测试有助于学生了解自己的思维能力现状,并相应进行有意识的训练和提高。
(3)我们承诺评分结束后为每个被试提供成绩(请学生一定配合写上名字和学号)。
2.4数据分析
我们在E X C E L中分别输入12所学校的数据,然后合并、整理,纠正数据输入错误。数据整理完后,我们从项目分析(i t e ma n a l y s i s)入手,列出每题选项的选择分布情况,然后计算难易度与区分度,再计算量具中40道题的内部一致性作为信度指标。难易度计算的公式是:P=得分/满分;区分度计算公式是:D=P1(27%高分组难易度)-P2(27%低分组难易度)(B r o w n 2006:68)。为寻量具效度的证据,我们运用单因素方差检验,比较不同类型学校、不同年级学生测试平均成绩的差异,分析了部分学校英语专业四级考试成绩与思辨测试成绩的相关情况。
3.研究结果
3.1新量具测试题的难易度、区分度与信度
表4列出了每个题目的难易度、区分度以及总体难易度、区分度与内部一致性信度。总体来说,新量具比老量具有了显著改进。它的平均难易度为.61,即学生答题的总体正确率为61%,比老量具下降了11%;
区分度达到.31,比老量具提高了.03;内部一致性信度也有了一定改进,A l p h a系数达到.70,比老量具中的A卷高.06,比B卷高.02,符合统计要求。
表4 新量具测试题的难易度、区分度与信度
序号难易度区分度序号难易度区分度序号难易度区分度序号难易度区分度
1.58.4111.49.2121.73.4231.36.13
2.84.2512.60.3422.67.3132.72.41
3.75.3813.66.2123.55.4933.37.27
4.28.4114.52.2924.82.3034.46.23
5.65.2515.88.1825.62.2835.40.14
6.70.3516.83.3826.72.3336.54.36
7.71.4017.62.3127.53.3337.69.38
8.79.3218.61.3928.55.1838.37.25
9.62.3819.34.2329.79.3839.48.34
10.78.3920.62.3330.67.2340.55.31
难易度:M=.61,S D=.15区分度:M=.31,S D=.08内部一致性信度(A l p h a):.70
·
·
22
  一份试卷应该由难易度不等的题目按一定比例组成,理想的难度均值是.50(李筱菊1997:274)。表5列出了新老量具试题难易度的分组情况以及理想比例(李筱菊1997:274)。虽然新量具比老量具的难易度有所改进,但与理想比例相比,似乎还有必要减少高于.70这个难易度段的题目数量,增加低于.29这个难易度段的题目数量。导致高难度题目数量不够的原因也可能是参加测试学校的类型分布不够均衡,特别是近年来专升本的院校数量较少。如果增加这一类学校的数量,量具的难易度可能就达到了要求。当然这一推测需要实证数据支持。
表5 新老量具试题难易度分组与理想比例
难易度区间组新量具老量具理想比例<.291(2.5)015%
.30~.7027(67.5%)30(50%)70%
>.7012(30%)30(50%)15%
与难易度值相似,区分度值也在0至1之间。表6列出了新老量具试题的区分度分组情况以及评价区分度好坏的一般标准(B r o w n2006:75)。很明显,新量具中符合区分度要求的题目比例达到了62.5%,比老量具增加了19.1%,需要删除题目的比例从30.0%下降到10.0%。表6 新老量具试题区分度分组与评价标准
区分度分组新量具(40题)老量具(60题)评价标准<.194(10.0%)18(30.0%)删除
.20~.245(12.5%)10(16.7%)
不太好,可以修改.25~.296(15.0%)6(10.0%)
.30~.3919(47.5%)13(21.7%)较好
>.406(15.0%)13(21.7%)很好根据表6,新量具中仍旧有27.5%的题目需要修改。我们有必要进一步查看
这11道题的各个选项的设置情况。从表7我们发现一个最明显的问题是,干扰项的作用不均衡,有的几乎未起到干扰作用。第二个问题是,需要进一步分析第25、30、33、34、38题为什么有几十、甚至上百学生未回答。初步解释是,这些是新题型,学生一般不熟悉,需要花费力气理解答题的指导语,部分学生不愿意多动脑筋,进而选择放弃答题。
表7 区分度在.20~.29之间的11道题每个选项选择情况
序号难易度区分度a b c d e*序号难易度区分度a b c d f e*2.84.251001982322146425.62.286111251713283/36 5.65.253761806342238430.67.235752681859//66 11.49.211355842321092633.37.2711651026451//128
13.66.214802771823180934.46.2311312751232//147
14.52.291448108115750638.37.25451421018574815171 19.34.23914383009448
注:第30-34题只有3个选项,第38题有5个选项;e*表示未作任何选择的学生数。
·
·
23