基于认知诊断理论的国际中文阅读测验Q矩阵的构建

［收稿日期］2022-08-16

［作者简介］刘慧，女，北京语言大学语言科学院助理研究员，博士，主要研究方向为语言测量、教育测量。：*************** 。李亚男，女，北京语言大学语言科学院在读博士，汉考国际总经理助理兼研发总监，主要研究方向为语言测试、国际中文教育。：*******************。

［基金项目］国家语委科研项目“国际中文阅读测验认知诊断信息挖掘研究”（YB145-14）；汉考国际科研基金项目“基于出声思维的HSK （四级）阅读测验认知结构研究”（CTI2021B03）；北京语言大学院级项目（中央高校基本科研业务费专项资金）“汉语作为第二语言测验认知诊断分析的效度研究”（22YJ170001）

1.引言

阅读能力是人类最重要的能力之一，同时，阅读能力高度复杂。尽管在阅读能力的构成上，以往研究者并未能完全达成一致，但绝大多数研究者认为阅读能力由不同能力要素构成（Lee &Schallert ，1997）。在语言测验领域，很多研究者认为阅读能力是可细分的（Grabe ，2009：39），这些细分的阅读能力就称为阅读子技能。

在国际中文教育中，学习者阅读能力的发展情况，是教学中师生共同关心的问题。现实中，由于个体差异

的存在，尤其是国际中文学习者背景（母语、性格、语言学习能力、学习风格、动机、对语言学习的态度等）差别大，这会在不同程度上对国际中文习得的不同方面产生影响，其阅读能力的发展情况也会更加分

化。然而，对于各阅读子技能发展情况的描述，传统的测验分数和偏误分析都无法实现，而认知诊断分析可以胜任。

认知诊断理论通过运用统计模型识别技术，能够从被试在测验各个题目上的实际作答反应出发，推断其内在子技能的发展状况。阅读领域的认知诊断分析可以报告学生各阅读子技能发展情况，明确其优势和弱势；能够为下一步的教学提供更加详细的建议，进行更加直接的指导，为“因材施教”提供基础。

实际上，语言测验都有提供诊断信息的潜力（Bachman ，1990：60），以往国内外相关研究也确实在阅读领域成功进行了一系列诊断分析（Buck 、Tatsuoka &Kostin ，1997；Jang ，2009）。不过，纵观以往阅读测验领域的诊断研究，尤其是国际中文阅读的相关研究，关注点多在于认知诊断模型的使用，主要考查认知

基于认知诊断理论的国际中文阅读测验

Q 矩阵的构建

刘

慧1，李亚男1，2

（1.北京语言大学语言科学院，北京100083；2.汉考国际教育科技（北京）有限公司，北京100088）

［关键词］认知诊断；阅读测验；Q 矩阵［摘

要］Q 矩阵的合理构建是成功进行认知诊断分析的先决条件，然而对目前广泛存在的非诊断

性大型标准化测验来说，确定Q 矩阵是一项极具挑战性的工作，国际中文阅读测验也不例外。本研究以YCT （四级）阅读测验为例对大型标准化国际中文阅读测验Q 矩阵的构建进行探讨。研究通过文献回顾和专家判断得到了测验所考查的子技能并初步构建Q 矩阵，然后基于R-RUM 模型的分析结果从量化角度对初始Q 矩阵进行优化并检验。结果表明，YCT （四级）阅读测验考查了“词汇识别”“句法分析”“语义命题构建”“推理”四种子技能；通过质性分析和量化分析相结合的方法可以有效构建国际中文阅读测验Q 矩阵，从而为后续的诊断分析打下良好的基础。

［中图分类号］H195.6

［文献标识码］A

［文章编号］1674-8174（2023）04-0068-09

2023年第4期

No.4

2023

华文教学与研究

TCSOL Studies

总第92期

Sum No.92

诊断模型能否应用于相应的测验，而对于如何构建Q矩阵关注不足。

Q矩阵反应的是子技能水平上的测验结构，其合理构建是成功进行认知诊断分析的先决条件（Tatsuoka，

1983）。同时，目前的阅读测评使用的几乎均为大型标准化测验，这些测验一般基于非诊断目的开发，属于传统的非诊断性测验；想要从中获取诊断信息，更是需要首先分析测验本身所考查特质的构成，确定Q矩阵。因此，研究拟以中小学生汉语考试（以下简称“YCT”）测验为例，对国际中文阅读测验Q矩阵的构建进行专门探讨，具体研究两个问题：（1）YCT（四级）阅读测验考查了哪些阅读子技能？（2）国际中文阅读测验的Q矩阵应当如何构建？期望对上述问题所进行的探讨，能够为后续研究确定Q矩阵提供更多参考建议，提升国际中文阅读测验诊断分析的效用。2.研究背景

王亚楠个人资料2.1认知诊断理论

认知诊断理论（Cognitive Diagnostic Theo⁃ry，CDT）是新一代测量理论，它不将测量的特质看作意义模糊的统计结构，而是致力于描述个体不同的认知结构。认知诊断理论由Q矩阵和认知诊断模型两部分构成。

Q矩阵定义的是正确作答每道题目所需要掌握的子技能，它从不可观测的多个潜在子技能的角度对可观测的测验题目的表现进行解释，体现了子技能水平上的测验认知结构。Q矩阵的行代表题目，列代表子技能；如果Q矩阵的元素q jk的值为1，就表示第j道题目考查了第k个子技能；如果为0，就表示第j道题目没有考查第k个子技能。

认知诊断模型根据Q矩阵和实测作答反应来推断被试子技能掌握状态，目前大多数认知诊断模型都定义

了一个函数，这个函数用来表达被试对某道题目正确作答的概率与这道题目所考查的子技能和被试的子技能掌握情况之间的关系；它们既可以用于专门的诊断性测验，也可以用于传统的非诊断性测验（Fu&Li，2007）。

2.2以往的阅读认知诊断研究及其Q矩阵的构建

从上世纪末开始，研究者就已经开始了阅读领域的认知诊断研究，目前已经有了一定的

积累。以往研究中，绝大多数都是基于传统的非诊断性测验开展的。

Buck等（1997）是阅读领域首批认知诊断研究的代表，研究采用文献回顾、专家判断和回归分析等多种方法确定Q矩阵，然后使用规则空间模型对考生在托业考试阅读部分的作答进行分析。Jang（2009）是后期研究的代表，研究采用文献回顾、出声思维和基于缩减融合模型（The reduced reparametrized unified model，R-RUM）的量化分析方法确定Q矩阵，并用R-RUM对LanguEdgeTM阅读测验进行认知诊断分析。蔡艳等（2011）是国内相关研究的代表，研究采用文献回顾和专家判断方法建立Q矩阵，并采用分层回归分析等方法对Q矩阵进行认定，然后使用属性层级模型对英语高考阅读理解进行分析。

在国际中文阅读领域，也有研究者不断进行探索。黄海峰（2010）采用文献回顾和因素分析相结合的方法确定了Q矩阵，然后使用融合模型对考生在汉语水平考试（HSK）初、中等阅读测验上的作答表现进

行分析；鹿士义和苗芳馨（2014）采用文献回顾和问卷调查相结合的方法确定子技能及其层级关系并计算Q矩阵，然后使用规则空间模型对某大学入学分班的阅读理解测验进行诊断性研究。

由以上研究可知，Q矩阵的构建是进行诊断分析的重要基础。Q矩阵构建通常通过“定义子技能”和“建立Q矩阵”这两个步骤实现（Lee&Sawaki，2009）。“定义子技能”时，一般会对相关领域认知子技能构成的理论进行回顾，并结合目标测验的特点对测验所考查的子技能进行定义；在条件具备的情况下，出声思维法和专家判断法也是定义子技能的比较有效的方法。“建立Q矩阵”时，一般会使用两类方法，一类是仅基于对测验内容本身的分析，另一类是将测验内容分析和量化分析相结合。第一类方法是指由一位或者多位专家对目标测验的每道题目内容进行分析并编码（Douglas、de la Torre、Chang、Henson &Templin，2006），第二类方法是指在测验内容分析的基础上，再依靠量化分析识别内容分析中专家判断与实测数据不匹配之处，进而对依据测验内容分析所建立的Q矩阵进行优化。

刘慧，李亚男：基于认知诊断理论的国际中文阅读测验Q矩阵的构建

华文教学与研究2023年第4期

以往大多数阅读认知诊断研究在建立Q矩阵时，采用了将测验内容分析和量化的实证数据分析相结合的

方法。在量化方法的选择上，有研究采用了因素分析（Jang，2005；黄海峰，2010）、回归分析（Buck等，1997）等方法，也有研究采用了基于认知诊断模型的量化分析方法。这些方法中，因素分析方法表现并不太好，尤其是对于传统的非诊断性测验来说（Li&Suen，2014）；回归分析方法也只能对Q 矩阵的合理性进行较为粗略的判断；而不少认知诊断模型能够对单个测验题目的表现进行分析，并能够对子技能分配的具体情况进行评估，从而更精确地识别测验内容分析中可能出现的误判，在Q矩阵构建中表现良好。R-RUM模型（DiBello、Stout&Roussos，

1995）就是这种认知诊断模型的典型代表。

在国际中文阅读测验领域，以往诊断研究在构建Q矩阵时，仅仅通过测验内容分析直接确定Q矩阵（鹿士义、苗芳馨，2014），或者在测验内容分析的基础上，通过因素分析、回归分析等量化分析对Q矩阵的合理性进行总体评估（黄海峰，2010）；少有研究采用基于认知诊断模型的方法对Q矩阵的合理性进行精细评估。

3.研究方法

3.1研究工具

本研究所用测验为YCT（四级）的阅读分测验。

YCT是一项旨在考察汉语非第一语言的中小学生的汉语应用能力的大型国际汉语能力标准化考试，分为四个级别，水平从低到高分别为YCT（一级）、YCT（二级）、YCT（三级）、YCT（四级）。YCT（四级）考查考生的日常中文应用能力，共80题，分听力、阅读和书写三部分，其中阅读测验长度为30题，包括四种题型，均为四选一的单项选择题。第一种题型，每题提供一张图片和3个句子选项，要求考生选出对应图片的一项；第二个题型提供20个句子，每10个一组，要求考生出对应关系；第三个题型提供一个单轮对话，对话中有一个空格，要求考生选词填空；第四个题型提供一句或两句话，之后有一个问题，要求考生从备选项中选出答案。

3.2研究设计

研究拟综合采用文献回顾法、专家判断法和基于认知诊断模型的量化分析方法构建Q矩阵。首先，通过文献回顾法初步析出测验所考查的阅读子技能；然后，利用专家判断法，对初步析出的子技能进行考查并构建初始Q矩阵；接下来，采用基于R-RUM模型的量化方法对初步构建的Q矩阵进行优化；最后，对Q矩阵的合理性进行检验。

专家判断法的基本流程为：（1）对目标测验的目标体、考察目的、测验构成等相关情况进行详细介绍，为专家分发全部题目，并请专家阅读试题；（2）介绍主要的阅读能力认知结构理论模型，报告初步析出的阅读子技能清单；（3）请专家结合目标测验具体情况，对初步析出的子技能清单进行讨论，

确定子技能清单；（4）专家对目标测验的每一道题目独立标注目标体在作答时需用到的子技能；（5）全部专家对题目标注完成后，对各题所考查的子技能进行逐题讨论；如果专家们在某题目上无法达成一致，就采用专家出声思维法对该题考查的子技能进行讨论并做出决定；（6）基于专家组确定的各题所考查的子技能，构建初始Q矩阵。3.3被试构成和专家组构成

3.3.1被试构成

研究采用的数据为2017年4月全球施测的YCT（四级）阅读分测验的考生作答结果和成绩，经清理后的有效数据共1101条。试卷质量分析显示：以原始分计，考生成绩均值为18.04，测验的平均通过率为0.60，试卷难度中等偏易；全卷标准差为6.67，考生成绩变异合理，考生成绩全距为2分到满分30分，得分分布较广；试卷α系数为0.88，信度较高，较为稳定；全卷平均点二列相关为0.47，题目区分度很好，试题质量不错。

3.3.2专家构成

专家组由5名成员构成，均有三年以上国际中文教学经验，熟悉汉语水平考试，且长期参与YCT或HSK的命题、审题工作。其中，有三位专家为大学教师，两位专家为考试机构资深工作人员，另有一位语言学专业的硕士生进行会议记录。

3.4数据处理

研究过程中涉及到的数据处理有三类：

基本测量学指标的分析采用ITEMAN软件完成，基于R-RUM进行的分析采用Arpeggio软件完成，其他的数据整理和处理采用R软件自编程序完成。

4.研究结果

4.1认知子技能的初步析出及确认

研究首先基于YCT（四级）阅读测验的基本特点，在阅读认知过程和阅读能力评估相关文献分析的基础上，初步析出了YCT（四级）阅读测验所考查的阅读子技能初始清单。

以往研究中，多数研究者认为阅读是一种高度复杂的活动，阅读能力由不同的能力要素构成（LEE&Schallert，1997），并且认为阅读能力可细分（Grabe，2009：39）。然而，在阅读能力具体包含哪些子技能上，不同的研究者从不同的视角出发，观点并未能够达成一致（Davis，1968；Grabe，2009：21-58）。考虑到阅读能力的潜在结构确实会随研究内容或研究目的不同而不同（Song，2008），本研究采用文献分析法初步析出子技能时，重点依据在阅读测验背景下构建的阅读认知过程模型。

Perfetti（1999）、Grabe（2009）以及Khalifa 和Weir（2009）描述了语言测试领域比较重要的三种阅读认知过程的模型。三个模型虽然在包含的具体要素上略有不同，但其大体结构相

似，均认为阅读认知过程包括从“词汇识别”到“建立命题”直至“建立各种层面的文本表征”，且各层级的切分框架与以往认知诊断研究的结果（Jang，2009；Li&Suen，

2014）也较为一致。因此，我们将这类模型作为本研究析出YCT（四级）所考查阅读子技能的基础模型。具体到YCT（四级）阅读测验来说，其涉及的文本均为一句或两句话，不考查语段和篇章，那么测验考查的阅读子技能也就不应包括语段及以上层面文本表征构建的能力（Khalifa&Weir，2009：34-61）。

基于以上考虑，研究提取了上述三个模型中建立文本模型之前所涉及的全部五种认知技能（具体为“词汇识别”“词义获取”“句法分析”“意义命题构建”和“推理”），作为YCT （四级）阅读测验的认知子技能的初始清单，并将其提交至专家组。

在对试题内容进行逐一考察后，专家组认为通过文献回顾法析出的子技能初始清单总体合理。不过，结合YCT（四级）具体情况，专家组提出，作为一项大型标准化测验，测验中并没有题目能够对“词汇识别”与“词义获取”这两种能力进行单独考查，建议将两子技能合并，统称为“词汇识别”。

通过以上步骤，研究确定了目标测验所考查的四个子技能，即：词汇识别、句法分析、语义命题构建和推理，见表1。

名称词汇识别句法分析语义命题构建推理

定义

识别书面文字和获取词义的

能力

对句子中词语及短语在语言

中组合或者共存方式的分析

基于词汇意义和语法信息构

建从句或者句子层面的语义

单元，是单一意义单元的抽

象表示

激活文本中没有明确提及的

信息的加工过程

操作性定义

识别书面形式的词汇，激活词汇的

正字法心理表征，激活相应的语义

与语法资源

不仅包括语序，还包括结构及虚词

标示从句或者句子的核心意义，是

对书面文字内容字面意义的解释，

不包含读者可能额外施加的解释或

联想

包括基于文本的推理和基于知识的

推理，在文本阅读从词汇到篇章的

各个层面都有可能发生，比如词汇

意义的推断、指代确认等。

来源

Perfetti（1999），

Grabe（2009），

Khalifa&Weir（2009）

Perfetti（1999），

Grabe（2009），

Khalifa&Weir（2009）

Perfetti（1999），

Grabe（2009），

Khalifa&Weir（2009）

表1：阅读子技能清单

刘慧，李亚男：基于认知诊断理论的国际中文阅读测验Q矩阵的构建

华文教学与研究

2023年第4期

4.2Q 矩阵的初步析出及优化

在确定子技能清单后，专家对每道题目所考查的子技能进行独立判断和标注。全部专家均标注完成后，

专家组对题目所考查的子技能逐题汇总、讨论。讨论过程中，若专家组在某道题目所考查的子技能上无法达成一致，采用专家出声思维法（Afflerbach &Johnston ，1984）对相应题目考查的子技能进

行讨论：请专家重新对相应题目进行作答，在作答过程中，作为成熟且可以去自动化的阅读者对自己的思考过程进行出声报告，然后依据五位专家出声思维报告的结果对该题目考查的子技能进行再次标注和分析。多轮讨论后，专家组对测验在认知子技能水平上的结构形成最终的意见，进而析出初始Q 矩阵（见表2）。

如前所述，R-RUM 模型可以识别基于测验内容分析得到的初始Q 矩阵中可能出现的误判，对其进行优化。进行优化时，主要考

查模型的两个题目参数π*和r *ik ，它们能够对

Q 矩阵为每道题目所指派每个子技能的合理性进行评估。

R-RUM 模型如公式（1）所示。

P (X ni =1|(αn ;π*,r *ik )=π*∏k =1

K r *

ik (1-αnk )×q ik （1）

其中P 是被试n 正确作答题目i 的概率；

αn =(αn 1,...αnk )代表被试n 对所有k 个子技能的

掌握状态，αnk =0/1表示该被试“未掌握/掌

握”相应子技能；π*是指被试在掌握某个题目所考查所有子技能的情况下正确作答题目的概率；r *

是指没有掌握题目i 所考查的子技能的被试在题目i 上的正确作答概率与掌握了子技能的被试在该题目上正确作答概率的比值，

定义为P ()Y nik =1|αik =0P ()Y nik =1|αik =1，0<r *

ik <1，其值越小，表

明题目i 越能将掌握子技能k 的被试和未掌握子技能k 的被试区分开来。

基于初始Q 矩阵，本研究估计了30个π*

和42个r *

ik 。一般认为，若π*i

值小于0.6，表

示Q 矩阵对题目所考查子技能的指派不充分，也就是对于Q 矩阵中指派给第i 道题目的子技能来说，这道题目过难，那么应给第i 道题目

指派更多或更难的子技能；若r *

ik 参数值大于

0.9，表示掌握子技能k 对于被试在题目i 上的

表现影响很小，意味着Q 矩阵对题目所考查子

技能的指派有冗余，应将Q 矩阵中相应的对应关系解除（Leighton &Gierl ，2007）。本研究初

始Q 矩阵估计结果显示，r *3_3、r *11_1、r *13_1、r *

15_1

和r *24_2共五个r *ik 参数值大于0.9，基于此，研

题号123456789

101112131415161718192021222324252627282930词汇识别111110001110101101111111111111

句法分析

000001010000000010100001100000

语义命题构建

001000000011111101010000000000

推理000000100100000000000010000000

表2：初始Q 矩阵72

基于认知诊断理论的国际中文阅读测验Q矩阵的构建

发布评论取消回复

最近发表

热门文章

标签列表