竞争模型下的学习解读：动态认知诊断的联合与逐步方法

arXiv cs.LG 2026/06/08 04:00 论文

摘要

本文比较了在竞争性认知诊断模型下估计学习的联合方法与逐步方法，使用了来自阅读游戏的数据。结果表明，方法的选择会改变关于学习者进展的结论，并且在项目-技能结构不确定时，联合分析更为可靠。

arXiv:2606.06804v1 公告类型：新摘要：数字学习环境记录学习者对单个项目的反应，使得研究特定技能的发展而非整体分数成为可能。从这些数据中得出关于学习的结论需要一个模型，该模型将反应与潜在技能联系起来，并追踪熟练程度随时间的变化。当每个项目测量的技能未知时，分析人员必须决定是联合估计这一结构（Q矩阵）与学习过程，还是先确定结构再进行学习研究。我们表明，这一决定会改变关于学习者如何发展的实质性结论。使用动态认知诊断模型，我们分析了来自两个阅读游戏的数据，这些游戏测量了从Grade 2到Grade 3的词汇和理解能力，其中项目文本嵌入为未知的Q矩阵提供了先验信息。联合分析和偏差校正的逐步分析一致认为大多数学习者趋向于掌握两种技能，但在关于有多少人在Grade 3时仍仅部分熟练的问题上存在分歧，从而改变了阅读进展的报告方式。一项模拟研究确定了两种分析何时出现分歧，并表明当项目-技能结构不确定且项目库在年级间变化时，联合分析更为可靠。我们提供了两种分析的R代码。

查看原文

查看缓存全文

缓存时间: 2026/06/08 09:18

# 竞争模型下的学习解释：动态认知诊断的联合与逐步方法  
来源：https://arxiv.org/html/2606.06804  

Yawen Ma  
School of Mathematical Sciences, Lancaster University, Lancaster, LA1 4YF, Lancashire, United Kingdom  

Kate Cain  
Department of Psychology, Lancaster University, Lancaster, LA1 4YF, Lancashire, United Kingdom  

Gabriel Wallin  
通讯作者。School of Mathematical Sciences, Lancaster University, Lancaster, LA1 4YF, United Kingdom。[email protected]  
School of Mathematical Sciences, Lancaster University, Lancaster, LA1 4YF, Lancashire, United Kingdom  

###### 摘要  

数字学习环境记录了学习者对单个题目的作答情况，使我们能够研究特定技能的发展，而非仅仅分析总分。要从这些数据中得出有关学习的结论，需要一个将作答与潜在技能联系起来，并追踪技能掌握程度随时间变化的模型。当每个题目测量的技能未知时，分析人员必须决定是联合估计这种结构（即Q矩阵）与学习过程，还是先确定这种结构再研究学习。我们表明，这一决定可能会改变关于学习者如何发展的实质性结论。利用动态认知诊断模型，我们分析了来自两项阅读游戏的数据，这些游戏测量从二年级到三年级的词汇和理解能力，其中题目文本嵌入为未知的Q矩阵提供了先验信息。联合分析和偏差校正的逐步分析都认为大多数学习者趋向于掌握两种技能，但在有多少人到了三年级仍仅部分熟练这一点上存在分歧，从而改变了阅读进展的报告方式。一项模拟研究确定了两种分析产生分歧的条件，并表明当题目-技能结构不确定且题目库在不同年级之间发生变化时，联合分析更为可靠。我们提供了两种分析的R代码。  

关键词：认知诊断模型；动态认知诊断；Q矩阵估计；贝叶斯推断；学习转换；自然语言处理  

## 1 引言  

一个单一的测试分数很难说明学习者掌握了哪些技能、尚未掌握哪些技能。学习涉及构成技能随时间发展的获得与协调，而总分无法揭示这一点。阅读就是一个很好的例子。熟练的阅读不仅依赖于准确和流利的词汇识别，还需要听力理解（larrc2015learning; gough1986decoding），而听力理解本身又基于词汇、句子处理以及散文中的观点识别（larrc2017pressure; oakhill2012precursors）。数字学习环境使我们能够在单个题目的层面上观察这些构成技能。当学习者与教育工具互动时，该工具会生成日志文件，不仅记录每个题目是否正确回答，还记录时间戳、操作、反应时间、重复尝试和提前退出行为。这些记录使研究人员能够超越汇总表现，研究学习者通过与测量工具的反复互动，其知识是如何发展的。  

这种丰富性带来了一个解释问题：这些记录应如何转化为关于潜在技能及其发展的陈述？由于学习者在进步过程中会被反复观察，数据描述的是一个随时间变化的掌握概况而非固定不变的概况，而如何描述这种变化取决于统计模型。该模型不仅决定估计精度，还塑造了对学什么、谁学、何时学等实质性问题的描述。  

认知诊断模型（CDMs）非常适合这项任务，因为它们将学习者按多个潜在属性的掌握或未掌握进行分类，而非将其置于单一尺度上（haertel1984application; junker2001cognitive; templin2010diagnostic）。CDMs的动态扩展允许掌握程度在不同时间点发生变化，因此适用于纵向数字数据（wang2018tracking; wang2020development; zhan2018cognitive; zhan2019using; liang2023latent）。然而，将其应用于真实数据时，需要做出几个决定：如何使用响应数据，如何指定或估计题目-属性结构（Q矩阵），如何纳入外部信息，以及学习转换是与测量模型联合估计还是分步进行。  

本文将最后一个决定视为一个实质性问题而非技术性问题。利用两项数字阅读游戏的数据，我们探究：是联合估计测量模型与学习过程，还是分步进行，将导致对学习者的掌握程度、掌握状态之间的转换以及与学习相关的变量得出不同结论。联合分析同时估计测量模型、Q矩阵、掌握轨迹和转换模型。偏差校正的逐步分析则先估计测量模型，然后根据由此得到的分类结果拟合转换模型，并对分类误差进行校正。我们发现，两种分析在学习的宏观方向上达成一致，但在将学习者自信地归为完全掌握还是部分掌握上存在差异，且当测量结构不确定时（如我们的数据），这种差异最大。由于这些游戏并非围绕预定义的题目-属性结构设计，每个题目测量的属性并非事先已知，Q矩阵必须进行估计。我们利用题目文本来指导这种估计：题目内容的句子嵌入为题目-属性结构提供了先验信息，响应数据随后可以对其进行修正。这种文本信息先验是认知诊断领域的最新补充，而非标准组成部分。ma2026nlp 将其引入联合估计的CDM中。据我们所知，将其实现于偏差校正的逐步程序中（如本文所做）此前并未有过，而这正是使比较公平的关键：联合分析和逐步分析使用了相同的题目文本、响应数据和协变量，因此两者之间的任何差异都反映了估计策略，而非每个模型可获得的信息。  

本文的其余部分组织如下。我们首先回顾了利用响应数据建模学习的方法，包括动态扩展和Q矩阵的作用，并描述了当Q矩阵未知时，题目文本如何为测量结构提供信息。然后，我们讨论了日志衍生的协变量和学习者特征如何支持解释，并阐述了联合策略和逐步策略。我们将该框架应用于阅读游戏数据，考察建模选择如何影响关于学习的结论，并通过模拟确定两种策略在何种条件下能恢复Q矩阵、掌握概况和转换参数。文章最后讨论了该方法的意义和局限性。  

### 1.1 利用响应数据建模学习过程  

响应数据长期以来一直是教育和心理测量的主要证据来源。在传统应用中，题目响应通常被汇总为总分，或使用项目反应理论建模以估计一般能力水平。当目标是定位学生在共同能力量表上的位置时，这类方法很有用，但关于学生已掌握或未掌握的具体技能，提供的信息有限。这种局限性在学习环境中尤为重要，因为目标不仅是评估表现，还要提供诊断信息以指导反馈、教学和干预。  

CDMs通过将观察到的响应与潜在属性掌握指标的向量联系起来，解决了这一问题（haertel1984application; junker2001cognitive; templin2010diagnostic）。CDMs不是用单一连续特质代表学生，而是将学生分类为描述其在多种技能上状态的掌握概况。这使得CDMs在教育应用中特别有用，因为教育中需要关于构成技能的可解释信息。对于阅读数据，这样的框架很有吸引力，因为阅读发展涉及多种相关但不同的技能，学生在解码、流利度、词汇和其他与理解相关的属性上可能表现出不同的掌握模式。  

当随时间重复收集数据时，静态CDMs是不够的，因为它们不直接建模掌握程度的变化。动态CDMs及相关纵向扩展允许潜在属性概况随时间演变，从而扩展了CDM框架（wang2018tracking; wang2020development; zhan2018cognitive; zhan2019using; zhan2020partial; liang2023latent）。这些模型提供了一种研究学习转换的方法，而不仅仅是横截面上的掌握状态。在数字学习环境中，这种动态视角至关重要，因为学生会反复与任务互动，并可能在观察期间习得技能。然而，对这种学习转换的解释取决于测量结构、可用的外部信息以及将观测响应与潜在掌握状态联系起来的估计策略。  

### 1.2 利用题目文本为测量提供信息  

CDMs的一个核心组成部分是Q矩阵，它指定了每个题目需要哪些潜在属性。Q矩阵决定了潜在属性的含义，并直接影响项目参数估计、掌握概况以及关于学生学习的结论。Q矩阵的错误设定可能导致对题目和学习者的推断产生偏差（rupp2008effects; chen2015statistical）。这个问题在动态CDMs中更为严重，因为测量结构的不确定性会影响对学习转换的解释。  

在许多真实的数字学习环境中，Q矩阵并非完全已知，不同的领域专家可能提供不一致的设定。因此，题目内容与潜在诊断属性之间的关系可能仍不确定。因此，越来越多的研究将Q矩阵视为推断对象而非固定输入。已经提出了贝叶斯和数据驱动的方法，利用响应数据来估计、验证或修订Q矩阵（chen2018bayesian; culpepper2016revisiting; gu2021sufficient; fang2019identifiability）。这些发展很重要，因为它们认识到测量结构本身在许多应用环境中是不确定的。  

同时，仅凭响应数据有时可能无法足够确定地识别题目-属性结构。这个问题在短评估、稀疏自适应轨迹或题目内容异质的环境中尤其可能出现。数字学习环境通常提供额外的信息，可以帮助减少这种不确定性。特别是，题目文本和选项包含了关于题目要求学生做什么的语义信息。自然语言处理的最新发展使得利用基于嵌入的方法来表示这类文本成为可能，这些方法能够捕捉单词、句子或题目组件之间的语义关系（vaswani2017attention; devlin2019bert; reimers2019sentencebert）。对于CDMs，文本衍生的信息不必直接决定Q矩阵。相反，文本衍生的信息作为结构化先验信息，允许题目内容为估计可能的题目-属性关系提供信息。  

在基于嵌入的方法中，Sentence-BERT（SBERT）特别适用于表示评估文本，因为它生成句子级别的嵌入，可以通过余弦相似度或欧几里得距离等相似度度量进行高效比较（reimers2019sentencebert）。SBERT扩展了BERT网络，以生成语义上有意义的向量表示，使得语义相似的文本在共享嵌入空间中彼此靠近。与标准BERT表示相比，SBERT在大规模语义相似度和聚类任务上显著提高了计算效率，同时在语义文本相似度基准测试中保持强劲表现（reimers2019sentencebert）。在教育评估的背景下，这些特性使SBERT特别适合量化题目和选项之间的语义关系。这种语义相似度可能提供关于题目复杂性和潜在属性需求的有用信息，然后可以将其纳入Q矩阵估计过程的先验结构中。最近的工作（ma2026nlp）使用了SBERT衍生的信息来构建Q矩阵估计的信息先验，并在另一个数据集上证明了其有效性。  

### 1.3 纳入外部信息以解释学习过程  

数字学习数据包含的不仅仅是题目响应。它们还可能包括日志摘要、反应时间、尝试次数、成功频率、提前退出行为、学习者人口统计信息以及先前的学业成就。这些信息源很有用，因为它们描述了二进制正确性未能完全捕捉的学习过程方面。例如，两名学生可能表现出相同的响应模式，但在花费时间、坚持性、尝试次数或先前的读写能力上存在显著差异。这些差异可能会影响学习轨迹的解释方式。  

本研究分析了日志文件，以了解学生在两项作为辅助数字阅读支持的游戏中学习的情况。此外，还进行了一项游戏外评估——基础早期读写技能动态指标（DIBELS）（universityoforegon2018dibels），以测量每位学生的初始读写能力。学生被分为四个表现水平：远低于基准、低于基准、达到基准、高于基准。这些类别用于在应用程序中将学生置于适当的起始水平。额外的分类协变量包括种族、特殊教育需求（SEN）、英语学习者身份（ELL）和性别。连续的基于日志的协变量包括平均尝试次数、正确回答的问题数和平均反应时间。连续和分类协变量的描述性统计分别总结在表2（https://arxiv.org/html/2606.06804#S3.T2）和表1（https://arxiv.org/html/2606.06804#S3.T1）中。  

纳入此类信息可以将潜在变化与学生及其学习环境的可观察特征联系起来，从而改善学习轨迹的实质性解释。然而，纳入外部信息也带来了方法论上的挑战。如果协变量测量存在误差、观测不均匀或与自适应题目选择过程密切相关，那么纳入它们可能会影响估计和解释。因此，外部信息不应仅仅被视为额外的预测因子，而应被视为解释框架的一部分。在应用教育环境中，研究人员通常不仅想知道学生是否学到了东西，还想知道学习发生在什么条件下，以及不同学生群体是否遵循不同的发展模式。动态CDMs提供了一种结构化的方法来处理这些问题，但结论取决于如何结合响应数据、题目信息和外部协变量。  

### 1.4 动态CDMs的联合策略与逐步策略  

最后一个建模决策涉及测量和结构

相似文章

DyCon: 通过演化难度建模的动态推理控制

arXiv cs.AI

本文介绍了DyCon，一种无需训练的框架，利用步骤级嵌入来建模演化的任务难度，并动态控制大型推理模型（LRMs）的推理深度，有效减少过度思考，在不牺牲准确性的情况下提高效率。

离线选择器为何无法胜过最佳单一模型：基于edX辍学预测的诊断性研究

arXiv cs.LG

本文提出了一个三阶段诊断框架，用于识别离线模型选择器为何无法胜过最佳单一模型，并将其应用于edX点击流数据上的辍学预测。研究发现瓶颈在于局部表征歧义，而非学习器选择或分布偏移，建议重新设计状态或收集新数据，而非进一步调优算法。

基于变换与语义等价的认知过程动力学框架

arXiv cs.AI

本文提出了一种基于迭代状态变换和语义等价的认知过程建模的结构动力学框架，融合了动力系统、范畴论和反馈机制，将认知建模为朝着稳定解释演化的过程。

通过逐步置信归因诊断黑盒大语言模型中的多步推理失败

arXiv cs.CL

提出逐步置信归因（SCA），一个无需内部访问即可为黑盒大语言模型的推理轨迹分配逐步置信度的框架，利用信息瓶颈原理区分合法变异性与错误。实验表明，SCA能可靠地识别低置信度步骤，并将自纠正成功率相比答案级别反馈提升高达13.5%。

基于模拟学习者的教育阅读自适应个性化评估