恢复知识追踪中被搁置的区分能力:基于经验贝叶斯收缩的逐项偏差校正
摘要
本文介绍了 SLC(状态空间逻辑校正),该方法通过卡尔曼平滑器进行经验贝叶斯收缩,纠正知识追踪模型中的逐项逻辑偏差,从而在 AUC 指标上优于全局校准技术。
arXiv:2606.14123v1 公告类型:新论文
摘要:部署后的知识追踪模型通常在训练后被冻结,但由于骨干架构中逐项表达能力有限以及部署后项目属性变化,会出现系统性的逐项逻辑偏差,降低预测质量。全局事后校准方法(如 Platt 缩放、温度缩放和保序回归)能改善概率估计,但不会改变 AUC 衡量的区分能力。这种 AUC 不变性是单调分数变换的结构性结果;恢复被搁置的区分能力需要以项目身份为条件。我们提出了 SLC(状态空间逻辑校正),该方法通过拉普拉斯/迭代重加权最小二乘法将二元观测转换为高斯伪观测,通过卡尔曼平滑器进行经验贝叶斯收缩,并拟合偏移 Platt 链接函数。状态空间形式还导出了一个可检测性边界,表征了伯努利信息下限,解释了为何在当前数据密度下时间跟踪无法带来收益。在四个数据集、五个骨干架构和三个随机种子的实验中,SLC 在所有四个数据集上提升了 AUC,在三个数据集上提升了负对数似然,优势集中在稀疏项目上。跨领域控制实验表明,当部署的骨干架构存在实体级偏差时,同一现象也可能发生在教育领域之外。
查看缓存全文
缓存时间: 2026/06/15 09:10
# 在知识追踪中恢复搁浅的判别能力:基于经验贝叶斯收缩的逐项目偏差修正
来源:https://arxiv.org/html/2606.14123
Xiaoran Yan, Cheng Tang, Atsushi Shimada
11institutetext:九州大学,福冈,日本
11email:xiaoran\.y@outlook\.com,11email:tang@limu\.ait\.kyushu\-u\.ac\.jp,
11email:atsushi@ait\.kyushu\-u\.ac\.jp###### 摘要
已部署的知识追踪模型在训练后通常被冻结,但系统性的逐项目逻辑值偏差依然会出现——原因包括骨干架构中有限的逐项目表达能力,以及部署后项目属性的变化[19](https://arxiv.org/html/2606.14123#bib.bib19),[20](https://arxiv.org/html/2606.14123#bib.bib20)——这降低了预测质量。全局事后校准器,如Platt缩放、温度缩放和保序回归,虽能改善概率估计,但保持判别能力(由AUC衡量)不变。这种AUC不变性是单调得分变换的结构性结果;恢复搁浅的判别能力需要以项目身份为条件。我们提出**SLC**(状态空间逻辑值修正),该方法通过拉普拉斯/迭代加权最小二乘法将二元观测转换为高斯伪观测,通过卡尔曼平滑器应用经验贝叶斯收缩,并拟合一个偏移Platt链接函数。状态空间公式还给出了一个可检测性界限,刻画了伯努利信息下限,解释了在当前数据密度下时间追踪为何无益。在四个数据集、五个骨干架构和三个随机种子上,**SLC**在所有四个数据集上改进了AUC,在三个数据集上改进了负对数似然,其优势集中在稀疏项目上。跨领域对照实验表明,当部署的骨干架构留下实体层面偏差时,同一现象在教育领域之外也可能出现。
## 1 引言
知识追踪(KT)模型[3](https://arxiv.org/html/2606.14123#bib.bib3)估计学生正确回答一个项目的概率;这些概率驱动自适应项目选择、掌握门控和早期预警系统。逐项目逻辑值偏差源于两个来源:有限逐项目表达能力的骨干架构产生结构性预测误差,而部署后项目属性的变化[19](https://arxiv.org/html/2606.14123#bib.bib19),[20](https://arxiv.org/html/2606.14123#bib.bib20)——难度变化、新项目、群体演化——进一步加剧了这些误差。
标准的应对方法是事后校准:Platt缩放[25](https://arxiv.org/html/2606.14123#bib.bib25)、温度缩放[13](https://arxiv.org/html/2606.14123#bib.bib13)或保序回归[35](https://arxiv.org/html/2606.14123#bib.bib35)。这些方法改善了概率估计,但模型的*判别*能力——其AUC——保持不变,因为全局的得分变换调整了预测的*尺度*,而非其*顺序*。我们做出了一个清晰的区分:**校准**调整概率尺度(AUC不变);**修正**恢复排序质量(AUC改善)。本文讨论修正。
图1(https://arxiv.org/html/2606.14123#S1.F1)以ASSISTments 2017(时间划分,5种骨干架构)为例进行了说明:原始AUC和经过Platt缩放的AUC在每个时间切片上都相同,然而逐项目残差修正(ResCal)恢复了+2.6个百分点的隐藏空间(Eedi:+3.5个百分点);**SLC**通过收缩进一步改进了此结果。
参照图1:ASSISTments 2017,时间划分,5种骨干架构平均。左图:原始骨干(Base)和Platt缩放(Platt)的AUC随时间变化——两条曲线完全相同,证实了全局校准的AUC不变性。右图:逐项目残差修正(ResCal)恢复了+2.6个百分点隐藏的AUC空间,全局校准由于结构性原因无法触及此空间。这种行为是结构性的:引理1(https://arxiv.org/html/2606.14123#Thmlemma1)表明,任何严格单调的、仅基于得分的变换都会保持排序,从而保持AUC;因此,恢复隐藏空间需要以项目身份为条件。我们提出**SLC**(状态空间逻辑值修正)¹¹代码:https://github.com/xiaoran-y/SLC,该方法将逐项目偏差建模为高斯随机效应[6](https://arxiv.org/html/2606.14123#bib.bib6),通过拉普拉斯/迭代加权最小二乘法将二元观测转换为高斯伪观测,并通过卡尔曼平滑器[4](https://arxiv.org/html/2606.14123#bib.bib4),[7](https://arxiv.org/html/2606.14123#bib.bib7)进行汇集。状态空间公式还给出了一个可检测性界限(命题2,https://arxiv.org/html/2606.14123#Thmproposition2),量化了时间追踪何时变得可行。修正后的预测形式为
\[
p = \sigma\!\big(a\,\eta_{0}+b_{0}+\hat{b}_{i}\big),
\tag{1}
\]
其中 \(\eta_{0} = \operatorname{logit}(p_{0})\) 是冻结骨干的逻辑值,\((a, b_{0})\) 是全局仿射参数。该框架扩展到时间追踪 \(\beta(i,t) = b_i + u_i(t)\),但命题2(https://arxiv.org/html/2606.14123#Thmproposition2)表明,在当前的KT数据密度下,最小可检测漂移远超观测到的时间变化。
我们的贡献如下:
1. **搁浅的判别能力**。我们在已部署的KT模型中识别出逐项目“搁浅”的AUC空间。单调得分变换的AUC不变性(引理1,https://arxiv.org/html/2606.14123#Thmlemma1)可作为诊断工具;一个五级基线梯度证实,在所有20个配置中,仅针对得分或仅针对时间的条件化都无法恢复此空间。
2. **逐项目收缩流水线**。我们提出**SLC**:拉普拉斯/迭代加权最小二乘伪观测、通过卡尔曼平滑器的经验贝叶斯收缩、以及一个偏移Platt链接函数。加性逐项目形式在理论上有动机(命题1,https://arxiv.org/html/2606.14123#Thmproposition1);可检测性界限(命题2,https://arxiv.org/html/2606.14123#Thmproposition2)解释了为什么在当前密度下时间追踪受限于信息,并预测了可行性阈值(约 \(10^5\) 观测/项目)。
3. **全面评估**。四个KT数据集、五种骨干架构、三个随机种子;密度分层分析、校准分数扫描、合成场景图、以及跨领域对照实验(包括一个非KT的航班延误实验)。
## 2 相关工作
### 2.1 知识追踪模型
DKT[24](https://arxiv.org/html/2606.14123#bib.bib24)应用循环网络;SAKT[23](https://arxiv.org/html/2606.14123#bib.bib23)和AKT[11](https://arxiv.org/html/2606.14123#bib.bib11)使用自注意力机制;DKVMN[36](https://arxiv.org/html/2606.14123#bib.bib36)增强了记忆网络;LPKT[26](https://arxiv.org/html/2606.14123#bib.bib26)显式建模学习过程。这些架构在逐项目表达能力上有所不同:DKT、SAKT和DKVMN在技能层面上操作,并在技能内共享项目表示,而AKT和LPKT包含逐项目参数。即使采用了逐项目建模,冻结的骨干在部署后仍会积累逐项目残差偏差。**SLC**是事后的且与骨干无关:它通过任意冻结模型输出的逻辑值修正此残差偏差,无需重新训练。
### 2.2 事后校准
事后校准调整预测概率以匹配观测频率。Platt缩放[25](https://arxiv.org/html/2606.14123#bib.bib25)、温度缩放[13](https://arxiv.org/html/2606.14123#bib.bib13)、保序回归[35](https://arxiv.org/html/2606.14123#bib.bib35)和直方图分箱[34](https://arxiv.org/html/2606.14123#bib.bib34)都是基于得分的变换;严格单调的变体会保持AUC不变(引理1,https://arxiv.org/html/2606.14123#Thmlemma1)。ECE不是恰当的评分规则[12](https://arxiv.org/html/2606.14123#bib.bib12);我们将负对数似然视为协同主要指标,将ECE视为诊断指标。
### 2.3 按组和按实例校准
一些工作以输入特征为条件进行校准,包括按类别[10](https://arxiv.org/html/2606.14123#bib.bib10)和参数化[28](https://arxiv.org/html/2606.14123#bib.bib28)的温度缩放、密度感知校准[29](https://arxiv.org/html/2606.14123#bib.bib29)以及字段感知校准器[22](https://arxiv.org/html/2606.14123#bib.bib22)。**SLC**在仅元数据模式下运行(项目ID+时间索引,无学习嵌入)。当类别数 \(K \gg 1\) 时的按类别缩放退化为无正则化的逐项目估计(我们的**Naive**基线);**SLC**增加了收缩。在静态极限下,**SLC**简化为具有逐项目截距的岭逻辑回归[2](https://arxiv.org/html/2606.14123#bib.bib2)。逻辑值调整[21](https://arxiv.org/html/2606.14123#bib.bib21)共享按类别偏移的想法,但目标是类别不平衡问题。
### 2.4 时间适应与状态空间模型
测试时自适应(例如,Tent[31](https://arxiv.org/html/2606.14123#bib.bib31))在线修改模型参数,而动态IRT模型[32](https://arxiv.org/html/2606.14123#bib.bib32),[17](https://arxiv.org/html/2606.14123#bib.bib17)联合重新估计能力和难度;两者都需要模型访问或完全重新估计。**SLC**则将骨干视为冻结,并采用为状态空间广义线性混合模型开发的拉普拉斯/迭代加权最小二乘+卡尔曼推断技术[4](https://arxiv.org/html/2606.14123#bib.bib4),[7](https://arxiv.org/html/2606.14123#bib.bib7),[2](https://arxiv.org/html/2606.14123#bib.bib2)]作为一种事后的逐项目修正算法,生成的收缩与James–Stein估计[6](https://arxiv.org/html/2606.14123#bib.bib6),[5](https://arxiv.org/html/2606.14123#bib.bib5)]相类似。
## 3 方法
### 3.1 问题设定
一个冻结的KT骨干对每个交互 \(x = (s, i, t)\)(学生 \(s\),项目 \(i\),时间索引 \(t\))生成逻辑值 \(\eta_{0}(x) = \operatorname{logit}(p_{0}(x))\)。数据按时间划分:训练 → 校准 → 测试(严格更晚),暴露了真正的漂移。事后修正仅使用校准窗口中的 \(\eta_{0}\)、标签 \(y \in \{0,1\}\)、项目ID和时间索引——不使用测试标签,不更新骨干参数。
### 3.2 仅借助得分的校准的AUC不变性
核心结构性观察是全局校准本质上无法改善AUC。这种不变性是一个经典事实[14](https://arxiv.org/html/2606.14123#bib.bib14),[8](https://arxiv.org/html/2606.14123#bib.bib8);我们重新表述是因为它作为搁浅空间的诊断依据:
###### 引理 1(AUC不变性)
令 \(s(x) \in \mathbb{R}\) 为一个标量得分,\(\phi: \mathbb{R} \to \mathbb{R}\) 严格递增。则 \(\operatorname{AUC}(\phi(s)) = \operatorname{AUC}(s)\)。
**证明**:AUC等于随机抽取的一个正例获得比随机抽取的一个负例更高得分的概率[14](https://arxiv.org/html/2606.14123#bib.bib14)。由于 \(\phi\) 严格递增,\(s(x_{+}) > s(x_{-})\) 当且仅当 \(\phi(s(x_{+})) > \phi(s(x_{-}))\)。所有成对排序保持不变,因此仅依赖于这些排序的AUC不变(亦见[8](https://arxiv.org/html/2606.14123#bib.bib8))。
Platt缩放(\(a > 0\))和温度缩放(\(T > 0\))满足严格单调性,因此恰好是AUC不变的。保序回归和直方图分箱是非递减但分段常数的,因此落在引理1之外,原则上可以通过平局改变AUC;在实践中,对于连续逻辑值,其影响可忽略。**Platt-T**(得分+时间,无项目ID)在我们的实验中仅稍微改变了AUC:没有项目身份,无法解决逐项目异质性。其含义是:*恢复AUC空间至少需要以项目身份为条件。*
### 3.3 逐项目修正形式
以下命题是一个标准的条件均值投影论证;我们提出它以固定修正的形式。
###### 命题 1
令 \(\eta^{*}(s,i,t)\) 表示对学生 \(s\)、项目 \(i\)、时间 \(t\) 的贝叶斯最优逻辑值,令 \(\eta_{0}(s,i,t)\) 为冻结骨干的逻辑值。定义项目特定偏差 \(\beta(i) = \mathbb{E}[\eta^{*} - \eta_{0} \mid i]\) 和残差
\[
\epsilon(s,i,t) = \eta^{*}(s,i,t) - \eta_{0}(s,i,t) - \beta(i),
\tag{2}
\]
从而由构造知 \(\mathbb{E}[\epsilon \mid i] = 0\)。则 \(\eta_{0}\) 的仅依赖于项目身份的MSE最优加性修正为
\[
\hat{\eta}(s,i,t) = \eta_{0}(s,i,t) + \beta(i).
\]
**证明**:在所有形如 \(\eta_{0} + f(i)\) 的修正中,MSE \(\mathbb{E}[(\eta^{*} - \eta_{0} - f(i))^{2}]\) 由 \(f(i) = \mathbb{E}[\eta^{*} - \eta_{0} \mid i] = \beta(i)\) 最小化。
由于 \(\beta(i)\) 被定义为条件均值,\(\mathbb{E}[\epsilon \mid i] = 0\) 由构造成立。逐项目修正能恢复多少AUC空间取决于 \(\mathrm{Var}(\beta(i))\),即骨干误差的项间分量,我们在第4节(https://arxiv.org/html/2606.14123#S4)中实证评估。
一个标准的1PL IRT项目难度漂移模型提供了一个理想化环境来验证修正形式。将条件化扩展到项目和时间的联合变量 \(\beta(i,t) = \mathbb{E}[\eta^{*} - \eta_{0} \mid i,t]\),残差完全消失:
###### 推论 1(1PL精确性)
令 \(Y \sim \operatorname{Ber}(\operatorname{\sigma}(\theta_{s} - b_{i}(t)))\),其中 \(b_{i}(t) = b_{i}^{\mathrm{train}} + \Delta_{i}(t)\),并且令冻结骨干产生 \(\eta_{0}(s,i) = \alpha(\theta_{s} - b_{i}^{\mathrm{train}}) + c_{0}\),其中 \(\alpha > 0\) 是骨干缩放因子,\(c_{0}\) 是偏移(不同于命题1中的残差项)。则贝叶斯最优逻辑值 \(\eta^{*} = \theta_{s} - b_{i}(t)\) 被偏移Platt加逐项目修正**精确恢复**:
\[
\eta^{*} = a\,\eta_{0} + b + \beta(i,t),\qquad a = 1/\alpha,\;\; b = -c_{0}/\alpha,\;\; \beta(i,t) = -\Delta_{i}(t).
\]
残差MSE为零。
**证明**:\(\eta^{*} = \theta_{s} - b_{i}^{\mathrm{train}} - \Delta_{i}(t) = \frac{\eta_{0} - c_{0}}{\alpha} - \Delta_{i}(t) = \frac{1}{\alpha}\,\eta_{0} - \frac{c_{0}}{\alpha} - \Delta_{i}(t) = a\,\eta_{0} + b + \beta(i,t)\).
在1PL漂移下,精确修正 \(\beta(i,t)\) 与学生无关且为加性(不被 \(a\) 缩放);静态的 \(\hat{b}_{i}\) 则对时间进行平均。合成实验(第4.5节,https://arxiv.org/html/2606.14123#S4.SS5)验证了超1PL假设的鲁棒性。
### 3.4 模型规范
我们将逐项目偏差形式化为广义线性混合模型(GLMM)中的一个高斯随机效应:
\[
y \sim \operatorname{Ber}\!\big(\operatorname{\sigma}(a\,\eta_{0} + b_{0} + b_{i})\big),\qquad b_{i} \sim \mathcal{N}(0,\sigma_{b}^{2}).
\tag{3}
\]
这里 \((a, b_{0})\) 吸收全局尺度/偏移失真,\(b_{i}\) 捕获逐项目逻辑值偏移,\(\mathcal{N}(0,\sigma_{b}^{2})\) 提供收缩。相似文章
可解释的推理轨迹,出人意料的结果:调查基于推理轨迹的知识蒸馏中的不匹配
本文研究了LLM中基于推理轨迹的知识蒸馏中的关键不匹配问题,揭示了语义正确的思维链推理轨迹与最终答案正确性没有可靠相关性,以及为优化模型性能而优化的推理轨迹往往对终端用户的可解释性最差。
LLM 无法认知自身知识局限:通过临床表格数据上的跨模型归因差异检测认知盲点
本文探讨了大语言模型在结构化临床数据上无法识别自身知识局限的问题,提出了一种跨模型归因差异方法来检测认知盲点。该方法结合少样本示例和 SHAP 衍生的特征证据,无需训练即可改进校准性和准确性。
MBP-KT:通过学习来自元行为模式的全球协同信息以增强知识追踪
本文介绍了 MBP-KT,这是一个增强型知识追踪框架。该框架利用元行为模式从学习者交互中提取全球协同信息,从而提升各种下游模型的性能。
利用记忆引导的数据集去偏方法缓解虚假相关性
本文提出一种通过两阶段样本评分函数分离核心特征与虚假特征学习动态的方法,仅需10%的训练数据即可实现最先进的去偏性能。
偏离时回溯:缓解大语言模型推理蒸馏中的双重暴露偏差
本文介绍了一种名为Motab的新型大语言模型推理蒸馏流水线,通过动态监控学生生成并在偏离时回溯到安全状态并借助教师干预,同时缓解离策略和在线策略暴露偏差,取得了约3%的平均性能提升。