离线选择器为何无法胜过最佳单一模型：基于edX辍学预测的诊断性研究

arXiv cs.LG 2026/06/04 04:00 论文

摘要

本文提出了一个三阶段诊断框架，用于识别离线模型选择器为何无法胜过最佳单一模型，并将其应用于edX点击流数据上的辍学预测。研究发现瓶颈在于局部表征歧义，而非学习器选择或分布偏移，建议重新设计状态或收集新数据，而非进一步调优算法。

arXiv:2606.04161v1 公告类型：新摘要：不同的预测器通常在不同输入上表现优异，因此为每个实例选择最佳预测器有望比使用单一模型获得更高的准确率。然而在实践中，从日志数据训练出的选择器往往无法超越最强的单一预测器。在进一步调优之前，通常有三种原因未被区分：学习器不匹配、状态无法预测哪个模型获胜，或缓冲区到部署的标签偏移。一个三阶段诊断在共享缓冲区上排除这些原因。阶段1根据$k$-NN标签一致性估计oracle恢复的局部上限。阶段2询问配对的行为克隆(BC)和离线强化学习(BC, DQN以及不同惩罚权重下的CQL)是否达到该上限。阶段3消融选择器状态，以测试更丰富的特征能否提高上限。综合结论指向最 promising 的下一步：调优学习器、重新设计状态或收集新数据。我们将该方法应用于从edX点击流数据中选择五个辍学预测模型。在16个时间窗口上，oracle平均比最强单一基模型高出9.7个准确率点，然而BC、DQN和CQL都落在其下的同一测试准确率带内（对十倍缓冲区扫描和$N=2,000$个留出样本鲁棒）。瓶颈是局部表征歧义：CQL缩小了模仿差距但未带来部署增益（并非保守性），遗憾值在学习器间紧密聚集（并非打破平局），三个学习器在测试准确率上收敛（并非偏移）。下一步迭代应改变状态或收集新数据，而非进一步调优离线学习器。

查看原文

查看缓存全文

缓存时间: 2026/06/05 02:21

# 当离线选择器无法超越最佳单一模型：edX辍学预测的诊断研究
来源：https://arxiv.org/html/2606.04161
Alan Nadelsticher Ruvalcaba、Dustin Khang LeDuc、Thomas Trask、Nicholas Lytle、David Joyner

###### 摘要

不同的预测器通常在不同的输入上表现出色，因此为每个实例选择最佳预测器有望比固守单一模型获得更高的准确性。在实践中，基于日志数据训练的选择器往往无法超越最强的单一预测器。在进一步调优之前，通常有三个原因未被区分：不匹配的学习器、无法预测哪个模型获胜的状态，或从缓冲区到部署的标签偏移。

一个三阶段诊断方法可以在共享缓冲区上排除这些原因。阶段 1 通过 \(k\)-近邻标签一致性估计从 oracle 恢复的局部上限。阶段 2 考察配对的行为克隆 (BC) 和离线强化学习 (RL) 学习器（BC、DQN 和不同惩罚权重下的 CQL）是否达到该上限。阶段 3 消融选择器状态，以测试更丰富的特征是否会提高该上限。综合结论指出最有可能的下一步：调优学习器、重新设计状态或收集新数据。

我们将其应用于在 edX 点击流数据上选择五个辍学预测模型。在 16 个时间窗口上，oracle 平均比最强的单一基础模型高出 9.7 个准确率百分点，但 BC、DQN 和 CQL 均落在低于它的同一测试准确率区间内（对十倍的缓冲区扫描和 \(N=2{,}000\) 个保留样本具有鲁棒性）。瓶颈是局部表示模糊性：CQL 缩小了模仿差距但未带来部署增益（非保守性），遗憾值在学习器间紧密聚集（非平局打破），并且三个学习器在测试准确率上收敛（非偏移）。下一次迭代应改变状态或收集新数据，而非进一步调优离线学习器。

离线强化学习、元学习、模型选择、分布偏移、诊断分析、教育数据挖掘

## 1 引言

基于离线数据集的决策在在线交互成本高、速度慢或受伦理约束的应用中日益重要，包括科学发现、工程设计、医疗和教育等 (Levine 等, 2020 (https://arxiv.org/html/2606.04161#bib.bib1))。数据形式多样（记录演示、过往轨迹、记录交互）。一个常见的特例是基于基础模型池的元学习，其中策略为每个实例选择最佳基础模型，而非固守单一预测器 (Rice, 1976 (https://arxiv.org/html/2606.04161#bib.bib2); Cruz 等, 2018 (https://arxiv.org/html/2606.04161#bib.bib3), 2015 (https://arxiv.org/html/2606.04161#bib.bib5))。这种设置很有吸引力，因为单个基础模型可能表现出依赖上下文的性能，并且先前的教育预测研究通常会在点击流和虚拟学习环境数据上比较几种合理的模型类别 (Liu 等, 2023 (https://arxiv.org/html/2606.04161#bib.bib6); Taylor 等, 2014 (https://arxiv.org/html/2606.04161#bib.bib7); Casado Hidalgo 等, 2022 (https://arxiv.org/html/2606.04161#bib.bib15))。在实践中，离线元学习通常表现不如强大的静态基线，其原因不透明。弱点可能是*算法性的*（离线 RL 的保守性 (Kumar 等, 2020 (https://arxiv.org/html/2606.04161#bib.bib8)) 或奖励规格错误）、*表示性的*（状态不包含预测哪个模型获胜所需的信息），或*分布性的*（离线可用的 oracle 标签分布与评估时诱导的分布不同）。现有评估很少区分这些原因。因此，实践者调优无法修复表示失败的算法，工程化添加零边际信号的特征，或将失败归因于偏移而不加以量化。

我们通过共享缓冲区上的三个诊断 (图 1 (https://arxiv.org/html/2606.04161#S1.F1)) 依次排除这三个假设。**阶段 1** 测量局部标签一致性。\(k\)-近邻一致性量化了缓冲区中附近状态共享相同 oracle 动作的频率，而一个保留的 \(10\)-NN 选择器校准了这种局部模糊性如何转化为测试时的模仿误差。**阶段 2** 将算法性失败与表示性失败分离。我们在同一缓冲区上训练一个使用硬标签交叉熵的监督行为克隆策略和一个离线 Deep Q-Network (Mnih 等, 2013 (https://arxiv.org/html/2606.04161#bib.bib9))。如果两者以相似的幅度失败，则瓶颈更可能共享，指向表示或分布而非算法选择。**阶段 3** 隔离特征的边际价值。状态消融测试完整的行为状态是否比基础模型概率向量更有优势，以及从该向量派生的不一致性变换是否能进一步增加价值。

三个阶段相互约束。阶段 1 的局部一致性上限使得阶段 2 的学习器一致性差距具有可解释性：学习器收敛于接近低上限表明表示问题，而学习器在高于上限的分开表明算法问题。阶段 3 随后测试可达特征是否能提高该上限。在共享缓冲区上一同运行，这三个检查确定了下一步最关键的是哪种干预——更多调优、更丰富的特征还是上游数据收集。每个单独诊断（\(k\)-NN 一致性、配对的 BC/RL 消融、特征消融以及缓冲区到测试的总变差偏移）在先前工作中都有先例 (Cruz 等, 2018 (https://arxiv.org/html/2606.04161#bib.bib3); Ko 等, 2008 (https://arxiv.org/html/2606.04161#bib.bib4); Kumar 等, 2020 (https://arxiv.org/html/2606.04161#bib.bib8))；我们的贡献在于它们所实现的联合解读。

![图 1 标题](https://arxiv.org/html/2606.04161/x1.png)
图 1：离线模型选择的三阶段诊断协议。首先使用同一离线缓冲区测量局部 oracle 一致性，然后比较 BC、离线 DQN 和三种惩罚权重下的 CQL 的算法特定和共享失败模式，最后消融选择器状态以测试额外特征组是否在基础模型概率之外提供边际价值。
我们将该协议应用于一个具体的离线决策任务：在 edX 点击流数据上为 MOOC 和非在校计算机科学学生选择五个静态辍学预测模型。该任务结合了丰富的观测数据（223,505 个学生-课程对的 84.5M 事件）和受伦理约束的在线实验，因为任何选定的模型最终都会触发人为干预。在 16 个观测/预测窗口配置中，每个实例的 oracle 平均比最强的单一基础模型高出 9.7 个准确率百分点（范围 4.5–15.5），但没有学习过的选择器能在保留准确率上恢复该领先优势。在主要的 \((14\text{d},14\text{d})\) 配置上，每个学习器都落在 \(\pm 0.01\) 的 0.748 测试准确率附近，低于 0.762 的静态参考值，而局部一致性诊断仅为 \(0.388 \pm 0.010\) (表 1 (https://arxiv.org/html/2606.04161#S6.T1))。状态消融显示，仅使用概率的 BC 几乎与完整状态相当，并且不一致性衍生变换并未实质性地改善它。缓冲区到测试的偏移在总体上很小（边际 \(d_{\mathrm{TV}} = 0.063 \pm 0.011\)），但在局部上显著（在主配置上 \(\mathbb{E}_s[d_{\mathrm{TV}}] \approx 0.29\)）。该过程将不透明的负面结果转化为关于下一次迭代应针对学习器、特征还是数据收集管道的判断。我们的贡献是：

- • C1. 一个组合诊断程序，由成熟检查组成（\(k\)-NN 一致性、配对的 BC/RL 消融、状态消融以及边际/条件 \(d_{\mathrm{TV}}\)），用于在进一步离线调优或在线适应之前判断离线数据是否足够。我们在一个单任务案例研究中应用它；其是否泛化到其他设置留待未来工作。
- • C2. 一个在 edX 点击流数据上选择五个预训练辍学预测模型的实证案例研究。在 BC、离线 DQN 和三种惩罚权重下的 CQL 中，尽管每个实例的 oracle 差距有 9.7 个百分点，但没有学习过的选择器能在保留准确率上超越最强的单一基础模型。机制检查排除了三个候选原因：算法保守性（CQL 缩小了模仿差距但未带来部署增益）、硬标签平局打破（遗憾值在 BC/DQN/CQL 中聚集于 \([0.089, 0.101]\) 区间，而 oracle 一致性在 0.36 到 0.52 之间分布）以及缓冲区到测试的边际偏移。与诊断读数一致的剩余候选原因是局部标签模糊性。同一概率向量的更丰富离线编码（不一致性衍生变换和完整的 38 维状态）并未比单独的 5 维概率子空间在部署准确率上有可测量的改进，并且结果对训练缓冲区大小不敏感。

共享失败模式在其他结合预训练预测器的离线元学习设置中也可能出现，包括药物反应预测、内容推荐和离线超参数选择。该诊断程序是否迁移到这些设置是一个有待验证的开放问题。

## 2 相关工作

本文处于离线决策、动态模型选择和教育结果预测的交叉点。离线 RL (Levine 等, 2020 (https://arxiv.org/html/2606.04161#bib.bib1)) 必须应对数据分布与部署时所需策略之间的支持不匹配问题，而教育领域的上下文赌博机与离线策略评估提供了密切相关的决策框架 (Lan and Baraniuk, 2016 (https://arxiv.org/html/2606.04161#bib.bib19); Mandel 等, 2014 (https://arxiv.org/html/2606.04161#bib.bib20))。保守或行为约束方法，如 CQL、IQL、BCQ、BRAC 和 BEAR (Kumar 等, 2020 (https://arxiv.org/html/2606.04161#bib.bib8); Kostrikov 等, 2021 (https://arxiv.org/html/2606.04161#bib.bib10); Fujimoto 等, 2019 (https://arxiv.org/html/2606.04161#bib.bib11); Wu 等, 2019 (https://arxiv.org/html/2606.04161#bib.bib13); Kumar 等, 2019 (https://arxiv.org/html/2606.04161#bib.bib12))，旨在减少由分布偏移、外推误差或分布外动作评估导致的离线 RL 失败，但它们本身并不能解决从可用状态确定哪个动作最优的模糊性问题。因此，我们的贡献是诊断性的。我们量化了离线状态和标签构造何时过于模糊，以至于我们评估的选择器（在共享缓冲区上的配对 BC/离线-DQN/CQL 家族）无法恢复 oracle 领先优势，并识别出这是单独靠保守性无法解决的失败模式。

每个实例的选择问题可追溯到算法选择 (Rice, 1976 (https://arxiv.org/html/2606.04161#bib.bib2)) 和动态分类器选择 (Cruz 等, 2018 (https://arxiv.org/html/2606.04161#bib.bib3); Ko 等, 2008 (https://arxiv.org/html/2606.04161#bib.bib4); Cruz 等, 2015 (https://arxiv.org/html/2606.04161#bib.bib5))，其中不同模型在特征空间的不同区域占优。在教育领域，相关工作涵盖基于点击流的 MOOC 辍学预测 (Dalipi 等, 2018 (https://arxiv.org/html/2606.04161#bib.bib16); Dass 等, 2021 (https://arxiv.org/html/2606.04161#bib.bib23); Taylor 等, 2014 (https://arxiv.org/html/2606.04161#bib.bib7); Xing 等, 2016 (https://arxiv.org/html/2606.04161#bib.bib25))、结合模型组合的电子学习辍学预测 (Lykourentzou 等, 2009 (https://arxiv.org/html/2606.04161#bib.bib27))、基于行政数据和 LMS 数据的高等教育辍学预测 (Goren 等, 2024 (https://arxiv.org/html/2606.04161#bib.bib17))，以及用于学生表现预测的元学习 (Casado Hidalgo 等, 2022 (https://arxiv.org/html/2606.04161#bib.bib15))。我们基于这一观察，但侧重于诊断为何离线自适应选择即使在存在 oracle 领先优势时也会失败。我们程序中的每个诊断都有先例。\(k\)-NN 标签一致性与动态分类器选择中使用的邻域纯度指标密切相关 (Cruz 等, 2018 (https://arxiv.org/html/2606.04161#bib.bib3); Ko 等, 2008 (https://arxiv.org/html/2606.04161#bib.bib4))，配对的 BC 与离线 RL 消融是常规的离线 RL 诊断模式，而特征消融是标准 ML 实践。我们的贡献在于将该组合经验应用到这个任务上，包括针对 CQL 的保守性检查 (Kumar 等, 2020 (https://arxiv.org/html/2606.04161#bib.bib8)) 以及条件的缓冲区到测试偏移估计。该设置更接近从事后 oracle 标记缓冲区进行算法选择，而非具有历史动作倾向的完整日志式赌博机基准 (Dudík 等, 2011 (https://arxiv.org/html/2606.04161#bib.bib21); Swaminathan and Joachims, 2015 (https://arxiv.org/html/2606.04161#bib.bib22))。¹¹ 因此，我们将离线 RL 视为多个比较家族之一，而非唯一的框架。

本文还对评估协议做出了贡献。离线学习基准通常报告最终策略质量，而不先量化数据集是否包含可操作的 oracle 领先优势、简单的局部预测器是否能恢复相关的动作标签、或者分布偏移是否大到足以主导结果。本协议将这些隐藏的假设转化为显式测量。

## 3 问题形式化

我们将动态模型选择形式化为一个上下文赌博机问题。Oracle 标签分布是通过缓冲区构造显式诱导的。这种形式化足以应对本文研究的一步决策问题，并允许我们在后续协议中将算法性失败与分布性失败分离开来。

##### 决策任务。

给定一个由预训练基础分类器组成的池子 \(\mathcal{M} = \{m_1, \dots, m_K\}\)。此处 \(K=5\)（逻辑回归、随机森林、梯度提升、校准随机森林和堆叠集成）。对于每个学生-课程对，将 14 天的观测窗口总结为状态 \(s \in \mathcal{S} \subseteq \mathbb{R}^d\)，任务是为该样本选择单个模型 \(a \in \mathcal{A} = \{1, \dots, K\}\)，并在部署中使用其预测。

##### 状态与奖励。

状态向量串联了 28 个工程化行为特征（数量、一致性、时间模式、趋势；见第 5 节 (https://arxiv.org/html/2606.04161#S5)）、一个二元模态标记、该样本上基础模型辍学概率的 \(K\) 维向量、它们的均值以及基于该均值的 3 路 one-hot 分箱，从而得到主要实验中使用的 38 维状态。部署指标是所选模型在 14 天预测标签上的零一正确性：\(R_{\mathrm{eval}}(s,a) = \mathbb{I}[m_a(s) \text{ 预测为真实标签}]\)。正文中的离线 DQN 使用缓冲区上的规范 oracle 匹配奖励 \(R(s,a) = R_{\mathrm{eval}}(s,a)\) 进行训练。早期草稿中使用的对数概率塑形变体作为敏感性行保留在附录 C (https://arxiv.org/html/2606.04161#A3) 中。全文范围内，*oracle 一致性* 是针对单个 argmax 动作的标签模仿诊断，*测试准确率* 是面向部署的指标，而*遗憾值*（第 6.4 节 h

离线选择器为何无法胜过最佳单一模型：基于edX辍学预测的诊断性研究

相似文章

超越惩罚机制：基于扩散模型的离线强化学习分布外检测与选择性正则化

面向大型语言模型的分布校正离线数据蒸馏

自适应数据选择改善低基线性能下的可穿戴预测

竞争模型下的学习解读：动态认知诊断的联合与逐步方法

LLM微调中数据选择的长期影响

提交意见反馈