确定性的幻觉:解耦策略蒸馏中的能力与校准
摘要
本文发现语言模型中的策略蒸馏(OPD)因训练与部署信息不匹配导致严重过度自信,提出校准感知框架 CaOPD,在提升性能的同时显著增强置信度可靠性。
查看缓存全文
缓存时间: 2026/04/21 19:46
论文页面 - 幻觉的确定性:在 On-Policy Distillation 中解耦能力与校准
来源:https://huggingface.co/papers/2604.16830
摘要
On-policy distillation 由于训练与部署场景的信息失配导致校准失效;我们提出基于校准感知的框架,在提升性能的同时增强置信度可靠性。
On-policy distillation(https://huggingface.co/papers?q=On-policy%20distillation,OPD)正成为语言模型后训练的重要范式。然而,我们发现一条普遍的Scaling Law(https://huggingface.co/papers?q=Scaling%20Law)式Miscalibration(https://huggingface.co/papers?q=Miscalibration):OPD 虽能有效提升任务准确率,却系统性地让模型陷入严重过度自信。我们追溯其根源为信息失配(https://huggingface.co/papers?q=information%20mismatch):教师监督在训练时依赖特权上下文(https://huggingface.co/papers?q=privileged%20context),而部署阶段模型只能基于部署时可见信息报告置信度。我们理论上形式化这一视角,证明以教师条件化的成功并非部署时置信度的有效目标,且有益的特权上下文会导致熵坍缩(https://huggingface.co/papers?q=entropy%20collapse)与系统性乐观偏差(https://huggingface.co/papers?q=optimism%20bias)。为此,我们提出基于校准感知的 OPD 框架 CaOPD:通过模型 rollout 估计经验置信度,用学生自洽的目标替换自报置信度,并在同一自蒸馏(https://huggingface.co/papers?q=self-distillation)流程中蒸馏修正后的回复。跨模型、跨领域实验显示,CaOPD 在保持竞争力的能力同时实现帕累托最优校准,并对分布外与持续学习(https://huggingface.co/papers?q=continual%20learning)场景稳健泛化。我们的发现强调:能力蒸馏并不隐含置信度校准,置信度应被视为后训练的核心目标之一。代码:https://github.com/SalesforceAIResearch/CaOPD
查看 arXiv 页面(https://arxiv.org/abs/2604.16830)
查看 PDF(https://arxiv.org/pdf/2604.16830)
项目页面(https://github.com/SalesforceAIResearch/CaOPD)
GitHub(https://github.com/SalesforceAIResearch/CaOPD)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.16830)
在智能体中获取该论文:
hf papers read 2604.16830
尚未安装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash
引用该论文的模型 0
暂无模型链接该论文
在模型 README.md 中引用 arxiv.org/abs/2604.16830 即可在此显示。
引用该论文的数据集 0
暂无数据集链接该论文
在数据集 README.md 中引用 arxiv.org/abs/2604.16830 即可在此显示。
引用该论文的 Spaces 0
暂无 Space 链接该论文
在 Space README.md 中引用 arxiv.org/abs/2604.16830 即可在此显示。
收录该论文的合集 0
暂无合集收录该论文
将该论文添加到合集即可在此显示。
相似文章
学会预见:揭示 On-Policy 蒸馏效率的解锁机制
本文研究了大型语言模型中 On-Policy 蒸馏(OPD)效率背后的参数级机制,将其归因于模块分配和更新方向上的早期“预见性”。本文提出了 EffOPD,一种即插即用方法,可在不损害最终性能的情况下将 OPD 训练速度提高 3 倍。
在线策略蒸馏的多重面貌:陷阱、机制与解决方案
本文对大语言模型的在线策略蒸馏进行了全面的实证研究,识别了分布不匹配和优化不稳定等故障机制,并提出了诸如停止梯度目标和针对 RLVR 改进的教师模型等解决方案。
论同策略蒸馏的几何结构
本文刻画了大语言模型中同策略蒸馏(OPD)独特的参数空间动力学,表明其具有松弛的非主方向更新和子空间锁定特性,从而与监督微调和基于可验证奖励的强化学习区分开来。
揭秘同策略蒸馏:其益处、危害及原因
本文介绍了一种无需训练的框架,用于分析推理模型在逐token级别上的蒸馏信号。研究揭示,蒸馏引导在错误推理路径上更为有效,且其效果取决于学生模型的能力及任务上下文。
PowerOPD: 使用有界幂变换稳定在线策略蒸馏
PowerOPD 引入了一种有界幂变换来稳定大型语言模型的在线策略蒸馏,在降低计算成本的同时,实现了准确性和样本效率的显著提升。