确定性的幻觉:解耦策略蒸馏中的能力与校准
摘要
本文发现语言模型中的策略蒸馏(OPD)因训练与部署信息不匹配导致严重过度自信,提出校准感知框架 CaOPD,在提升性能的同时显著增强置信度可靠性。
查看缓存全文
缓存时间: 2026/04/21 19:46
论文页面 - 幻觉的确定性:在 On-Policy Distillation 中解耦能力与校准
来源:https://huggingface.co/papers/2604.16830
摘要
On-policy distillation 由于训练与部署场景的信息失配导致校准失效;我们提出基于校准感知的框架,在提升性能的同时增强置信度可靠性。
On-policy distillation(https://huggingface.co/papers?q=On-policy%20distillation,OPD)正成为语言模型后训练的重要范式。然而,我们发现一条普遍的Scaling Law(https://huggingface.co/papers?q=Scaling%20Law)式Miscalibration(https://huggingface.co/papers?q=Miscalibration):OPD 虽能有效提升任务准确率,却系统性地让模型陷入严重过度自信。我们追溯其根源为信息失配(https://huggingface.co/papers?q=information%20mismatch):教师监督在训练时依赖特权上下文(https://huggingface.co/papers?q=privileged%20context),而部署阶段模型只能基于部署时可见信息报告置信度。我们理论上形式化这一视角,证明以教师条件化的成功并非部署时置信度的有效目标,且有益的特权上下文会导致熵坍缩(https://huggingface.co/papers?q=entropy%20collapse)与系统性乐观偏差(https://huggingface.co/papers?q=optimism%20bias)。为此,我们提出基于校准感知的 OPD 框架 CaOPD:通过模型 rollout 估计经验置信度,用学生自洽的目标替换自报置信度,并在同一自蒸馏(https://huggingface.co/papers?q=self-distillation)流程中蒸馏修正后的回复。跨模型、跨领域实验显示,CaOPD 在保持竞争力的能力同时实现帕累托最优校准,并对分布外与持续学习(https://huggingface.co/papers?q=continual%20learning)场景稳健泛化。我们的发现强调:能力蒸馏并不隐含置信度校准,置信度应被视为后训练的核心目标之一。代码:https://github.com/SalesforceAIResearch/CaOPD
查看 arXiv 页面(https://arxiv.org/abs/2604.16830)
查看 PDF(https://arxiv.org/pdf/2604.16830)
项目页面(https://github.com/SalesforceAIResearch/CaOPD)
GitHub(https://github.com/SalesforceAIResearch/CaOPD)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.16830)
在智能体中获取该论文:
hf papers read 2604.16830
尚未安装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash
引用该论文的模型 0
暂无模型链接该论文
在模型 README.md 中引用 arxiv.org/abs/2604.16830 即可在此显示。
引用该论文的数据集 0
暂无数据集链接该论文
在数据集 README.md 中引用 arxiv.org/abs/2604.16830 即可在此显示。
引用该论文的 Spaces 0
暂无 Space 链接该论文
在 Space README.md 中引用 arxiv.org/abs/2604.16830 即可在此显示。
收录该论文的合集 0
暂无合集收录该论文
将该论文添加到合集即可在此显示。
相似文章
D-OPSD:面向连续微调步骤蒸馏扩散模型的在线策略自蒸馏
本文介绍了 D-OPSD,一种用于步骤蒸馏扩散模型的新型训练范式,能够在监督微调过程中实现在线策略自蒸馏。该方法使模型能够在不损害其高效少步推理能力的前提下,学习新概念或新风格。
使用分布对齐对抗性蒸馏估计黑盒LLM的不确定性
本文提出了一种分布对齐对抗性蒸馏(DisAAD)方法,该方法使用一个轻量级代理模型,仅以原始模型1%的规模来估计黑盒大语言模型的不确定性,实现了无需内部参数或多次采样的可靠量化。
混合策略蒸馏(HPD):面向大模型的统一知识蒸馏
提出混合策略蒸馏(HPD),一种统一的知识蒸馏方法,平衡前向与反向 KL 散度,结合离线数据与轻量级在线采样,在数学推理、对话与代码任务上全面提升大模型压缩效果。
自蒸馏作为大语言模型的性能恢复机制:对抗压缩和灾难性遗忘
本文介绍了自蒸馏微调(SDFT)作为大语言模型性能恢复机制,用于解决灾难性遗忘、量化和剪枝导致的性能下降问题。作者利用中心核对齐(CKA)提供了理论证明,表明自蒸馏能够使学生模型的高维流形与教师模型的最优结构对齐,从而有效恢复丧失的能力。
言过其实:量化大语言模型认知-修辞失准的框架
提出一套量化框架,揭示 LLM 如何借修辞手段夸大确定性,并发现跨模型的认知-修辞失准共性。