确定性的幻觉：解耦策略蒸馏中的能力与校准

Hugging Face Daily Papers 2026/04/18 00:00 论文

摘要

本文发现语言模型中的策略蒸馏（OPD）因训练与部署信息不匹配导致严重过度自信，提出校准感知框架 CaOPD，在提升性能的同时显著增强置信度可靠性。

策略蒸馏（OPD）正成为大模型后训练的重要范式。然而我们发现一种普遍的“误标定缩放律”：OPD 虽能提升任务准确率，却系统性地使模型陷入严重过度自信。根源在于信息失配：教师监督在训练阶段享有特权上下文，而部署模型只能基于部署时可得信息报告置信度。我们从理论上形式化该视角，证明以教师条件化成功率为目标无法有效指导部署时置信度，且有益的特权上下文会引发熵坍缩与系统性乐观偏差。为此，我们提出校准感知 OPD 框架 CaOPD：通过模型 rollout 估计经验置信度，用该学生端真实目标替换自报告置信度，并在同一自蒸馏流程中蒸馏修正后的响应。跨模型、跨领域实验表明，CaOPD 在保持竞争力的同时实现帕累托最优校准，并对分布外及持续学习场景稳健泛化。研究强调，能力蒸馏并不保证置信度校准，置信度应被视为后训练的核心目标之一。代码：https://github.com/SalesforceAIResearch/CaOPD

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/21 19:46

论文页面 - 幻觉的确定性：在 On-Policy Distillation 中解耦能力与校准

来源：https://huggingface.co/papers/2604.16830

摘要

On-policy distillation 由于训练与部署场景的信息失配导致校准失效；我们提出基于校准感知的框架，在提升性能的同时增强置信度可靠性。

On-policy distillation（https://huggingface.co/papers?q=On-policy%20distillation，OPD）正成为语言模型后训练的重要范式。然而，我们发现一条普遍的Scaling Law（https://huggingface.co/papers?q=Scaling%20Law）式Miscalibration（https://huggingface.co/papers?q=Miscalibration）：OPD 虽能有效提升任务准确率，却系统性地让模型陷入严重过度自信。我们追溯其根源为信息失配（https://huggingface.co/papers?q=information%20mismatch）：教师监督在训练时依赖特权上下文（https://huggingface.co/papers?q=privileged%20context），而部署阶段模型只能基于部署时可见信息报告置信度。我们理论上形式化这一视角，证明以教师条件化的成功并非部署时置信度的有效目标，且有益的特权上下文会导致熵坍缩（https://huggingface.co/papers?q=entropy%20collapse）与系统性乐观偏差（https://huggingface.co/papers?q=optimism%20bias）。为此，我们提出基于校准感知的 OPD 框架 CaOPD：通过模型 rollout 估计经验置信度，用学生自洽的目标替换自报置信度，并在同一自蒸馏（https://huggingface.co/papers?q=self-distillation）流程中蒸馏修正后的回复。跨模型、跨领域实验显示，CaOPD 在保持竞争力的能力同时实现帕累托最优校准，并对分布外与持续学习（https://huggingface.co/papers?q=continual%20learning）场景稳健泛化。我们的发现强调：能力蒸馏并不隐含置信度校准，置信度应被视为后训练的核心目标之一。代码：https://github.com/SalesforceAIResearch/CaOPD

查看 arXiv 页面（https://arxiv.org/abs/2604.16830）
查看 PDF（https://arxiv.org/pdf/2604.16830）
项目页面（https://github.com/SalesforceAIResearch/CaOPD）
GitHub（https://github.com/SalesforceAIResearch/CaOPD）
添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2604.16830）

在智能体中获取该论文：

hf papers read 2604.16830

尚未安装最新 CLI？
curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

暂无模型链接该论文

在模型 README.md 中引用 arxiv.org/abs/2604.16830 即可在此显示。

引用该论文的数据集 0

暂无数据集链接该论文

在数据集 README.md 中引用 arxiv.org/abs/2604.16830 即可在此显示。

引用该论文的 Spaces 0

暂无 Space 链接该论文

在 Space README.md 中引用 arxiv.org/abs/2604.16830 即可在此显示。

收录该论文的合集 0

暂无合集收录该论文

将该论文添加到合集即可在此显示。

确定性的幻觉：解耦策略蒸馏中的能力与校准

论文页面 - 幻觉的确定性：在 On-Policy Distillation 中解耦能力与校准

摘要

引用该论文的模型 0

引用该论文的数据集 0

引用该论文的 Spaces 0

收录该论文的合集 0

相似文章

D-OPSD：面向连续微调步骤蒸馏扩散模型的在线策略自蒸馏

使用分布对齐对抗性蒸馏估计黑盒LLM的不确定性

混合策略蒸馏（HPD）：面向大模型的统一知识蒸馏

自蒸馏作为大语言模型的性能恢复机制：对抗压缩和灾难性遗忘

言过其实：量化大语言模型认知-修辞失准的框架

提交意见反馈