确定性的幻觉:解耦策略蒸馏中的能力与校准

Hugging Face Daily Papers 论文

摘要

本文发现语言模型中的策略蒸馏(OPD)因训练与部署信息不匹配导致严重过度自信,提出校准感知框架 CaOPD,在提升性能的同时显著增强置信度可靠性。

策略蒸馏(OPD)正成为大模型后训练的重要范式。然而我们发现一种普遍的“误标定缩放律”:OPD 虽能提升任务准确率,却系统性地使模型陷入严重过度自信。根源在于信息失配:教师监督在训练阶段享有特权上下文,而部署模型只能基于部署时可得信息报告置信度。我们从理论上形式化该视角,证明以教师条件化成功率为目标无法有效指导部署时置信度,且有益的特权上下文会引发熵坍缩与系统性乐观偏差。为此,我们提出校准感知 OPD 框架 CaOPD:通过模型 rollout 估计经验置信度,用该学生端真实目标替换自报告置信度,并在同一自蒸馏流程中蒸馏修正后的响应。跨模型、跨领域实验表明,CaOPD 在保持竞争力的同时实现帕累托最优校准,并对分布外及持续学习场景稳健泛化。研究强调,能力蒸馏并不保证置信度校准,置信度应被视为后训练的核心目标之一。代码:https://github.com/SalesforceAIResearch/CaOPD
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/21 19:46

论文页面 - 幻觉的确定性:在 On-Policy Distillation 中解耦能力与校准

来源:https://huggingface.co/papers/2604.16830

摘要

On-policy distillation 由于训练与部署场景的信息失配导致校准失效;我们提出基于校准感知的框架,在提升性能的同时增强置信度可靠性。

On-policy distillation(https://huggingface.co/papers?q=On-policy%20distillation,OPD)正成为语言模型后训练的重要范式。然而,我们发现一条普遍的Scaling Law(https://huggingface.co/papers?q=Scaling%20Law)式Miscalibration(https://huggingface.co/papers?q=Miscalibration):OPD 虽能有效提升任务准确率,却系统性地让模型陷入严重过度自信。我们追溯其根源为信息失配(https://huggingface.co/papers?q=information%20mismatch):教师监督在训练时依赖特权上下文(https://huggingface.co/papers?q=privileged%20context),而部署阶段模型只能基于部署时可见信息报告置信度。我们理论上形式化这一视角,证明以教师条件化的成功并非部署时置信度的有效目标,且有益的特权上下文会导致熵坍缩(https://huggingface.co/papers?q=entropy%20collapse)与系统性乐观偏差(https://huggingface.co/papers?q=optimism%20bias)。为此,我们提出基于校准感知的 OPD 框架 CaOPD:通过模型 rollout 估计经验置信度,用学生自洽的目标替换自报置信度,并在同一自蒸馏(https://huggingface.co/papers?q=self-distillation)流程中蒸馏修正后的回复。跨模型、跨领域实验显示,CaOPD 在保持竞争力的能力同时实现帕累托最优校准,并对分布外与持续学习(https://huggingface.co/papers?q=continual%20learning)场景稳健泛化。我们的发现强调:能力蒸馏并不隐含置信度校准,置信度应被视为后训练的核心目标之一。代码:https://github.com/SalesforceAIResearch/CaOPD

查看 arXiv 页面(https://arxiv.org/abs/2604.16830)
查看 PDF(https://arxiv.org/pdf/2604.16830)
项目页面(https://github.com/SalesforceAIResearch/CaOPD)
GitHub(https://github.com/SalesforceAIResearch/CaOPD)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.16830)

在智能体中获取该论文:

hf papers read 2604.16830

尚未安装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

暂无模型链接该论文

在模型 README.md 中引用 arxiv.org/abs/2604.16830 即可在此显示。

引用该论文的数据集 0

暂无数据集链接该论文

在数据集 README.md 中引用 arxiv.org/abs/2604.16830 即可在此显示。

引用该论文的 Spaces 0

暂无 Space 链接该论文

在 Space README.md 中引用 arxiv.org/abs/2604.16830 即可在此显示。

收录该论文的合集 0

暂无合集收录该论文

将该论文添加到合集即可在此显示。

相似文章

使用分布对齐对抗性蒸馏估计黑盒LLM的不确定性

arXiv cs.CL

本文提出了一种分布对齐对抗性蒸馏(DisAAD)方法,该方法使用一个轻量级代理模型,仅以原始模型1%的规模来估计黑盒大语言模型的不确定性,实现了无需内部参数或多次采样的可靠量化。

自蒸馏作为大语言模型的性能恢复机制:对抗压缩和灾难性遗忘

arXiv cs.CL

本文介绍了自蒸馏微调(SDFT)作为大语言模型性能恢复机制,用于解决灾难性遗忘、量化和剪枝导致的性能下降问题。作者利用中心核对齐(CKA)提供了理论证明,表明自蒸馏能够使学生模型的高维流形与教师模型的最优结构对齐,从而有效恢复丧失的能力。