在策略蒸馏中近确定性结构化输出的外推悬崖
摘要
本文识别了在策略蒸馏中结合奖励外推的一个安全阈值,超过该阈值后,结构化输出任务会丢失格式保持能力。实证验证表明,在该阈值以下运行,1.7B学生模型能够在Amazon Fashion任务上以五分之一的参数量匹配8B SFT基线。
查看缓存全文
缓存时间: 2026/05/14 04:17
Paper page - The Extrapolation Cliff in On-Policy Distillation of Near-Deterministic Structured Outputs
来源: https://huggingface.co/papers/2605.08737 发布于5月9日
·
提交者https://huggingface.co/XINLI1997
XinLi (https://huggingface.co/XINLI1997)于5月14日
摘要
带有奖励外推的同策略蒸馏存在一个安全阈值,超过该阈值后结构化输出任务将丧失格式保持能力。实证验证表明,在该阈值以下运行时,在减少参数量的情况下仍能达到性能持平。
同策略蒸馏 (https://huggingface.co/papers?q=On-policy%20distillation) (OPD) 广泛应用于LLM的后训练阶段。当加入奖励外推系数 (https://huggingface.co/papers?q=reward-extrapolation%20coefficient) lambda > 1 时,学生模型可以在领域内超越教师模型,但一旦超过某个阈值 lambda*,同一个步骤会在结构化输出任务 (https://huggingface.co/papers?q=structured-output%20tasks) 上违反输出合约。通过单位置伯努利简化 (https://huggingface.co/papers?q=Bernoulli%20reduction) 模型,我们推导出一个基于基值的闭合形式剪切安全阈值 (https://huggingface.co/papers?q=clip-safety%20threshold) lambda*(p,b,c),它由三个可测量量决定:教师模态概率、热启动质量和重要性采样剪切强度。当超过 lambda* 时,外推后的不动点 (https://huggingface.co/papers?q=fixed%20point) 离开剪切安全区域,训练从格式保持 (https://huggingface.co/papers?q=format-preserving) 转变为格式坍塌 (https://huggingface.co/papers?q=format-collapsing)。我们将该规则扩展到经过校准的 K 元列表式 JSON (https://huggingface.co/papers?q=K-ary%20listwise%20JSON) 任务,其中单个绑定等价类主导了输出合约,且 SFT (https://huggingface.co/papers?q=SFT) 留有解析余量。在Amazon Fashion上,三个预先注册的测试——细粒度悬崖区间、预算扩展测试和小剪切交叉预测——均落在其锁定预测窗口内,其中小剪切值在网格分辨率以下与闭合形式预测相匹配。当恰好运行在 lambda* 下方时,ListOPD 使得1.7B Qwen3学生模型在领域内与使用八分之一参数量的8B-SFT (https://huggingface.co/papers?q=SFT) 基线持平。这一提升主要归因于格式遵守度:解析输出的 NDCG@1 (https://huggingface.co/papers?q=NDCG%401) 在 lambda 范围内保持平稳,而解析有效性 (https://huggingface.co/papers?q=parse%20validity) 则在预测边界处发生剧烈变化。悬崖诊断与评分标准无关,而持平性声明使用了Gemini评分的标准,并继承了该评估器的暴露风险。
查看arXiv页面 (https://arxiv.org/abs/2605.08737)查看PDF (https://arxiv.org/pdf/2605.08737)项目页面 (https://lixin.ai/ListOPD)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.08737)
在你的agent中获取这篇论文:
hf papers read 2605\.08737
没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型链接到此论文
在模型 README.md 中引用 arxiv.org/abs/2605.08737 即可从本页链接。
引用此论文的数据集0
没有数据集链接到此论文
在数据集 README.md 中引用 arxiv.org/abs/2605.08737 即可从本页链接。
引用此论文的Space0
没有Space链接到此论文
在Space README.md 中引用 arxiv.org/abs/2605.08737 即可从本页链接。
包含此论文的收藏集0
没有收藏集包含此论文
将这篇论文添加到收藏集 (https://huggingface.co/new-collection) 即可从本页链接。
相似文章
在线策略蒸馏的多重面貌:陷阱、机制与解决方案
本文对大语言模型的在线策略蒸馏进行了全面的实证研究,识别了分布不匹配和优化不稳定等故障机制,并提出了诸如停止梯度目标和针对 RLVR 改进的教师模型等解决方案。
学会预见:揭示 On-Policy 蒸馏效率的解锁机制
本文研究了大型语言模型中 On-Policy 蒸馏(OPD)效率背后的参数级机制,将其归因于模块分配和更新方向上的早期“预见性”。本文提出了 EffOPD,一种即插即用方法,可在不损害最终性能的情况下将 OPD 训练速度提高 3 倍。
揭秘同策略蒸馏:其益处、危害及原因
本文介绍了一种无需训练的框架,用于分析推理模型在逐token级别上的蒸馏信号。研究揭示,蒸馏引导在错误推理路径上更为有效,且其效果取决于学生模型的能力及任务上下文。
超越 GRPO 与策略内蒸馏:语言模型后训练的经验性“稀疏至稠密”奖励原则
本文提出了一种用于语言模型后训练的经验性“稀疏至稠密”奖励原则,主张应使用稀疏奖励配合稀缺的标注数据进行教师模型发现,并使用稠密奖励通过蒸馏进行学生模型压缩。作者证明,这种连接稀疏强化学习与策略内蒸馏的分阶段方法,在数学基准测试中优于在部署规模模型上直接运行 GRPO 的效果。
确定性的幻觉:解耦策略蒸馏中的能力与校准
本文发现语言模型中的策略蒸馏(OPD)因训练与部署信息不匹配导致严重过度自信,提出校准感知框架 CaOPD,在提升性能的同时显著增强置信度可靠性。