在策略蒸馏中近确定性结构化输出的外推悬崖

Hugging Face Daily Papers 2026/05/09 00:00 论文

摘要

本文识别了在策略蒸馏中结合奖励外推的一个安全阈值，超过该阈值后，结构化输出任务会丢失格式保持能力。实证验证表明，在该阈值以下运行，1.7B学生模型能够在Amazon Fashion任务上以五分之一的参数量匹配8B SFT基线。

在策略蒸馏（OPD）广泛用于大语言模型的后训练。当使用奖励外推系数 lambda > 1 进行推动时，学生模型可以在领域上超越教师模型，但超过阈值 lambda* 后，同一训练步就会违反结构化输出任务的输出契约。在单位置伯努利简化中，我们推导出一个闭式基相对裁剪安全阈值 lambda*(p,b,c)，该阈值由三个可测量量决定：教师模型模态概率、热启动质量和重要性采样裁剪强度。超过 lambda* 后，外推不动点离开裁剪安全区域，训练从格式保持转变为格式崩溃。我们将该规则扩展到校准的K元列表级JSON任务，其中单个绑定等价类主导输出契约，并且SFT保留解析余量。在Amazon Fashion上，三个预注册测试——细粒度悬崖区间、预算扩展测试和小裁剪交叉预测——均落在其锁定预测窗口内，其中小裁剪值与网格分辨率以下的闭式预测相匹配。在略低于 lambda* 运行时，ListOPD使1.7B Qwen3学生模型在域内与8B SFT基线达到对等，而参数量仅为后者的五分之一。性能提升主要来自格式遵循度：解析输出的NDCG@1在各lambda下保持平稳，而解析有效性在预测边界处急剧变化。悬崖诊断独立于评分标准，而对等声称使用Gemini评分的标准，并继承了该评估器的暴露度。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/14 04:17

Paper page - The Extrapolation Cliff in On-Policy Distillation of Near-Deterministic Structured Outputs

来源: https://huggingface.co/papers/2605.08737 发布于5月9日

提交者https://huggingface.co/XINLI1997

XinLi (https://huggingface.co/XINLI1997)于5月14日

摘要

带有奖励外推的同策略蒸馏存在一个安全阈值，超过该阈值后结构化输出任务将丧失格式保持能力。实证验证表明，在该阈值以下运行时，在减少参数量的情况下仍能达到性能持平。

同策略蒸馏 (https://huggingface.co/papers?q=On-policy%20distillation) (OPD) 广泛应用于LLM的后训练阶段。当加入奖励外推系数 (https://huggingface.co/papers?q=reward-extrapolation%20coefficient) lambda > 1 时，学生模型可以在领域内超越教师模型，但一旦超过某个阈值 lambda*，同一个步骤会在结构化输出任务 (https://huggingface.co/papers?q=structured-output%20tasks) 上违反输出合约。通过单位置伯努利简化 (https://huggingface.co/papers?q=Bernoulli%20reduction) 模型，我们推导出一个基于基值的闭合形式剪切安全阈值 (https://huggingface.co/papers?q=clip-safety%20threshold) lambda*(p,b,c)，它由三个可测量量决定：教师模态概率、热启动质量和重要性采样剪切强度。当超过 lambda* 时，外推后的不动点 (https://huggingface.co/papers?q=fixed%20point) 离开剪切安全区域，训练从格式保持 (https://huggingface.co/papers?q=format-preserving) 转变为格式坍塌 (https://huggingface.co/papers?q=format-collapsing)。我们将该规则扩展到经过校准的 K 元列表式 JSON (https://huggingface.co/papers?q=K-ary%20listwise%20JSON) 任务，其中单个绑定等价类主导了输出合约，且 SFT (https://huggingface.co/papers?q=SFT) 留有解析余量。在Amazon Fashion上，三个预先注册的测试——细粒度悬崖区间、预算扩展测试和小剪切交叉预测——均落在其锁定预测窗口内，其中小剪切值在网格分辨率以下与闭合形式预测相匹配。当恰好运行在 lambda* 下方时，ListOPD 使得1.7B Qwen3学生模型在领域内与使用八分之一参数量的8B-SFT (https://huggingface.co/papers?q=SFT) 基线持平。这一提升主要归因于格式遵守度：解析输出的 NDCG@1 (https://huggingface.co/papers?q=NDCG%401) 在 lambda 范围内保持平稳，而解析有效性 (https://huggingface.co/papers?q=parse%20validity) 则在预测边界处发生剧烈变化。悬崖诊断与评分标准无关，而持平性声明使用了Gemini评分的标准，并继承了该评估器的暴露风险。

查看arXiv页面 (https://arxiv.org/abs/2605.08737)查看PDF (https://arxiv.org/pdf/2605.08737)项目页面 (https://lixin.ai/ListOPD)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.08737)

在你的agent中获取这篇论文：

hf papers read 2605\.08737

没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接到此论文

在模型 README.md 中引用 arxiv.org/abs/2605.08737 即可从本页链接。

引用此论文的数据集0

没有数据集链接到此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.08737 即可从本页链接。

引用此论文的Space0

没有Space链接到此论文

在Space README.md 中引用 arxiv.org/abs/2605.08737 即可从本页链接。

包含此论文的收藏集0

没有收藏集包含此论文

将这篇论文添加到收藏集 (https://huggingface.co/new-collection) 即可从本页链接。

在策略蒸馏中近确定性结构化输出的外推悬崖

Paper page - The Extrapolation Cliff in On-Policy Distillation of Near-Deterministic Structured Outputs

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的Space0

包含此论文的收藏集0

相似文章

在线策略蒸馏的多重面貌：陷阱、机制与解决方案

学会预见：揭示 On-Policy 蒸馏效率的解锁机制

揭秘同策略蒸馏：其益处、危害及原因

超越 GRPO 与策略内蒸馏：语言模型后训练的经验性“稀疏至稠密”奖励原则

确定性的幻觉：解耦策略蒸馏中的能力与校准

提交意见反馈