在策略蒸馏中近确定性结构化输出的外推悬崖

Hugging Face Daily Papers 论文

摘要

本文识别了在策略蒸馏中结合奖励外推的一个安全阈值,超过该阈值后,结构化输出任务会丢失格式保持能力。实证验证表明,在该阈值以下运行,1.7B学生模型能够在Amazon Fashion任务上以五分之一的参数量匹配8B SFT基线。

在策略蒸馏(OPD)广泛用于大语言模型的后训练。当使用奖励外推系数 lambda > 1 进行推动时,学生模型可以在领域上超越教师模型,但超过阈值 lambda* 后,同一训练步就会违反结构化输出任务的输出契约。在单位置伯努利简化中,我们推导出一个闭式基相对裁剪安全阈值 lambda*(p,b,c),该阈值由三个可测量量决定:教师模型模态概率、热启动质量和重要性采样裁剪强度。超过 lambda* 后,外推不动点离开裁剪安全区域,训练从格式保持转变为格式崩溃。我们将该规则扩展到校准的K元列表级JSON任务,其中单个绑定等价类主导输出契约,并且SFT保留解析余量。在Amazon Fashion上,三个预注册测试——细粒度悬崖区间、预算扩展测试和小裁剪交叉预测——均落在其锁定预测窗口内,其中小裁剪值与网格分辨率以下的闭式预测相匹配。在略低于 lambda* 运行时,ListOPD使1.7B Qwen3学生模型在域内与8B SFT基线达到对等,而参数量仅为后者的五分之一。性能提升主要来自格式遵循度:解析输出的NDCG@1在各lambda下保持平稳,而解析有效性在预测边界处急剧变化。悬崖诊断独立于评分标准,而对等声称使用Gemini评分的标准,并继承了该评估器的暴露度。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/14 04:17

Paper page - The Extrapolation Cliff in On-Policy Distillation of Near-Deterministic Structured Outputs

来源: https://huggingface.co/papers/2605.08737 发布于5月9日

·

提交者https://huggingface.co/XINLI1997

XinLi (https://huggingface.co/XINLI1997)于5月14日

摘要

带有奖励外推的同策略蒸馏存在一个安全阈值,超过该阈值后结构化输出任务将丧失格式保持能力。实证验证表明,在该阈值以下运行时,在减少参数量的情况下仍能达到性能持平。

同策略蒸馏 (https://huggingface.co/papers?q=On-policy%20distillation) (OPD) 广泛应用于LLM的后训练阶段。当加入奖励外推系数 (https://huggingface.co/papers?q=reward-extrapolation%20coefficient) lambda > 1 时,学生模型可以在领域内超越教师模型,但一旦超过某个阈值 lambda*,同一个步骤会在结构化输出任务 (https://huggingface.co/papers?q=structured-output%20tasks) 上违反输出合约。通过单位置伯努利简化 (https://huggingface.co/papers?q=Bernoulli%20reduction) 模型,我们推导出一个基于基值的闭合形式剪切安全阈值 (https://huggingface.co/papers?q=clip-safety%20threshold) lambda*(p,b,c),它由三个可测量量决定:教师模态概率、热启动质量和重要性采样剪切强度。当超过 lambda* 时,外推后的不动点 (https://huggingface.co/papers?q=fixed%20point) 离开剪切安全区域,训练从格式保持 (https://huggingface.co/papers?q=format-preserving) 转变为格式坍塌 (https://huggingface.co/papers?q=format-collapsing)。我们将该规则扩展到经过校准的 K 元列表式 JSON (https://huggingface.co/papers?q=K-ary%20listwise%20JSON) 任务,其中单个绑定等价类主导了输出合约,且 SFT (https://huggingface.co/papers?q=SFT) 留有解析余量。在Amazon Fashion上,三个预先注册的测试——细粒度悬崖区间、预算扩展测试和小剪切交叉预测——均落在其锁定预测窗口内,其中小剪切值在网格分辨率以下与闭合形式预测相匹配。当恰好运行在 lambda* 下方时,ListOPD 使得1.7B Qwen3学生模型在领域内与使用八分之一参数量的8B-SFT (https://huggingface.co/papers?q=SFT) 基线持平。这一提升主要归因于格式遵守度:解析输出的 NDCG@1 (https://huggingface.co/papers?q=NDCG%401) 在 lambda 范围内保持平稳,而解析有效性 (https://huggingface.co/papers?q=parse%20validity) 则在预测边界处发生剧烈变化。悬崖诊断与评分标准无关,而持平性声明使用了Gemini评分的标准,并继承了该评估器的暴露风险。

查看arXiv页面 (https://arxiv.org/abs/2605.08737)查看PDF (https://arxiv.org/pdf/2605.08737)项目页面 (https://lixin.ai/ListOPD)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.08737)

在你的agent中获取这篇论文:

hf papers read 2605\.08737

没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接到此论文

在模型 README.md 中引用 arxiv.org/abs/2605.08737 即可从本页链接。

引用此论文的数据集0

没有数据集链接到此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.08737 即可从本页链接。

引用此论文的Space0

没有Space链接到此论文

在Space README.md 中引用 arxiv.org/abs/2605.08737 即可从本页链接。

包含此论文的收藏集0

没有收藏集包含此论文

将这篇论文添加到收藏集 (https://huggingface.co/new-collection) 即可从本页链接。

相似文章

学会预见:揭示 On-Policy 蒸馏效率的解锁机制

arXiv cs.CL

本文研究了大型语言模型中 On-Policy 蒸馏(OPD)效率背后的参数级机制,将其归因于模块分配和更新方向上的早期“预见性”。本文提出了 EffOPD,一种即插即用方法,可在不损害最终性能的情况下将 OPD 训练速度提高 3 倍。

揭秘同策略蒸馏:其益处、危害及原因

Hugging Face Daily Papers

本文介绍了一种无需训练的框架,用于分析推理模型在逐token级别上的蒸馏信号。研究揭示,蒸馏引导在错误推理路径上更为有效,且其效果取决于学生模型的能力及任务上下文。

超越 GRPO 与策略内蒸馏:语言模型后训练的经验性“稀疏至稠密”奖励原则

Hugging Face Daily Papers

本文提出了一种用于语言模型后训练的经验性“稀疏至稠密”奖励原则,主张应使用稀疏奖励配合稀缺的标注数据进行教师模型发现,并使用稠密奖励通过蒸馏进行学生模型压缩。作者证明,这种连接稀疏强化学习与策略内蒸馏的分阶段方法,在数学基准测试中优于在部署规模模型上直接运行 GRPO 的效果。