密集监督,稀疏更新:论在线策略蒸馏的稀疏性与几何特性
摘要
本文分析了在线策略蒸馏(OPD),发现OPD更新是稀疏的,分布在各个层且以FFN为主,并且保留了与密集参数重写不同的几何特性。这种稀疏结构在操作上有用,但由于梯度尺度异质性,诱导稀疏性的SGD优化器表现不如AdamW。
查看缓存全文
缓存时间: 2026/06/15 09:05
论文页面 - 密集监督,稀疏更新:论在线策略蒸馏的稀疏性与几何结构
来源:https://huggingface.co/papers/2606.13657 发表于 6月11日
·
提交者https://huggingface.co/hug-ye
Yu (https://huggingface.co/hug-ye)于6月15日
摘要
在线策略蒸馏展现出稀疏的参数更新,这些更新分布在各层之间并倾向于FFN组件,同时保持了与标准密集参数重写不同的几何特性。
在线策略蒸馏(On-policy distillation, OPD)最近成为一种重要的后训练方法,因为它结合了两个理想的要素:在线策略的学生轨迹和密集的教师监督,然而这种混合方式如何改变模型的参数仍不清楚。通过多个语言和视觉-语言模型对及用例的分析,我们得出了两个主要发现。关于稀疏性:OPD风格的更新幅度小且坐标稀疏。它们分布在各层之间,通常以FFN为主。这种稀疏结构在操作上很有用:仅训练发现的子网络就能恢复与完整OPD几乎相同的性能。然而,在我们的优化器消融实验中,稀疏诱导的SGD优化器表现不如AdamW,这很可能是因为密集的教师监督保留了异质的逐坐标梯度尺度,而AdamW的自适应缩放仍然有用。关于几何结构:这些更新在数值上是满秩的,但在谱上集中;它们大多位于源权重的奇异主子空间之外,并且不成比例地落在源权重接近零的坐标上。这些发现表明,密集的教师监督并不会将OPD变成普通的密集参数重写;相反,OPD保留了在线策略后训练的重要几何特征。
查看arXiv页面 (https://arxiv.org/abs/2606.13657)查看PDF (https://arxiv.org/pdf/2606.13657)GitHub3 (https://github.com/SydCS/OPD-Param-Analysis)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.13657)
在你的智能体中获取这篇论文:
hf papers read 2606.13657
没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用该论文的模型0
没有模型关联此论文
在模型README.md中引用arxiv.org/abs/2606.13657即可从此页面链接。
引用该论文的数据集0
没有数据集关联此论文
在数据集README.md中引用arxiv.org/abs/2606.13657即可从此页面链接。
引用该论文的Spaces0
没有Space关联此论文
在Space README.md中引用arxiv.org/abs/2606.13657即可从此页面链接。
包含该论文的收藏集0
没有收藏集包含此论文
将此论文添加到收藏集 (https://huggingface.co/new-collection)即可从此页面链接。
相似文章
论同策略蒸馏的几何结构
本文刻画了大语言模型中同策略蒸馏(OPD)独特的参数空间动力学,表明其具有松弛的非主方向更新和子空间锁定特性,从而与监督微调和基于可验证奖励的强化学习区分开来。
学会预见:揭示 On-Policy 蒸馏效率的解锁机制
本文研究了大型语言模型中 On-Policy 蒸馏(OPD)效率背后的参数级机制,将其归因于模块分配和更新方向上的早期“预见性”。本文提出了 EffOPD,一种即插即用方法,可在不损害最终性能的情况下将 OPD 训练速度提高 3 倍。
@louieworth: 新博客文章:On-Policy Distillation — 前景、陷阱与展望
这篇博客文章讨论了On-Policy Distillation (OPD),这是一种结合在线策略 rollout 与密集教师监督的技术,并重点介绍了其前景、三种失败模式以及作者关于该主题的新论文。
On-policy distillation: 在PapersWithCode上最热门术语之一 [R]
Hugging Face的Niels介绍了On-policy Distillation (OPD),这是一种关键的后训练技术,用于Qwen 3.6/3.7、GLM-5.1和DeepSeek-V4等模型。该技术现已收录于PapersWithCode,并附有Sasha Rush和Dwarkesh Patel的白板讲解链接。
OPRD:在策略表示蒸馏
OPRD提出了一种新的知识蒸馏方法,该方法在策略部署期间跨层对齐学生和教师的隐藏状态,消除了来自词空间KL估计的采样方差。实验表明,OPRD在数学推理基准(AIME 2024/2025、AIMO)上优于输出空间基线,同时速度快1.44倍,内存使用减少54%。