密集监督,稀疏更新:论在线策略蒸馏的稀疏性与几何特性

Hugging Face Daily Papers 论文

摘要

本文分析了在线策略蒸馏(OPD),发现OPD更新是稀疏的,分布在各个层且以FFN为主,并且保留了与密集参数重写不同的几何特性。这种稀疏结构在操作上有用,但由于梯度尺度异质性,诱导稀疏性的SGD优化器表现不如AdamW。

在线策略蒸馏(OPD)最近成为一种突出的后训练方法,因为它结合了两个理想的要素:在线策略的学生轨迹和密集的教师监督,然而这种混合如何改变模型的参数仍不清楚。在多个语言和视觉-语言模型对及用例上,我们的分析得出了两个主要发现。关于稀疏性,OPD风格的更新是小的且坐标稀疏的。它们分布在各个层,通常以FFN为主。这种稀疏结构在操作上有用:仅训练发现的子网络就可以恢复几乎与完整OPD相同的性能。然而,在我们的优化器消融实验中,诱导稀疏性的SGD优化器表现不如AdamW,可能是因为密集的教师监督保留了异质的坐标方向梯度尺度,而AdamW的自适应缩放仍然有用。关于几何特性,更新在数值上是满秩的,但在频谱上是集中的;它们大多远离源权重的主奇异子空间,并且不成比例地落在源权重接近零的坐标上。这些发现表明,密集的教师监督并没有将OPD转变为普通的密集参数重写;相反,OPD保留了在线策略后训练的重要几何特征。
查看原文
查看缓存全文

缓存时间: 2026/06/15 09:05

论文页面 - 密集监督,稀疏更新:论在线策略蒸馏的稀疏性与几何结构

来源:https://huggingface.co/papers/2606.13657 发表于 6月11日

·

提交者https://huggingface.co/hug-ye

Yu (https://huggingface.co/hug-ye)于6月15日

摘要

在线策略蒸馏展现出稀疏的参数更新,这些更新分布在各层之间并倾向于FFN组件,同时保持了与标准密集参数重写不同的几何特性。

在线策略蒸馏(On-policy distillation, OPD)最近成为一种重要的后训练方法,因为它结合了两个理想的要素:在线策略的学生轨迹和密集的教师监督,然而这种混合方式如何改变模型的参数仍不清楚。通过多个语言和视觉-语言模型对及用例的分析,我们得出了两个主要发现。关于稀疏性:OPD风格的更新幅度小且坐标稀疏。它们分布在各层之间,通常以FFN为主。这种稀疏结构在操作上很有用:仅训练发现的子网络就能恢复与完整OPD几乎相同的性能。然而,在我们的优化器消融实验中,稀疏诱导的SGD优化器表现不如AdamW,这很可能是因为密集的教师监督保留了异质的逐坐标梯度尺度,而AdamW的自适应缩放仍然有用。关于几何结构:这些更新在数值上是满秩的,但在谱上集中;它们大多位于源权重的奇异主子空间之外,并且不成比例地落在源权重接近零的坐标上。这些发现表明,密集的教师监督并不会将OPD变成普通的密集参数重写;相反,OPD保留了在线策略后训练的重要几何特征。

查看arXiv页面 (https://arxiv.org/abs/2606.13657)查看PDF (https://arxiv.org/pdf/2606.13657)GitHub3 (https://github.com/SydCS/OPD-Param-Analysis)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.13657)

在你的智能体中获取这篇论文:

hf papers read 2606.13657

没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型0

没有模型关联此论文

在模型README.md中引用arxiv.org/abs/2606.13657即可从此页面链接。

引用该论文的数据集0

没有数据集关联此论文

在数据集README.md中引用arxiv.org/abs/2606.13657即可从此页面链接。

引用该论文的Spaces0

没有Space关联此论文

在Space README.md中引用arxiv.org/abs/2606.13657即可从此页面链接。

包含该论文的收藏集0

没有收藏集包含此论文

将此论文添加到收藏集 (https://huggingface.co/new-collection)即可从此页面链接。

相似文章

论同策略蒸馏的几何结构

Hugging Face Daily Papers

本文刻画了大语言模型中同策略蒸馏(OPD)独特的参数空间动力学,表明其具有松弛的非主方向更新和子空间锁定特性,从而与监督微调和基于可验证奖励的强化学习区分开来。

学会预见:揭示 On-Policy 蒸馏效率的解锁机制

arXiv cs.CL

本文研究了大型语言模型中 On-Policy 蒸馏(OPD)效率背后的参数级机制,将其归因于模块分配和更新方向上的早期“预见性”。本文提出了 EffOPD,一种即插即用方法,可在不损害最终性能的情况下将 OPD 训练速度提高 3 倍。

On-policy distillation: 在PapersWithCode上最热门术语之一 [R]

Reddit r/MachineLearning

Hugging Face的Niels介绍了On-policy Distillation (OPD),这是一种关键的后训练技术,用于Qwen 3.6/3.7、GLM-5.1和DeepSeek-V4等模型。该技术现已收录于PapersWithCode,并附有Sasha Rush和Dwarkesh Patel的白板讲解链接。

OPRD:在策略表示蒸馏

Hugging Face Daily Papers

OPRD提出了一种新的知识蒸馏方法,该方法在策略部署期间跨层对齐学生和教师的隐藏状态,消除了来自词空间KL估计的采样方差。实验表明,OPRD在数学推理基准(AIME 2024/2025、AIMO)上优于输出空间基线,同时速度快1.44倍,内存使用减少54%。