密集监督，稀疏更新：论在线策略蒸馏的稀疏性与几何特性

Hugging Face Daily Papers 2026/06/11 00:00 论文

on-policy-distillation sparsity geometry knowledge-distillation optimization model-analysis

摘要

本文分析了在线策略蒸馏（OPD），发现OPD更新是稀疏的，分布在各个层且以FFN为主，并且保留了与密集参数重写不同的几何特性。这种稀疏结构在操作上有用，但由于梯度尺度异质性，诱导稀疏性的SGD优化器表现不如AdamW。

在线策略蒸馏（OPD）最近成为一种突出的后训练方法，因为它结合了两个理想的要素：在线策略的学生轨迹和密集的教师监督，然而这种混合如何改变模型的参数仍不清楚。在多个语言和视觉-语言模型对及用例上，我们的分析得出了两个主要发现。关于稀疏性，OPD风格的更新是小的且坐标稀疏的。它们分布在各个层，通常以FFN为主。这种稀疏结构在操作上有用：仅训练发现的子网络就可以恢复几乎与完整OPD相同的性能。然而，在我们的优化器消融实验中，诱导稀疏性的SGD优化器表现不如AdamW，可能是因为密集的教师监督保留了异质的坐标方向梯度尺度，而AdamW的自适应缩放仍然有用。关于几何特性，更新在数值上是满秩的，但在频谱上是集中的；它们大多远离源权重的主奇异子空间，并且不成比例地落在源权重接近零的坐标上。这些发现表明，密集的教师监督并没有将OPD转变为普通的密集参数重写；相反，OPD保留了在线策略后训练的重要几何特征。

查看原文

查看缓存全文

缓存时间: 2026/06/15 09:05

论文页面 - 密集监督，稀疏更新：论在线策略蒸馏的稀疏性与几何结构

来源：https://huggingface.co/papers/2606.13657 发表于 6月11日

提交者https://huggingface.co/hug-ye

Yu (https://huggingface.co/hug-ye)于6月15日

摘要

在线策略蒸馏展现出稀疏的参数更新，这些更新分布在各层之间并倾向于FFN组件，同时保持了与标准密集参数重写不同的几何特性。

在线策略蒸馏（On-policy distillation, OPD）最近成为一种重要的后训练方法，因为它结合了两个理想的要素：在线策略的学生轨迹和密集的教师监督，然而这种混合方式如何改变模型的参数仍不清楚。通过多个语言和视觉-语言模型对及用例的分析，我们得出了两个主要发现。关于稀疏性：OPD风格的更新幅度小且坐标稀疏。它们分布在各层之间，通常以FFN为主。这种稀疏结构在操作上很有用：仅训练发现的子网络就能恢复与完整OPD几乎相同的性能。然而，在我们的优化器消融实验中，稀疏诱导的SGD优化器表现不如AdamW，这很可能是因为密集的教师监督保留了异质的逐坐标梯度尺度，而AdamW的自适应缩放仍然有用。关于几何结构：这些更新在数值上是满秩的，但在谱上集中；它们大多位于源权重的奇异主子空间之外，并且不成比例地落在源权重接近零的坐标上。这些发现表明，密集的教师监督并不会将OPD变成普通的密集参数重写；相反，OPD保留了在线策略后训练的重要几何特征。

查看arXiv页面 (https://arxiv.org/abs/2606.13657)查看PDF (https://arxiv.org/pdf/2606.13657)GitHub3 (https://github.com/SydCS/OPD-Param-Analysis)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.13657)

在你的智能体中获取这篇论文：

hf papers read 2606.13657

没有最新的CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型0

没有模型关联此论文

在模型README.md中引用arxiv.org/abs/2606.13657即可从此页面链接。

引用该论文的数据集0

没有数据集关联此论文

在数据集README.md中引用arxiv.org/abs/2606.13657即可从此页面链接。

引用该论文的Spaces0

没有Space关联此论文

在Space README.md中引用arxiv.org/abs/2606.13657即可从此页面链接。

包含该论文的收藏集0

没有收藏集包含此论文

将此论文添加到收藏集 (https://huggingface.co/new-collection)即可从此页面链接。

密集监督，稀疏更新：论在线策略蒸馏的稀疏性与几何特性

论文页面 - 密集监督，稀疏更新：论在线策略蒸馏的稀疏性与几何结构

摘要

引用该论文的模型0

引用该论文的数据集0

引用该论文的Spaces0

包含该论文的收藏集0

相似文章

论同策略蒸馏的几何结构

学会预见：揭示 On-Policy 蒸馏效率的解锁机制

@louieworth: 新博客文章：On-Policy Distillation — 前景、陷阱与展望

On-policy distillation: 在PapersWithCode上最热门术语之一 [R]

OPRD：在策略表示蒸馏

提交意见反馈