揭秘同策略蒸馏：其益处、危害及原因

Hugging Face Daily Papers 2026/05/11 00:00 论文

摘要

本文介绍了一种无需训练的框架，用于分析推理模型在逐token级别上的蒸馏信号。研究揭示，蒸馏引导在错误推理路径上更为有效，且其效果取决于学生模型的能力及任务上下文。

同策略蒸馏为训练推理模型提供了密集的逐token监督；然而，目前尚不清楚该信号在何种条件下有益，在何种条件下有害。应该使用哪个教师模型？在自蒸馏的情况下，应使用哪种特定上下文作为监督信号？最佳选择是否会因token而异？目前，解决这些问题通常需要耗时的训练过程，且汇总的性能指标掩盖了单个token层面的动态变化。我们介绍了一种无需训练的框架，以最高分辨率（即逐token、逐问题、逐教师）运行。我们推导出了一个理想的逐节点梯度，该梯度定义为能使学生模型成功概率最大化的参数更新。随后，我们开发了一种可扩展的定向 rollout 算法，即使在存在长链中间思考过程的情况下，也能高效地估计这一梯度。梯度对齐分数定义为理想梯度与任何给定蒸馏梯度之间的余弦相似度，用于量化特定配置近似理想信号的程度。在一系列自蒸馏设置和外部教师模型中，我们发现，与正确推理路径相比，蒸馏引导在错误推理路径上与理想信号的对齐度显著更高，因为学生模型在正确路径上已经表现良好，而教师信号往往变得嘈杂。此外，我们发现最佳的蒸馏上下文取决于学生模型的能力和目标任务，并且不存在单一通用的有效配置。这些发现促使人们采用逐任务、逐token的诊断分析来进行蒸馏。

查看原文

查看缓存全文

缓存时间: 2026/05/13 00:19

论文页面 - 揭示 On-Policy Distillation：其优势、劣势及原因

来源：https://huggingface.co/papers/2605.10889

摘要

一个无需训练的诊断框架，通过分析每个 token 的蒸馏信号，来确定推理模型训练的最佳教师模型和上下文。

On-policy distillation（在线策略蒸馏）(https://huggingface.co/papers?q=On-policy%20distillation) 为训练推理模型提供了密集的逐 token 监督（per-token supervision）(https://huggingface.co/papers?q=per-token%20supervision)；然而，目前尚不清楚在何种条件下该信号有益，在何种条件下有害。应该使用哪个教师模型（teacher model）(https://huggingface.co/papers?q=teacher%20model)，以及在自蒸馏（self-distillation）(https://huggingface.co/papers?q=self-distillation) 的情况下，哪种特定上下文应作为监督信号？最佳选择是否因 token 而异？目前，解决这些问题通常需要昂贵的训练运行，其整体性能指标掩盖了单个 token 层面的动态变化。我们引入了一个无需训练的框架，以最高分辨率进行操作：每个 token、每个问题以及每个教师模型。我们推导出理想的逐节点梯度（ideal per-node gradient），定义为能够最大提高学生成功概率的参数更新。随后，我们开发了一种可扩展的目标 rollout 算法（targeted-rollout algorithm）(https://huggingface.co/papers?q=targeted-rollout%20algorithm)，以高效估计此梯度，即使对于长链的中间思考也是如此。梯度对齐分数（gradient alignment score）(https://huggingface.co/papers?q=gradient%20alignment%20score) 定义为该理想梯度（ideal gradient）(https://huggingface.co/papers?q=ideal%20gradient) 与任何给定蒸馏梯度（distillation gradient）(https://huggingface.co/papers?q=distillation%20gradient) 之间的余弦相似度，它量化了特定配置近似理想信号的程度。在一系列自蒸馏（self-distillation）(https://huggingface.co/papers?q=self-distillation) 设置和外部教师模型（teacher model）(https://huggingface.co/papers?q=teacher%20model) 中，我们观察到蒸馏引导在错误 rollout 上与理想的对齐程度远高于正确 rollout，而在正确 rollout 中学生表现已经很好，教师信号往往变得嘈杂。此外，我们发现最佳的蒸馏上下文（distillation context）(https://huggingface.co/papers?q=distillation%20context) 取决于学生模型（student model）(https://huggingface.co/papers?q=student%20model) 的能力和目标任务，并且没有单一普遍有效的配置出现。这些发现促使人们使用逐任务、逐 token 的诊断分析进行蒸馏。

查看 arXiv 页面 (https://arxiv.org/abs/2605.10889) 查看 PDF (https://arxiv.org/pdf/2605.10889) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.10889)

在你的 agent 中获取此论文：

hf papers read 2605\.10889

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文模型 0

没有链接到此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2605.10889 以从此页链接。

引用此论文数据集 0

没有链接到此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2605.10889 以从此页链接。

引用此论文 Spaces 0

没有链接到此论文的 Space

在 Space README.md 中引用 arxiv.org/abs/2605.10889 以从此页链接。

包含此论文的集合 0

没有包含此论文的 Collection

添加此论文到 Collection (https://huggingface.co/new-collection) 以从此页链接。

揭秘同策略蒸馏：其益处、危害及原因

论文页面 - 揭示 On-Policy Distillation：其优势、劣势及原因

摘要

引用此论文模型 0

引用此论文数据集 0

引用此论文 Spaces 0

包含此论文的集合 0

相似文章

在线策略蒸馏的多重面貌：陷阱、机制与解决方案

学会预见：揭示 On-Policy 蒸馏效率的解锁机制

通过混合策略蒸馏进行推理压缩

确定性的幻觉：解耦策略蒸馏中的能力与校准

分布视角下的 SFT、RL 与 On-Policy Distillation（19 分钟阅读）

提交意见反馈