在策略自蒸馏中尊重自不确定性以实现高效LLM推理
摘要
本文提出了EGRSD和CL-EGRSD,这是在策略自蒸馏方法,通过教师熵对令牌级监督进行加权,以改善大语言模型推理准确性-长度的权衡,并在Qwen3-4B和Qwen3-8B上进行了评估。
arXiv:2605.13255v1 Announce Type: new
摘要:在策略自蒸馏使用模型自身的采样轨迹进行训练,同时一个教师(通常是同一模型但基于特权上下文)提供密集的令牌级监督。现有目标通常在整个思维链序列上对教师的令牌级信号进行均匀加权,尽管教师预测分布的熵存在显著变化。我们提出了EGRSD(熵引导的强化自蒸馏),它通过三个信号统一令牌级更新:基于奖励的方向、师生似然比幅度,以及提出的教师熵置信门控,该门控降低高熵令牌位置的权重,同时保持每个令牌权重的非零下界。我们进一步引入了CL-EGRSD,一种因果前瞻变体,它区分持续的高熵段与临时的高熵位置(其后续上下文迅速变为低熵)。在Qwen3-4B和Qwen3-8B的思考模式下的实验表明,EGRSD和CL-EGRSD在可训练方法中推进了准确性-长度前沿。
查看缓存全文
缓存时间: 2026/05/14 06:15
# 尊重自我不确定性:在线策略自蒸馏实现高效大语言模型推理
来源:https://arxiv.org/html/2605.13255
**柯俊龙**<sup>211Equal contribution</sup>**·温子辰**<sup>111Equal contribution</sup>·李嘉伟<sup>2,3</sup>·何聪辉<sup>322Corresponding authors</sup>·林峰<sup>122Corresponding authors</sup>
1上海交通大学
2清华大学
3上海人工智能实验室
###### 摘要
在线策略自蒸馏在模型自身生成的轨迹上训练推理模型,同时一个教师模型(通常是基于特权上下文条件的同一模型)提供密集的token级监督。现有的目标函数通常对教师模型在思维链序列中的token级信号进行均匀加权,而忽略了教师预测熵在不同token位置上的显著差异。我们提出**EGRSD(熵引导强化自蒸馏)**,该方法通过三种信号统一token级更新:基于奖励的方向信号、教师-学生似然比的幅度信号,以及所提出的基于教师熵的置信门控,后者降低高熵token位置的权重,同时为每个token的权重保持一个非零的下界。我们进一步引入**CL-EGRSD**,这是一种因果前瞻变体,能够区分持续的高熵跨度与那些后续上下文迅速变为低熵的瞬态高熵位置。在Qwen3-4B和Qwen3-8B的思考模式下的实验表明,在比较的可训练方法中,EGRSD和CL-EGRSD推动了准确率-长度权衡边界前沿的发展。
## 1 引言
近年来,大型语言模型展现出强大的多步推理能力,但思维链(CoT)推理(Wei et al., 2022 (https://arxiv.org/html/2605.13255#bib.bib23); OpenAI, 2024 (https://arxiv.org/html/2605.13255#bib.bib17))往往会产生过多的中间推理token。针对推理优化的检查点经常生成冗余的验证循环、模拟的自校正标记和重复的中间推导。这种冗长增加了推理延迟和成本,因此需要能够在保持推理准确性的同时减少不必要计算的方法。
在线策略自蒸馏是解决此问题的自然方法。不同于模仿固定的离线演示,学生模型自行采样推理轨迹,并从特权教师模型处接收密集的token级监督(Zhao et al., 2026 (https://arxiv.org/html/2605.13255#bib.bib30); Sang et al., 2026 (https://arxiv.org/html/2605.13255#bib.bib19); Yang et al., 2026 (https://arxiv.org/html/2605.13255#bib.bib26))。教师模型可能是同一基础模型,但以参考答案作为条件,因此学生模型能够从其实际访问的轨迹中学习反馈。这避免了离线蒸馏中的训练-测试不匹配问题,并且在每个完成的token上(而不仅仅是最终答案)提供监督信号。
然而,密集反馈并不等同于可靠反馈。一次推理完成包含异质的token位置:有些是低熵的确定性计算(算术延续、表达式简化、等式闭合),而有些是高熵的分支点,在这些点上,概率分布将概率质量分配给多个可行的续文(归纳与枚举、修正先前的推导、或语篇层面的转换)。先前的工作在代码自蒸馏中也观察到了类似的异质性(Zhang et al., 2026a (https://arxiv.org/html/2605.13255#bib.bib27))。特权教师在前一类位置上能产生尖锐集中的分布,而在后一类位置上则分布弥散,对这些信号进行均匀加权可能过度强调高方差的监督。在长段数学推理中,我们还识别出第三种情况:**瞬态**高熵位置,其后续上下文迅速变为低熵。
见标题下方的图1:**Qwen3-8B上的准确率-长度权衡:EGRSD和CL-EGRSD(我们的方法)扩展了帕累托前沿。所有可训练的基线方法均被超越。**
这些是策略转换的*支点*,而非持续分支的*岔路口*。盲目压制所有高熵token会破坏支点所携带的转换信号。这个问题在自蒸馏中尤为重要。与使用更优外部模型的离线蒸馏不同,此处的特权教师是基础策略基于增强后的上下文条件化得到的。因此,其熵衡量的是在特权视角下教师模型下一个token预测分布的集中程度。我们将这种分布集中度称为**教师置信度**。由于教师模型基于特权信息进行条件化,这个置信度可以作为token级监督可靠性的实用代理。先前的分析进一步表明,*压制*高熵教师token会损害推理能力(Kim et al., 2026 (https://arxiv.org/html/2605.13255#bib.bib10)),这促使我们在引入的任何置信门控中保持一个非零的下界。结合结果奖励的符号和近期方向感知目标函数中使用的教师-学生对数似然比,教师预测熵为token级自蒸馏提供了第三种、此前未被利用的信号。并行工作(如RLSD (Yang et al., 2026 (https://arxiv.org/html/2605.13255#bib.bib26)))展示了将方向和幅度解耦的价值。EGRSD在此分解基础上增加了基于熵的置信度组件。
我们提出**熵引导强化自蒸馏(EGRSD)**。对于rollout中的每个token,EGRSD计算特权教师的熵,在mini-batch内对其进行归一化,并通过一个乘性的置信门控\(\omega_{i,t}\in[0.1,1]\)(在§4.2 (https://arxiv.org/html/2605.13255#S4.SS2)中规范化)来衰减方向感知的token更新。低熵的计算token几乎以全权重通过,而高熵位置则被衰减,但保留一个非零下限,以便具有有效续文多样性的分支位置不被丢弃。第二种变体**CL-EGRSD**处理瞬态高熵转换点。某些局部高熵token会引发一个分支,但其后续续文迅速变为低熵。CL-EGRSD使用短因果未来窗口内的最小熵替换瞬时熵,从而将持续的高熵区间与瞬态的策略转换位置区分开来。在Qwen3-4B和Qwen3-8B上,由此产生的置信门控更新在比较的可训练方法中推进了准确率-长度权衡边界(图1 (https://arxiv.org/html/2605.13255#S1.F1))。消融实验表明,适度的熵衰减能带来最稳定的性能,而前瞻在更大的模型上帮助最大,因为此时支点更容易被利用。
我们的贡献如下:
- • 我们识别出教师预测熵是在线策略自蒸馏中缺失的第三个信号,补充了结果奖励的方向和教师-学生幅度。
- • 我们将此信号实例化为**EGRSD**:方向感知自蒸馏的一个最小扩展,通过特权教师的熵来门控token更新,并对每个token权重施加非零下界。
- • 我们将EGRSD扩展为**CL-EGRSD**,这是一个因果前瞻变体,用于保留那些不确定性在短未来窗口内消散的瞬态高熵*支点* token,并在Qwen3-4B和Qwen3-8B上通过主要结果、机制诊断和消融实验验证了这两种方法。
## 2 相关工作
我们聚焦于与EGRSD最直接相关的两条工作路线。关于长形式推理压缩、RLVR风格的token级信用分配以及完整的方法间定位比较的更多背景信息,请参见附录A (https://arxiv.org/html/2605.13255#A1)。
#### 在线策略蒸馏与特权自蒸馏。
在线策略蒸馏通过让学生模型在自身采样的轨迹上训练,同时教师模型提供密集的token级反馈,来解决离线蒸馏的“训练-测试不匹配”问题(Song and Zheng, 2026 (https://arxiv.org/html/2605.13255#bib.bib21))。OPSD将此思想应用于自蒸馏:同一模型同时充当学生和特权教师,教师模型条件化于额外的信息,如参考答案(Zhao et al., 2026 (https://arxiv.org/html/2605.13255#bib.bib30))。这种设计消除了对独立的大型教师模型的需求,并在学生自身rollout上提供密集监督。近期工作进一步探索了基于能力感知的加权(Xu et al., 2026 (https://arxiv.org/html/2605.13255#bib.bib25))、特权上下文下的共识门控(Stein et al., 2026 (https://arxiv.org/html/2605.13255#bib.bib22))以及面向压缩的变体,如CRISP(Sang et al., 2026 (https://arxiv.org/html/2605.13255#bib.bib19))。一个共同的盲点仍然存在:现有的OPSD风格目标虽然提供密集的token级目标,但并未明确考虑每个token上教师分布的集中程度。并行工作中关于方向感知自蒸馏(RLSD (Yang et al., 2026 (https://arxiv.org/html/2605.13255#bib.bib26)))将结果奖励方向与教师-学生似然比幅度相结合,但未用到教师置信度。EGRSD重用了相同的耦合,并额外利用特权教师的预测熵为每个token加权。
#### 不确定性、选择性与教师置信度。
并非所有密集监督都同等有用。选择性指令微调与过程监督表明,细粒度过滤可以改善模型从补全结果中学习的方式(Li et al., 2024 (https://arxiv.org/html/2605.13255#bib.bib13); Lightman et al., 2024 (https://arxiv.org/html/2605.13255#bib.bib14))。一个补充性分析(Kim et al., 2026 (https://arxiv.org/html/2605.13255#bib.bib10))发现,高熵教师token携带的不确定性信号应被保留而非抹平。这一发现启发我们设置了\(\omega_{i,t}\)的非零下限。与我们的工作同时,SSD(Zhang et al., 2026a (https://arxiv.org/html/2605.13255#bib.bib27))观察到代码生成交织着*锁定*位置(明确的续文)和*分叉*位置(多种可能的续文),并通过对这两种位置采用温度截断采样来不同地重塑token分布。熵感知在线策略蒸馏(Jin et al., 2026 (https://arxiv.org/html/2605.13255#bib.bib9))则混合逆向和正向KL项来改变蒸馏的几何结构。EGRSD对教师熵的使用方式与这两者都不同:它是对token级RLSD更新的一个乘性置信门控,在不切换散度目标或不训练单独的不确定性估计器的情况下,使锁定/分叉异质性变得明确。CL-EGRSD还额外保留了那些后续续文迅速变得自信的瞬态高熵*支点*位置,这是SSD的两类别公式无法覆盖的情况。
## 3 背景
我们总结了EGRSD所基于的两个目标函数。推导、停止梯度原理以及优势白化的细节请参见附录B (https://arxiv.org/html/2605.13255#A2)。
#### 符号。
令\(y_{i}=(y_{i,1}, ..., y_{i,T_i})\)表示从学生策略\(p_\theta\)在问题\(x\)上采样的第\(i\)个在线策略rollout,rollout位置为\(\mathcal{C}_i\),掩码\(m_{i,t}=\mathbb{1}[t\in\mathcal{C}_i]\)。*教师*\(p_T\)是训练期间保持固定的初始策略,以特权上下文\((x, s^\star)\)为条件,其中\(s^\star\)是参考答案。*学生*\(p_S = p_\theta\)初始化为相同的权重,是唯一可训练的组件,且仅以\((x)\)为条件。
#### 在线策略自蒸馏(OPSD)。
OPSD (Zhao et al., 2026 (https://arxiv.org/html/2605.13255#bib.bib30)) 在每个rollout位置上对齐学生与教师:
\[
\mathcal{L}_{\text{OPSD}} = \sum_{i,t: t\in\mathcal{C}_i} \text{KL}(p_T(\cdot | x, s^\star, y_{i,<t}) || p_S(\cdot | x, y_{i,<t}))
\]
这是一个密集的token级交叉熵损失,但存在一个根本性的限制:教师的前缀包含特权信息(\(x, s^\star\)),而学生的前缀只包含\(x\)。因此,即使学生完全准确地复制了教师的预测,由于不同的上下文,它们预测的分布也可能存在差异。这种上下文差距是OPSD训练-测试不匹配的主要来源。
#### 方向感知强化自蒸馏(RLSD)。
RLSD (Yang et al., 2026 (https://arxiv.org/html/2605.13255#bib.bib26)) 通过将奖励信号与教师-学生似然比相结合来解耦更新的*方向*和*幅度*,解决了上下文不匹配问题。RLSD的近似梯度可以写为:
\[
\nabla_\theta \mathcal{L}_{\text{RLSD}} \approx \sum_{i,t} m_{i,t} \cdot A_{i,t}^{\text{MC}} \cdot \rho_{i,t} \cdot \nabla_\theta \log p_S(y_{i,t} | x, y_{i,<t})
\]
其中,\(A_{i,t}^{\text{MC}} = R_i - b\)(蒙特卡洛优势,\(R_i\)是结果奖励,\(b\)是基线)给出了*方向*(增加还是减少该token的似然),而\(\rho_{i,t} = p_T(y_{i,t} | x, s^\star, y_{i,<t}) / p_S(y_{i,t} | x, y_{i,<t})\)(似然比)给出了*幅度*。
通过在方向上使用奖励优势\(A_{i,t}^{\text{MC}}\),RLSD恢复了标准OPSD中可能丢失的偶发信号;通过使用似然比,它在教师和学生因上下文而分布不同时保持了稳定性。
## 4 方法
我们提出了EGRSD(熵引导强化自蒸馏,§4.1 (https://arxiv.org/html/2605.13255#S4.SS1)),它引入了一个基于教师熵的乘性置信门控\(\omega_{i,t}\)。这个门控通过将每个token的更新乘以一个低熵区域接近1、高熵区域衰减(但保持非零下界)的权重,来自适应地重新加权RLSD梯度。然后,我们推导出一个基于最优收缩启发式(§4.2 (https://arxiv.org/html/2605.13255#S4.SS2))的特定参数化。最后,我们提出CL-EGRSD(§4.3 (https://arxiv.org/html/2605.13255#S4.SS3)),它用未来窗口中的最小未来熵替换瞬时熵,从而将瞬态高熵支点与持续的高熵分叉区分开来。
### 4.1 EGRSD:熵引导置信门控
在RLSD的分解基础上(方向和幅度),EGRSD添加了第三个信号:教师置信度,由特权教师\(p_T(\cdot | x, s^\star, y_{i,<t})\)在token \(y_{i,t}\)上的预测熵来测量。令\(H_{i,t} = \mathcal{H}(p_T(\cdot | x, s^\star, y_{i,<t}))\),其中\(\mathcal{H}(\cdot)\)是标准的香农熵。
我们定义归一化熵\(\hat{H}_{i,t} = (H_{i,t} - H_{\min}) / (H_{\max} - H_{\min})\),在minibatch内使用运行均值和标准差。EGRSD门控为:
\[
\omega_{i,t} = \omega(\hat{H}_{i,t}; \gamma) = \max\left(1 - \gamma \cdot \hat{H}_{i,t},\ \omega_{\min}\right)
\]
其中\(\omega_{\min} = 0.1\)是维护不确定分支位置信号的非零下界。
EGRSD的梯度为:
\[
\nabla_\theta \mathcal{L}_{\text{EGRSD}} = \sum_{i,t} m_{i,t} \cdot \omega_{i,t} \cdot A_{i,t}^{\text{MC}} \cdot \rho_{i,t} \cdot \nabla_\theta \log p_S(y_{i,t} | x, y_{i,<t})
\]
因此,RLSD在每个token上乘以门控\(\omega_{i,t}\)。低熵的确定性计算token保留几乎完整的更新幅度,而高熵的不确定位置则被衰减。这保留了每个rollout中明确、可靠的部分,同时抑制了噪声较大的部分,提高了蒸馏样本的信噪比。
### 4.2 基于最优收缩的门控参数化
我们通过一个代价敏感的启发式方法来设定EGRSD门控的斜率\(\gamma\),该启发式方法将门控视为在“信号”和“噪声”之间分配权重。假设在每个归一化熵水平\(\hat{H} \in [0,1]\)处,每个token的更新都有一个噪声-信号比\(\text{NSR}(\hat{H})\)。我们假设一个最坏情况下的线性噪声-信号代理:\(\text{NSR}(\hat{H}) \le a_0 \hat{H}\),其中\(a_0 > 0\)是最大噪声-信号比。由于\(\omega^\star\)关于\(\sigma^2 / \mu^2\)严格递减,代理的饱和情况\(\sigma^2 / \mu^2 = a_0 \hat{H}\)给出了*最坏情况下的收缩界*:
\[
\omega_{a_0}^\star(\hat{H}) = \frac{1}{1 + a_0 \hat{H}}, \quad \hat{H} \in [0,1]
\]
这是真实MSE最优收缩的下界:\(\omega^\star(\hat{H}) \ge \omega_{a_0}^\star(\hat{H})\)。我们使用\(\omega_{a_0}^\star\)作为参考曲线,因为它是与代理兼容的最激进收缩方案。
#### 端点弦线。
线性门控\(\omega(\hat{H}) = 1 - \gamma \hat{H}\)是\(\omega_{a_0}^\star\)在两个边界点\(\hat{H} \in \{0, 1\}\)处的割线。匹配端点,\(\omega(0) = \omega_{a_0}^\star(0) = 1\)自动成立,
\[
\omega(1) = \omega_{a_0}^\star(1) \iff 1 - \gamma = \frac{1}{1 + a_0}
\]
解得:
\[
\gamma = \frac{a_0}{1 + a_0} = \frac{\mathrm{NSR}_{\max}}{1 + \mathrm{NSR}_{\max}}
\]
其中\(\mathrm{NSR}_{\max} := a_0\)表示代理下在\(\hat{H}=1\)处的最坏情况噪声-信号比。由于当\(a_0 > 0\)时\(\omega_{a_0}^\star\)是严格凸的,线性门控在整个\([0,1]\)区间内位于或高于参考曲线,仅在两个端点处相等。我们不声称线性是MSE最优的。我们声称它是最简单的仿射形式,能够匹配归一化熵范围极值点处的最坏情况收缩界,并且得到的\(\gamma\)允许方程(13)中直接的噪声-信号比解读。
线性NSR代理\(\sigma^2 / \mu^2 \le a_0 \hat{H}\)是一个启发式方法:我们对\(a_0\)的数值不做出定量承诺。
### C.2 最小值作为极值因果平滑滤波器
###### 定义 1 (因果平滑滤波器族)
对于窗口\(W \ge 1\),令\(\mathcal{F}_W\)表示满足以下条件的函数\(\phi: \mathbb{R}_{\ge 0}^{W+1} \to \mathbb{R}_{\ge 0}\)的集合:对于每个输入\((h_0, ..., h_W)\)和每个\(c \ge 0\):
(a) **逐参数单调性**:\(\phi\)在每个坐标上分别是非递减的;
(b) **保守性**:\(\phi(h_0, ..., h_W) \le h_0\);
(c) **幂等性**:\(\phi(c, ..., c) = c\);
(d) **因果性**:\(\phi\)仅依赖于当前输入\(h_0\)和未来\(W\)个输入\(h_1, ..., h_W\)。
条件(b)是我们在该族中所要求的:门控的前瞻替换绝不应夸大当前低熵(锁定)位置的不确定性,因为这样做会衰减可靠的监督。标准窗口平均违反条件(b),每当低熵token跟随在一个高熵段之后时,因此被排除在外。
###### 引理 1 (逐点下界)
每个\(\phi \in \mathcal{F}_W\)满足\(\phi(h_0, ..., h_W) \ge \min_{0 \le j \le W} h_j\)。
###### 证明
令\(m := \min_j h_j\)。由于对于每个\(j\)有\(h_j \ge m\),由逐参数单调性(a)得\(\phi(h_0, ..., h_W) \ge \phi(m, ..., m)\)。由幂等性(c)得\(\phi(m, ..., m) = m\)。两者结合即得证。相似文章
用于LLM推理的自适应教师暴露自蒸馏方法
自适应教师暴露自蒸馏(ATESD)通过可学习的策略控制器和折扣学习进度奖励动态调整教师向学生展示参考推理的比例,从而提升LLM推理能力。在数学基准上的实验表明,该方法相较于现有自蒸馏和强化学习基线均取得了一致改进。
Anti-Self-Distillation for Reasoning RL via Pointwise Mutual Information
提出反自蒸馏(AntiSD),该方法逆转自蒸馏中的知识转移方向,以提高数学推理的效率和准确率,在4B到30B参数的多个模型上,用2-10倍更少的训练步数达到GRPO基线的准确率,最终准确率最高提升11.5个百分点。
@sheriyuo: Qwen Tongyi Lab提出RLCSD,一个关于同策略自蒸馏的简单但重要的批评。他们的关键观察是…
Qwen Tongyi Lab提出RLCSD以解决同策略自蒸馏中的风格漂移问题,该问题中学习信号集中在风格标记上,而非任务关键推理标记。他们的方法使用对比监督来聚焦于任务相关标记,在推理基准测试中取得了相较先前方法一致的改进。
向自我未来学习:面向扩散大语言模型的自策略知识蒸馏
介绍了 d-OPSD,这是首个面向扩散大语言模型的自策略知识蒸馏框架,采用后缀条件和步骤级别监督,在推理基准上优于 RLVR 和 SFT 基线。
教师令牌何时可靠?基于位置加权的在线策略自蒸馏方法在推理中的应用
本文发现,推理蒸馏中教师令牌的可靠性具有轨迹结构特性,并提出了基于位置加权的在线策略自蒸馏方法(PW-OPSD),该方法通过应用递增的位置权重,在不增加教师计算量的情况下提升了性能。