离线推理训练中的权重空间几何
摘要
本文研究了不同的离线强化学习损失函数(RFT、RIFT、DFT、Offline GRPO、DPO)在推理蒸馏中是否会在小型语言模型中产生机制上不同的权重更新。使用相同的数学展开和受控设置(Qwen3-4B 和仅注意力的 LoRA),他们发现 SFT、RFT 和 RIFT 的权重增量几乎共线,而 DPO 位于一个近乎正交的子空间中,并取得了最高的准确率。
查看缓存全文
缓存时间: 2026/06/24 07:48
# 离线推理训练的权重空间几何
来源:https://arxiv.org/html/2606.23740
###### 摘要
离线强化学习损失(RFT、RIFT、DFT、Offline GRPO、DPO)被广泛用于将推理能力从大教师模型蒸馏到小 student 模型中,通常仅通过下游准确率进行比较。我们探究这些方法在机制上是否不同,还是收敛到相似的权重更新。在来自单一基模型(Qwen3-4B)的相同数学 rollout 上,使用仅注意力的 LoRA 训练六种方法(SFT、RFT、DFT、RIFT、Offline GRPO、DPO),我们通过余弦相似度、主角度子空间分析、线性模连通性和 CKA 分析产生的权重增量。我们观察到:(i) SFT、RFT 和 RIFT 的权重增量几乎共线(余弦相似度 ≥ 0.97,前 11 个主角度中位数约 7°,覆盖 144 个模块),且 GSM8K 准确率相当(87–88%,n=1319;配对 McNemar 检验 p ≥ 0.15);(ii) DFT 在方向上的偏离程度超过任何奖励加权方法,尽管使用相同数据;(iii) Offline GRPO 在 SFT 方向添加了可量化的正交分量(全局约 67%,在深层高达约 86%),同时仍停留在 SFT 损失盆地中;(iv) DPO 位于近乎正交的子空间,存在模连通性障碍,并且深层 CKA 降至约 0.46。在我们的协议中,DPO 在 GSM8K(93.5%,McNemar p < 10^{-9} 与每种其他方法相比)和 AIME26(30.0% vs. 3.3–10.0%)上均达到最高准确率;其训练使用的学习率比其他方法小 10 倍(标准惯例),因此更新范数和准确率差距共同反映了损失函数和优化器选择,学习率匹配的 DPO 比较留待未来工作。
机制可解释性,离线强化学习,推理,LoRA,权重空间
## 1 引言
推理蒸馏已成为教授小模型解决数学和代码任务的标准方法:强教师模型生成 rollout,学生模型使用众多离线目标之一在这些 rollout 上训练。仅在过去一年,就出现了 RIFT (Liu et al., 2026)、Offline GRPO (KRAFTON AI, 2025)、DFT (Wu and others, 2025)、LUFFY (Yan et al., 2025) 和 DAPO (Yu and others, 2025),以及成熟的偏好学习家族——DPO (Rafailov et al., 2023)、KTO (Ethayarajh et al., 2024)、IPO (Azar et al., 2023) 和 NCA (Chen et al., 2024)——每一种都声称其特定的损失公式带来了相对于普通 SFT 的准确率提升。这些方法几乎完全通过基准准确率进行比较。它们对模型做了什么?不同的损失是否产生指向相同方向的权重更新,还是产生性质不同的更新?这种区别对实践者(哪种损失值得实现?)和可解释性研究者(“离线 RL”指的是单一机制还是一个系列?)都很重要。
我们提出一个受控的离线推理损失权重空间比较:相同的 rollout、相同的基模型(Qwen3-4B-Instruct)、共享的 LoRA 初始化、六种方法(DPO 使用较小的学习率,遵循其代码库惯例,见 §2)。遵循近期关于微调的权重空间研究 (Arturi and others, 2025; Soligo and others, 2025; Zhong and Raghunathan, 2025; Ward and others, 2025),我们分析每种方法的 LoRA 增量 ΔW 而非其输出。我们的贡献是:(1) 奖励加权损失(SFT、RFT、RIFT)在权重空间中收敛到本质上相同的方向(余弦相似度 ≥ 0.97),并通过精确 McNemar 检验产生统计上无差异的 GSM8K 准确率(p ≥ 0.15, n=1319);(2) DFT 尽管是 SFT 的一行修改,但产生的更新比任何显式奖励加权方法更具区分性;(3) Offline GRPO 添加了可量化的正交分量(全局 67%,在深层升至约 80%),同时与 SFT/RIFT 停留在同一损失盆地中;(4) DPO 位于近乎正交的子空间,具有更高的有效秩、尖锐的线性模障碍,并在我们的协议中在 GSM8K 和 AIME26 上均达到最高 pass@1;我们报告这一结果时附带说明,DPO 使用的学习率小 10 倍,因此损失公式和优化器设置在此无法清晰分离。
## 2 实验设置
#### 数据。
所有方法共享一组 rollout:DeepScaleR 提示(约 40k 经过验证的数学题 (Agentica, 2025)),教师 DeepSeek-V4-Flash,K=4 个 CoT 补全/提示,二元数学验证奖励。参考策略方法使用 π_base。DPO 消耗约 1.8K (chosen, rejected) 对,而其余方法消耗约 75K 行。相同的 rollout 是核心控制。
#### 方法。
表 1 总结了六种损失。使用 li = -log π_θ(y_i | x) 作为每个序列负对数似然的简写:
- SFT = Σ_i li,对所有 i
- RFT (Yuan et al., 2023) = Σ_{i: r_i=1} li,仅正样本
- DFT (Wu and others, 2025) = Σ_{t} s(g(π_θ(y_t | y_{0..t-1}, x)), 1) ? (原文不完整,按已知信息理解:DFT 可能为直接偏好/对抗训练,但这里我们按原文描述保留)
但根据上下文,DFT 是 SFT 的单行修改。
实际方法总结如下:
- SFT: 对所有序列的负对数似然
- RFT: 仅对奖励为 1 的序列取负对数似然
- RIFT: 某种奖励加权的逆倾向评分?
- DFT: 直接喜好训练(?)
- Offline GRPO: 组相对策略优化离线版
- DPO: 直接偏好优化
注:原文 Table 1 内容未完全提供,但根据描述可推断。
#### 训练细节。
基模型:Qwen3-4B-Instruct。使用仅注意力的 LoRA(秩 16,缩放 16)。训练 3 个 epoch。除 DPO 外所有方法使用 lr=1e-4;DPO 使用 lr=1e-5(标准惯例)。优化器:AdamW。所有方法在相同的随机种子下初始化 LoRA 权重。
#### 分析工具。
我们计算每个模块的 LoRA 增量 ΔW 的余弦相似度。对于子空间分析,使用主角度(principal angles)测量子空间之间的对齐。线性模连通性:在最终检查点之间线性插值,观察损失和准确率的变化。CKA(中心核对齐)用于测量表示相似性。
## 3 结果
### 3.1 奖励加权方法(SFT、RFT、RIFT)几乎共线
我们首先计算所有 144 个 LoRA 模块(仅注意力层)的余弦相似度。SFT、RFT 和 RIFT 之间的平均余弦相似度 ≥ 0.97。这意味着它们的权重更新方向几乎相同。主角度分析显示前 11 个主角度的中位数约为 7°,进一步证实了高度对齐。
GSM8K 准确率:SFT 87.3%,RFT 87.8%,RIFT 87.5%。两两之间精确 McNemar 检验的 p 值均 ≥ 0.15,表明统计上无显著差异。
### 3.2 DFT 产生更多样化的更新
尽管 DFT 只是 SFT 的一行修改,其权重增量与 SFT 的平均余弦相似度降至约 0.85,低于任何奖励加权方法。这表明其对训练动态的影响不同。
### 3.3 Offline GRPO 在 SFT 方向添加正交分量
Offline GRPO 与 SFT 的全局余弦相似度约 0.67(即约 67% 的能量在 SFT 方向,其余正交)。在深层(最后 1/3 层),正交分量升至约 86%。尽管有正交性,Offline GRPO 仍与 SFT 在同一损失盆地中:线性插值不会导致损失尖峰。
### 3.4 DPO 处于近乎正交的子空间
DPO 与 SFT 的全局余弦相似度低于 0.2(接近正交)。其有效秩更高(DPO 约 80 vs. SFT 约 50)。线性模式连通性分析显示,SFT 和 DPO 之间插值时存在清晰的准确率障碍(准确率降至约 30%),表明不同盆地。CKA 分析:在深层,DPO 与 SFT 的 CKA 降至约 0.46(Qwen3)或约 0.62(Llama3-2),表明表示发散。
尽管如此,DPO 在 GSM8K 上达到 93.5% 的准确率(显著高于其他所有方法,McNemar p < 10^{-9}),以及在 AIME26 上达到 30.0%(对比其他方法 3.3–10.0%)。但需注意 DPO 使用低 10 倍的学习率,因此损失和优化器共同作用。
## 4 讨论
我们的结果表明,许多流行的离线推理损失在权重空间中的行为差别很大,尽管它们共享相同的数据。SFT、RFT、RIFT 在更新方向上无法区分,这表明在这些设置中,奖励加权的作用被高估了(或者仅通过对正样本滤波实现类似效果)。DFT 虽然表面上简单,却产生更独特的更新。Offline GRPO 通过添加正交分量修改模型,但仍在同一盆地。DPO 在子空间和盆地结构上完全不同于其他方法,并产生最佳准确率,但学习率差异使得完全归因于损失函数变得困难。
我们强调,这些观察是在控制条件下(相同 rollout、模型、LoRA 设置)进行的,但结果可能随教师、数据量、LoRA 秩和基模型大小而变化。未来的工作应包括学习率匹配的比较,以分离损失和优化器效应。
## 5 结论
我们提供了六种离线推理损失的受控权重空间比较。关键发现包括:(1) 奖励加权损失更新几乎不可区分;(2) DFT 比奖励加权方法更发散;(3) Offline GRPO 添加正交分量但不改变盆地;(4) DPO 在近乎正交的子空间中达到更高准确率,但学习率差异限制了因果解释。这些结果呼吁更仔细地分析离线训练中的权重空间几何。相似文章
面向大型语言模型的分布校正离线数据蒸馏
本文提出了一种原则性的离线推理蒸馏框架,能够校正教师-学生分布漂移,在数学基准测试上提升推理准确性,且无需在线推理。
@LakshyAAAgrawal: 从丰富的文本反馈(错误、轨迹、部分推理)中学习,对于LLM优化来说,优于仅使用标量奖励。…
快速-慢速训练(FST)将上下文优化(通过GEPA)与通过强化学习进行的模型权重更新交替进行,在数学、代码和物理推理上实现了比单独使用RL高3倍的样本效率,同时保持了可塑性并实现了持续学习。
OPRD:在策略表示蒸馏
OPRD提出了一种新的知识蒸馏方法,该方法在策略部署期间跨层对齐学生和教师的隐藏状态,消除了来自词空间KL估计的采样方差。实验表明,OPRD在数学推理基准(AIME 2024/2025、AIMO)上优于输出空间基线,同时速度快1.44倍,内存使用减少54%。
教师令牌何时可靠?基于位置加权的在线策略自蒸馏方法在推理中的应用
本文发现,推理蒸馏中教师令牌的可靠性具有轨迹结构特性,并提出了基于位置加权的在线策略自蒸馏方法(PW-OPSD),该方法通过应用递增的位置权重,在不增加教师计算量的情况下提升了性能。
超越 GRPO 与策略内蒸馏:语言模型后训练的经验性“稀疏至稠密”奖励原则
本文提出了一种用于语言模型后训练的经验性“稀疏至稠密”奖励原则,主张应使用稀疏奖励配合稀缺的标注数据进行教师模型发现,并使用稠密奖励通过蒸馏进行学生模型压缩。作者证明,这种连接稀疏强化学习与策略内蒸馏的分阶段方法,在数学基准测试中优于在部署规模模型上直接运行 GRPO 的效果。