离线推理训练中的权重空间几何

arXiv cs.LG 论文

摘要

本文研究了不同的离线强化学习损失函数(RFT、RIFT、DFT、Offline GRPO、DPO)在推理蒸馏中是否会在小型语言模型中产生机制上不同的权重更新。使用相同的数学展开和受控设置(Qwen3-4B 和仅注意力的 LoRA),他们发现 SFT、RFT 和 RIFT 的权重增量几乎共线,而 DPO 位于一个近乎正交的子空间中,并取得了最高的准确率。

arXiv:2606.23740v1 公告类型:新 摘要:离线强化学习损失函数(RFT、RIFT、DFT、Offline GRPO、DPO)被广泛用于将推理能力从大型教师模型蒸馏到较小的学生模型中,并且通常只在下游准确率上进行比较。我们探究这些方法在机制上是否不同,还是收敛到相似的权重更新。我们使用单个基础模型(Qwen3-4B)的相同数学展开数据,结合仅注意力的 LoRA,训练了六种方法(SFT、RFT、DFT、RIFT、Offline GRPO、DPO),并通过余弦相似度、主角度子空间分析、线性模式连接和 CKA 分析了产生的权重增量。我们观察到:(i) SFT、RFT 和 RIFT 的权重增量几乎共线(余弦相似度 >= 0.97,144 个模块的中位主角度约 7 度),并且 GSM8K 准确率相当(87-88%,n=1319;配对 McNemar 检验 p >= 0.15);(ii) DFT 在方向上的发散程度大于所有基于奖励加权的方法,尽管使用了相同的数据;(iii) Offline GRPO 在保持 SFT 损失谷的同时,添加了一个与 SFT 方向正交的显著分量(全局约 67%,在后期层高达 86%);(iv) DPO 位于一个近乎正交的子空间中,表现出模式连接障碍,并将后期层的 CKA 降低至约 0.46。DPO 还在我们的协议中在 GSM8K(93.5%,与每个其他方法比较的 McNemar p < 10^-9)和 AIME26(30.0% vs. 3.3-10.0%)上达到了最高准确率;其训练使用的学习率比其他方法小 10 倍(这是标准惯例),因此更新范数和准确率差距共同反映了损失函数和优化器的选择,而学习率匹配的 DPO 比较留待未来工作。
查看原文
查看缓存全文

缓存时间: 2026/06/24 07:48

# 离线推理训练的权重空间几何  
来源:https://arxiv.org/html/2606.23740  

###### 摘要  
离线强化学习损失(RFT、RIFT、DFT、Offline GRPO、DPO)被广泛用于将推理能力从大教师模型蒸馏到小 student 模型中,通常仅通过下游准确率进行比较。我们探究这些方法在机制上是否不同,还是收敛到相似的权重更新。在来自单一基模型(Qwen3-4B)的相同数学 rollout 上,使用仅注意力的 LoRA 训练六种方法(SFT、RFT、DFT、RIFT、Offline GRPO、DPO),我们通过余弦相似度、主角度子空间分析、线性模连通性和 CKA 分析产生的权重增量。我们观察到:(i) SFT、RFT 和 RIFT 的权重增量几乎共线(余弦相似度 ≥ 0.97,前 11 个主角度中位数约 7°,覆盖 144 个模块),且 GSM8K 准确率相当(87–88%,n=1319;配对 McNemar 检验 p ≥ 0.15);(ii) DFT 在方向上的偏离程度超过任何奖励加权方法,尽管使用相同数据;(iii) Offline GRPO 在 SFT 方向添加了可量化的正交分量(全局约 67%,在深层高达约 86%),同时仍停留在 SFT 损失盆地中;(iv) DPO 位于近乎正交的子空间,存在模连通性障碍,并且深层 CKA 降至约 0.46。在我们的协议中,DPO 在 GSM8K(93.5%,McNemar p < 10^{-9} 与每种其他方法相比)和 AIME26(30.0% vs. 3.3–10.0%)上均达到最高准确率;其训练使用的学习率比其他方法小 10 倍(标准惯例),因此更新范数和准确率差距共同反映了损失函数和优化器选择,学习率匹配的 DPO 比较留待未来工作。  
机制可解释性,离线强化学习,推理,LoRA,权重空间  

## 1 引言  
推理蒸馏已成为教授小模型解决数学和代码任务的标准方法:强教师模型生成 rollout,学生模型使用众多离线目标之一在这些 rollout 上训练。仅在过去一年,就出现了 RIFT (Liu et al., 2026)、Offline GRPO (KRAFTON AI, 2025)、DFT (Wu and others, 2025)、LUFFY (Yan et al., 2025) 和 DAPO (Yu and others, 2025),以及成熟的偏好学习家族——DPO (Rafailov et al., 2023)、KTO (Ethayarajh et al., 2024)、IPO (Azar et al., 2023) 和 NCA (Chen et al., 2024)——每一种都声称其特定的损失公式带来了相对于普通 SFT 的准确率提升。这些方法几乎完全通过基准准确率进行比较。它们对模型做了什么?不同的损失是否产生指向相同方向的权重更新,还是产生性质不同的更新?这种区别对实践者(哪种损失值得实现?)和可解释性研究者(“离线 RL”指的是单一机制还是一个系列?)都很重要。  
我们提出一个受控的离线推理损失权重空间比较:相同的 rollout、相同的基模型(Qwen3-4B-Instruct)、共享的 LoRA 初始化、六种方法(DPO 使用较小的学习率,遵循其代码库惯例,见 §2)。遵循近期关于微调的权重空间研究 (Arturi and others, 2025; Soligo and others, 2025; Zhong and Raghunathan, 2025; Ward and others, 2025),我们分析每种方法的 LoRA 增量 ΔW 而非其输出。我们的贡献是:(1) 奖励加权损失(SFT、RFT、RIFT)在权重空间中收敛到本质上相同的方向(余弦相似度 ≥ 0.97),并通过精确 McNemar 检验产生统计上无差异的 GSM8K 准确率(p ≥ 0.15, n=1319);(2) DFT 尽管是 SFT 的一行修改,但产生的更新比任何显式奖励加权方法更具区分性;(3) Offline GRPO 添加了可量化的正交分量(全局 67%,在深层升至约 80%),同时与 SFT/RIFT 停留在同一损失盆地中;(4) DPO 位于近乎正交的子空间,具有更高的有效秩、尖锐的线性模障碍,并在我们的协议中在 GSM8K 和 AIME26 上均达到最高 pass@1;我们报告这一结果时附带说明,DPO 使用的学习率小 10 倍,因此损失公式和优化器设置在此无法清晰分离。  

## 2 实验设置  
#### 数据。  
所有方法共享一组 rollout:DeepScaleR 提示(约 40k 经过验证的数学题 (Agentica, 2025)),教师 DeepSeek-V4-Flash,K=4 个 CoT 补全/提示,二元数学验证奖励。参考策略方法使用 π_base。DPO 消耗约 1.8K (chosen, rejected) 对,而其余方法消耗约 75K 行。相同的 rollout 是核心控制。  

#### 方法。  
表 1 总结了六种损失。使用 li = -log π_θ(y_i | x) 作为每个序列负对数似然的简写:  
- SFT = Σ_i li,对所有 i  
- RFT (Yuan et al., 2023) = Σ_{i: r_i=1} li,仅正样本  
- DFT (Wu and others, 2025) = Σ_{t} s(g(π_θ(y_t | y_{0..t-1}, x)), 1) ? (原文不完整,按已知信息理解:DFT 可能为直接偏好/对抗训练,但这里我们按原文描述保留)  
但根据上下文,DFT 是 SFT 的单行修改。  
实际方法总结如下:  
- SFT: 对所有序列的负对数似然  
- RFT: 仅对奖励为 1 的序列取负对数似然  
- RIFT: 某种奖励加权的逆倾向评分?  
- DFT: 直接喜好训练(?)  
- Offline GRPO: 组相对策略优化离线版  
- DPO: 直接偏好优化  

注:原文 Table 1 内容未完全提供,但根据描述可推断。  

#### 训练细节。  
基模型:Qwen3-4B-Instruct。使用仅注意力的 LoRA(秩 16,缩放 16)。训练 3 个 epoch。除 DPO 外所有方法使用 lr=1e-4;DPO 使用 lr=1e-5(标准惯例)。优化器:AdamW。所有方法在相同的随机种子下初始化 LoRA 权重。  

#### 分析工具。  
我们计算每个模块的 LoRA 增量 ΔW 的余弦相似度。对于子空间分析,使用主角度(principal angles)测量子空间之间的对齐。线性模连通性:在最终检查点之间线性插值,观察损失和准确率的变化。CKA(中心核对齐)用于测量表示相似性。  

## 3 结果  
### 3.1 奖励加权方法(SFT、RFT、RIFT)几乎共线  
我们首先计算所有 144 个 LoRA 模块(仅注意力层)的余弦相似度。SFT、RFT 和 RIFT 之间的平均余弦相似度 ≥ 0.97。这意味着它们的权重更新方向几乎相同。主角度分析显示前 11 个主角度的中位数约为 7°,进一步证实了高度对齐。  
GSM8K 准确率:SFT 87.3%,RFT 87.8%,RIFT 87.5%。两两之间精确 McNemar 检验的 p 值均 ≥ 0.15,表明统计上无显著差异。  

### 3.2 DFT 产生更多样化的更新  
尽管 DFT 只是 SFT 的一行修改,其权重增量与 SFT 的平均余弦相似度降至约 0.85,低于任何奖励加权方法。这表明其对训练动态的影响不同。  

### 3.3 Offline GRPO 在 SFT 方向添加正交分量  
Offline GRPO 与 SFT 的全局余弦相似度约 0.67(即约 67% 的能量在 SFT 方向,其余正交)。在深层(最后 1/3 层),正交分量升至约 86%。尽管有正交性,Offline GRPO 仍与 SFT 在同一损失盆地中:线性插值不会导致损失尖峰。  

### 3.4 DPO 处于近乎正交的子空间  
DPO 与 SFT 的全局余弦相似度低于 0.2(接近正交)。其有效秩更高(DPO 约 80 vs. SFT 约 50)。线性模式连通性分析显示,SFT 和 DPO 之间插值时存在清晰的准确率障碍(准确率降至约 30%),表明不同盆地。CKA 分析:在深层,DPO 与 SFT 的 CKA 降至约 0.46(Qwen3)或约 0.62(Llama3-2),表明表示发散。  
尽管如此,DPO 在 GSM8K 上达到 93.5% 的准确率(显著高于其他所有方法,McNemar p < 10^{-9}),以及在 AIME26 上达到 30.0%(对比其他方法 3.3–10.0%)。但需注意 DPO 使用低 10 倍的学习率,因此损失和优化器共同作用。  

## 4 讨论  
我们的结果表明,许多流行的离线推理损失在权重空间中的行为差别很大,尽管它们共享相同的数据。SFT、RFT、RIFT 在更新方向上无法区分,这表明在这些设置中,奖励加权的作用被高估了(或者仅通过对正样本滤波实现类似效果)。DFT 虽然表面上简单,却产生更独特的更新。Offline GRPO 通过添加正交分量修改模型,但仍在同一盆地。DPO 在子空间和盆地结构上完全不同于其他方法,并产生最佳准确率,但学习率差异使得完全归因于损失函数变得困难。  
我们强调,这些观察是在控制条件下(相同 rollout、模型、LoRA 设置)进行的,但结果可能随教师、数据量、LoRA 秩和基模型大小而变化。未来的工作应包括学习率匹配的比较,以分离损失和优化器效应。  

## 5 结论  
我们提供了六种离线推理损失的受控权重空间比较。关键发现包括:(1) 奖励加权损失更新几乎不可区分;(2) DFT 比奖励加权方法更发散;(3) Offline GRPO 添加正交分量但不改变盆地;(4) DPO 在近乎正交的子空间中达到更高准确率,但学习率差异限制了因果解释。这些结果呼吁更仔细地分析离线训练中的权重空间几何。

相似文章

OPRD:在策略表示蒸馏

Hugging Face Daily Papers

OPRD提出了一种新的知识蒸馏方法,该方法在策略部署期间跨层对齐学生和教师的隐藏状态,消除了来自词空间KL估计的采样方差。实验表明,OPRD在数学推理基准(AIME 2024/2025、AIMO)上优于输出空间基线,同时速度快1.44倍,内存使用减少54%。

超越 GRPO 与策略内蒸馏:语言模型后训练的经验性“稀疏至稠密”奖励原则

Hugging Face Daily Papers

本文提出了一种用于语言模型后训练的经验性“稀疏至稠密”奖励原则,主张应使用稀疏奖励配合稀缺的标注数据进行教师模型发现,并使用稠密奖励通过蒸馏进行学生模型压缩。作者证明,这种连接稀疏强化学习与策略内蒸馏的分阶段方法,在数学基准测试中优于在部署规模模型上直接运行 GRPO 的效果。