离线推理训练中的权重空间几何

arXiv cs.LG 2026/06/24 04:00 论文

mechanistic-interpretability offline-rl reasoning-distillation lora weight-space fine-tuning

摘要

本文研究了不同的离线强化学习损失函数（RFT、RIFT、DFT、Offline GRPO、DPO）在推理蒸馏中是否会在小型语言模型中产生机制上不同的权重更新。使用相同的数学展开和受控设置（Qwen3-4B 和仅注意力的 LoRA），他们发现 SFT、RFT 和 RIFT 的权重增量几乎共线，而 DPO 位于一个近乎正交的子空间中，并取得了最高的准确率。

arXiv:2606.23740v1 公告类型：新摘要：离线强化学习损失函数（RFT、RIFT、DFT、Offline GRPO、DPO）被广泛用于将推理能力从大型教师模型蒸馏到较小的学生模型中，并且通常只在下游准确率上进行比较。我们探究这些方法在机制上是否不同，还是收敛到相似的权重更新。我们使用单个基础模型（Qwen3-4B）的相同数学展开数据，结合仅注意力的 LoRA，训练了六种方法（SFT、RFT、DFT、RIFT、Offline GRPO、DPO），并通过余弦相似度、主角度子空间分析、线性模式连接和 CKA 分析了产生的权重增量。我们观察到：(i) SFT、RFT 和 RIFT 的权重增量几乎共线（余弦相似度 >= 0.97，144 个模块的中位主角度约 7 度），并且 GSM8K 准确率相当（87-88%，n=1319；配对 McNemar 检验 p >= 0.15）；(ii) DFT 在方向上的发散程度大于所有基于奖励加权的方法，尽管使用了相同的数据；(iii) Offline GRPO 在保持 SFT 损失谷的同时，添加了一个与 SFT 方向正交的显著分量（全局约 67%，在后期层高达 86%）；(iv) DPO 位于一个近乎正交的子空间中，表现出模式连接障碍，并将后期层的 CKA 降低至约 0.46。DPO 还在我们的协议中在 GSM8K（93.5%，与每个其他方法比较的 McNemar p < 10^-9）和 AIME26（30.0% vs. 3.3-10.0%）上达到了最高准确率；其训练使用的学习率比其他方法小 10 倍（这是标准惯例），因此更新范数和准确率差距共同反映了损失函数和优化器的选择，而学习率匹配的 DPO 比较留待未来工作。

查看原文

查看缓存全文

缓存时间: 2026/06/24 07:48

# 离线推理训练的权重空间几何  
来源：https://arxiv.org/html/2606.23740  

###### 摘要  
离线强化学习损失（RFT、RIFT、DFT、Offline GRPO、DPO）被广泛用于将推理能力从大教师模型蒸馏到小 student 模型中，通常仅通过下游准确率进行比较。我们探究这些方法在机制上是否不同，还是收敛到相似的权重更新。在来自单一基模型（Qwen3-4B）的相同数学 rollout 上，使用仅注意力的 LoRA 训练六种方法（SFT、RFT、DFT、RIFT、Offline GRPO、DPO），我们通过余弦相似度、主角度子空间分析、线性模连通性和 CKA 分析产生的权重增量。我们观察到：(i) SFT、RFT 和 RIFT 的权重增量几乎共线（余弦相似度 ≥ 0.97，前 11 个主角度中位数约 7°，覆盖 144 个模块），且 GSM8K 准确率相当（87–88%，n=1319；配对 McNemar 检验 p ≥ 0.15）；(ii) DFT 在方向上的偏离程度超过任何奖励加权方法，尽管使用相同数据；(iii) Offline GRPO 在 SFT 方向添加了可量化的正交分量（全局约 67%，在深层高达约 86%），同时仍停留在 SFT 损失盆地中；(iv) DPO 位于近乎正交的子空间，存在模连通性障碍，并且深层 CKA 降至约 0.46。在我们的协议中，DPO 在 GSM8K（93.5%，McNemar p < 10^{-9} 与每种其他方法相比）和 AIME26（30.0% vs. 3.3–10.0%）上均达到最高准确率；其训练使用的学习率比其他方法小 10 倍（标准惯例），因此更新范数和准确率差距共同反映了损失函数和优化器选择，学习率匹配的 DPO 比较留待未来工作。  
机制可解释性，离线强化学习，推理，LoRA，权重空间  

## 1 引言  
推理蒸馏已成为教授小模型解决数学和代码任务的标准方法：强教师模型生成 rollout，学生模型使用众多离线目标之一在这些 rollout 上训练。仅在过去一年，就出现了 RIFT (Liu et al., 2026)、Offline GRPO (KRAFTON AI, 2025)、DFT (Wu and others, 2025)、LUFFY (Yan et al., 2025) 和 DAPO (Yu and others, 2025)，以及成熟的偏好学习家族——DPO (Rafailov et al., 2023)、KTO (Ethayarajh et al., 2024)、IPO (Azar et al., 2023) 和 NCA (Chen et al., 2024)——每一种都声称其特定的损失公式带来了相对于普通 SFT 的准确率提升。这些方法几乎完全通过基准准确率进行比较。它们对模型做了什么？不同的损失是否产生指向相同方向的权重更新，还是产生性质不同的更新？这种区别对实践者（哪种损失值得实现？）和可解释性研究者（“离线 RL”指的是单一机制还是一个系列？）都很重要。  
我们提出一个受控的离线推理损失权重空间比较：相同的 rollout、相同的基模型（Qwen3-4B-Instruct）、共享的 LoRA 初始化、六种方法（DPO 使用较小的学习率，遵循其代码库惯例，见 §2）。遵循近期关于微调的权重空间研究 (Arturi and others, 2025; Soligo and others, 2025; Zhong and Raghunathan, 2025; Ward and others, 2025)，我们分析每种方法的 LoRA 增量 ΔW 而非其输出。我们的贡献是：(1) 奖励加权损失（SFT、RFT、RIFT）在权重空间中收敛到本质上相同的方向（余弦相似度 ≥ 0.97），并通过精确 McNemar 检验产生统计上无差异的 GSM8K 准确率（p ≥ 0.15, n=1319）；(2) DFT 尽管是 SFT 的一行修改，但产生的更新比任何显式奖励加权方法更具区分性；(3) Offline GRPO 添加了可量化的正交分量（全局 67%，在深层升至约 80%），同时与 SFT/RIFT 停留在同一损失盆地中；(4) DPO 位于近乎正交的子空间，具有更高的有效秩、尖锐的线性模障碍，并在我们的协议中在 GSM8K 和 AIME26 上均达到最高 pass@1；我们报告这一结果时附带说明，DPO 使用的学习率小 10 倍，因此损失公式和优化器设置在此无法清晰分离。  

## 2 实验设置  
#### 数据。  
所有方法共享一组 rollout：DeepScaleR 提示（约 40k 经过验证的数学题 (Agentica, 2025)），教师 DeepSeek-V4-Flash，K=4 个 CoT 补全/提示，二元数学验证奖励。参考策略方法使用 π_base。DPO 消耗约 1.8K (chosen, rejected) 对，而其余方法消耗约 75K 行。相同的 rollout 是核心控制。  

#### 方法。  
表 1 总结了六种损失。使用 li = -log π_θ(y_i | x) 作为每个序列负对数似然的简写：  
- SFT = Σ_i li，对所有 i  
- RFT (Yuan et al., 2023) = Σ_{i: r_i=1} li，仅正样本  
- DFT (Wu and others, 2025) = Σ_{t} s(g(π_θ(y_t | y_{0..t-1}, x)), 1) ? （原文不完整，按已知信息理解：DFT 可能为直接偏好/对抗训练，但这里我们按原文描述保留）  
但根据上下文，DFT 是 SFT 的单行修改。  
实际方法总结如下：  
- SFT: 对所有序列的负对数似然  
- RFT: 仅对奖励为 1 的序列取负对数似然  
- RIFT: 某种奖励加权的逆倾向评分？  
- DFT: 直接喜好训练（？）  
- Offline GRPO: 组相对策略优化离线版  
- DPO: 直接偏好优化  

注：原文 Table 1 内容未完全提供，但根据描述可推断。  

#### 训练细节。  
基模型：Qwen3-4B-Instruct。使用仅注意力的 LoRA（秩 16，缩放 16）。训练 3 个 epoch。除 DPO 外所有方法使用 lr=1e-4；DPO 使用 lr=1e-5（标准惯例）。优化器：AdamW。所有方法在相同的随机种子下初始化 LoRA 权重。  

#### 分析工具。  
我们计算每个模块的 LoRA 增量 ΔW 的余弦相似度。对于子空间分析，使用主角度（principal angles）测量子空间之间的对齐。线性模连通性：在最终检查点之间线性插值，观察损失和准确率的变化。CKA（中心核对齐）用于测量表示相似性。  

## 3 结果  
### 3.1 奖励加权方法（SFT、RFT、RIFT）几乎共线  
我们首先计算所有 144 个 LoRA 模块（仅注意力层）的余弦相似度。SFT、RFT 和 RIFT 之间的平均余弦相似度 ≥ 0.97。这意味着它们的权重更新方向几乎相同。主角度分析显示前 11 个主角度的中位数约为 7°，进一步证实了高度对齐。  
GSM8K 准确率：SFT 87.3%，RFT 87.8%，RIFT 87.5%。两两之间精确 McNemar 检验的 p 值均 ≥ 0.15，表明统计上无显著差异。  

### 3.2 DFT 产生更多样化的更新  
尽管 DFT 只是 SFT 的一行修改，其权重增量与 SFT 的平均余弦相似度降至约 0.85，低于任何奖励加权方法。这表明其对训练动态的影响不同。  

### 3.3 Offline GRPO 在 SFT 方向添加正交分量  
Offline GRPO 与 SFT 的全局余弦相似度约 0.67（即约 67% 的能量在 SFT 方向，其余正交）。在深层（最后 1/3 层），正交分量升至约 86%。尽管有正交性，Offline GRPO 仍与 SFT 在同一损失盆地中：线性插值不会导致损失尖峰。  

### 3.4 DPO 处于近乎正交的子空间  
DPO 与 SFT 的全局余弦相似度低于 0.2（接近正交）。其有效秩更高（DPO 约 80 vs. SFT 约 50）。线性模式连通性分析显示，SFT 和 DPO 之间插值时存在清晰的准确率障碍（准确率降至约 30%），表明不同盆地。CKA 分析：在深层，DPO 与 SFT 的 CKA 降至约 0.46（Qwen3）或约 0.62（Llama3-2），表明表示发散。  
尽管如此，DPO 在 GSM8K 上达到 93.5% 的准确率（显著高于其他所有方法，McNemar p < 10^{-9}），以及在 AIME26 上达到 30.0%（对比其他方法 3.3–10.0%）。但需注意 DPO 使用低 10 倍的学习率，因此损失和优化器共同作用。  

## 4 讨论  
我们的结果表明，许多流行的离线推理损失在权重空间中的行为差别很大，尽管它们共享相同的数据。SFT、RFT、RIFT 在更新方向上无法区分，这表明在这些设置中，奖励加权的作用被高估了（或者仅通过对正样本滤波实现类似效果）。DFT 虽然表面上简单，却产生更独特的更新。Offline GRPO 通过添加正交分量修改模型，但仍在同一盆地。DPO 在子空间和盆地结构上完全不同于其他方法，并产生最佳准确率，但学习率差异使得完全归因于损失函数变得困难。  
我们强调，这些观察是在控制条件下（相同 rollout、模型、LoRA 设置）进行的，但结果可能随教师、数据量、LoRA 秩和基模型大小而变化。未来的工作应包括学习率匹配的比较，以分离损失和优化器效应。  

## 5 结论  
我们提供了六种离线推理损失的受控权重空间比较。关键发现包括：(1) 奖励加权损失更新几乎不可区分；(2) DFT 比奖励加权方法更发散；(3) Offline GRPO 添加正交分量但不改变盆地；(4) DPO 在近乎正交的子空间中达到更高准确率，但学习率差异限制了因果解释。这些结果呼吁更仔细地分析离线训练中的权重空间几何。

离线推理训练中的权重空间几何

相似文章

面向大型语言模型的分布校正离线数据蒸馏

@LakshyAAAgrawal: 从丰富的文本反馈（错误、轨迹、部分推理）中学习，对于LLM优化来说，优于仅使用标量奖励。…

OPRD：在策略表示蒸馏

教师令牌何时可靠？基于位置加权的在线策略自蒸馏方法在推理中的应用

超越 GRPO 与策略内蒸馏：语言模型后训练的经验性“稀疏至稠密”奖励原则

提交意见反馈