稀疏性诅咒：从模型合并理解RLVR模型参数空间

arXiv cs.LG 2026/06/18 04:00 论文

rlvr reinforcement-learning model-merging parameter-space sparsity llm reasoning

摘要

本文研究了合并RLVR模型中的“稀疏性诅咒”，发现稀疏更新导致近乎正交的参数方向，阻碍了聚合，并提出了SAR-Merging方法，该方法利用Fisher信息和稀疏化来解决冲突，提高在数学和编程任务上的合并性能。

arXiv:2606.18521v1 Announce Type: new 强化学习与可验证奖励（RLVR）已成为一种强大的后训练范式，在激发推理能力和抵抗灾难性遗忘方面超越了监督微调（SFT）。近期研究进一步揭示，与SFT相比，RLVR会导致高度稀疏且偏离主方向的参数更新。这自然引发了一个问题：这种稀疏性是否使RLVR模型更易于合并？如果是，模型合并将提供一条可扩展、无需训练的路径，以聚合来自独立训练的RLVR模型的多样化推理能力。令人惊讶的是，我们发现恰恰相反，揭示了一种稀疏性诅咒：稀疏的RLVR更新在参数空间中分布得更远，形成近乎正交的捷径，使得聚合本质上是脆弱的。这很可能源于RL优化的随机性和涌现推理模式的多样性。与SFT模型收敛到共享的平坦盆地并自然合并不同，RLVR模型在标准合并方法下遭受严重退化。通过系统性地实证分析更新几何结构，我们表征了这种失败的机制，并提出了敏感性感知解析合并（SAR-Merging），这是一种针对RLVR参数空间独特结构定制的合并方案。SAR-Merging通过基于Fisher信息量的敏感性仲裁来解决重叠更新区域中的冲突，然后通过幅度感知稀疏化和重新缩放来保留脆弱的推理路径。在数学和编程基准上的实验表明，SAR-Merging在RLVR模型上显著优于现有合并方法，实现了单任务增强和多能力融合。

查看原文

查看缓存全文

缓存时间: 2026/06/18 05:44

# 稀疏性诅咒：从模型合并视角理解RLVR模型参数空间
来源：https://arxiv.org/html/2606.18521 (2026)

###### 摘要。
基于可验证奖励的强化学习（RLVR）已成为一种强大的后训练范式，在激发推理智能和抵抗灾难性遗忘方面超越了监督微调（SFT）。近期研究进一步揭示，与SFT相比，RLVR会引发高度稀疏且偏离主方向的参数更新。这自然引出一个问题：这种稀疏性是否让RLVR模型更易于模型合并？如果是，模型合并将提供一条可扩展、免训练的路径，用于聚合来自独立训练的RLVR模型的各种推理能力。令人惊讶的是，我们发现恰恰相反，揭示了一种*稀疏性诅咒*：稀疏的RLVR更新在参数空间中分散得更远，形成近乎正交的捷径，使得聚合本质上脆弱。这很可能源于RL优化的随机性以及涌现推理模式的多样性。与收敛到共享平坦盆地并自然合并的SFT模型不同，RLVR模型在标准合并方法下遭受严重退化。通过对更新几何的系统性实证分析，我们刻画了这种失效背后的机制，并提出了敏感性感知解析合并（SAR-Merging），一种专为RLVR参数空间独特结构设计的合并方案。SAR-Merging通过基于Fisher信息的敏感性仲裁解决重叠更新区域中的冲突，随后进行幅度感知的稀疏化和重新缩放，以保护脆弱的推理路径。在数学和编码基准上的实验表明，SAR-Merging在RLVR模型上显著优于现有合并方法，实现了单任务增强和多能力融合。

大型语言模型, RLVR, 模型合并

††版权:acm授权††期刊年份:2026††版权:cc††会议:第32届ACM SIGKDD知识发现与数据挖掘会议V.2; 2026年8月09–13日; 韩国济州岛††书标题:第32届ACM SIGKDD知识发现与数据挖掘会议V.2 (KDD '26), 2026年8月09–13日, 韩国济州岛††doi:10.1145/3770855.3817679††isbn:979-8-4007-2259-2/2026/08††ccs:计算方法 自然语言处理††ccs:计算方法 强化学习††ccs:计算方法 神经网络††ccs:计算方法 机器学习算法

## 1. 引言

参见图注

图1. 使用GSM8K数据合并两个7B RLVR/SFT模型的性能增益与下降。Naive avg.表示两个父模型各自准确率的平均值。

基于可验证奖励的强化学习（RLVR）（Guo等人，2025 (https://arxiv.org/html/2606.18521#bib.bib17)；Jin等人，2025 (https://arxiv.org/html/2606.18521#bib.bib22)；Zhang等人，2026b (https://arxiv.org/html/2606.18521#bib.bib48)）已成为大型语言模型（LLM）的主要后训练范式，为OpenAI-o3（Jaech等人，2024 (https://arxiv.org/html/2606.18521#bib.bib21)）和DeepSeek-R1（Guo等人，2025 (https://arxiv.org/html/2606.18521#bib.bib17)）等模型的推理突破提供了动力。与监督微调（SFT）（Radford等人，2018 (https://arxiv.org/html/2606.18521#bib.bib11)；Li和Liang，2021 (https://arxiv.org/html/2606.18521#bib.bib12)；Hu等人，2022 (https://arxiv.org/html/2606.18521#bib.bib13)）相比，RLVR能更好地激发多步推理并抵抗灾难性遗忘（Grattafiori等人，2024 (https://arxiv.org/html/2606.18521#bib.bib30)；Yang等人，2024a (https://arxiv.org/html/2606.18521#bib.bib29)；Jiang等人，2023 (https://arxiv.org/html/2606.18521#bib.bib31)；Zhang等人，2026b (https://arxiv.org/html/2606.18521#bib.bib48)）。Zhu等人（Zhu等人，2025 (https://arxiv.org/html/2606.18521#bib.bib19)）近期的分析进一步揭示了RLVR在参数空间中的一个显著特性：与沿着权重矩阵主奇异方向更新的SFT不同，RLVR的更新是*稀疏*且*偏离主方向*的，仅修改低曲率子空间中一小部分参数，同时保留预训练的光谱结构。这一发现也得到了Mukherjee等人（Mukherjee等人，2025 (https://arxiv.org/html/2606.18521#bib.bib18)）的支持，表明RLVR和SFT在根本不同的优化机制下运行。这种区别自然地引出一个问题：RLVR更新的稀疏、偏离主方向特性是否使这些模型更易于进行*模型合并*？模型合并（Wortsman等人，2022 (https://arxiv.org/html/2606.18521#bib.bib3)；Ilharco等人，2023 (https://arxiv.org/html/2606.18521#bib.bib2)；Yadav等人，2023 (https://arxiv.org/html/2606.18521#bib.bib4)；Yu等人，2024 (https://arxiv.org/html/2606.18521#bib.bib1)；Yao等人，2025 (https://arxiv.org/html/2606.18521#bib.bib7)；Nobari等人，2025 (https://arxiv.org/html/2606.18521#bib.bib8)；Zeng等人，2025 (https://arxiv.org/html/2606.18521#bib.bib23)；Matena和Raffel，2022 (https://arxiv.org/html/2606.18521#bib.bib32)；Li等人，2025 (https://arxiv.org/html/2606.18521#bib.bib36)）将独立训练的模型组合成一个统一的模型，无需额外训练。如果RLVR的稀疏更新在不同模型间兼容，合并将提供一条可扩展、免训练的路径，用于聚合来自单独训练的RLVR模型的各种推理能力。令人惊讶的是，我们发现恰恰相反。如图1 (https://arxiv.org/html/2606.18521#S1.F1)所示，对SFT模型效果良好的标准合并方法，在应用于RLVR模型时会导致严重的性能退化。我们将其归因于一种*稀疏性诅咒*：独立RLVR模型学习的稀疏、偏离主方向更新在参数空间中分散得很远，形成近乎正交的捷径，使得聚合本质上脆弱。这种脆弱性可能源于RL优化的随机性以及跨独立训练运行的涌现推理模式的多样性。虽然RAM-Merging（Yuan等人，2026 (https://arxiv.org/html/2606.18521#bib.bib6)）也观察到RL模型合并中的退化，但他们的实验使用了相对密集的RL智能体模型，其更新模式类似于SFT，因此他们的方法不能推广到本文所研究的高度稀疏的RLVR模型。在本文中，我们通过关于更新稀疏性、逐层正交性和激活密度几何的实证研究，系统地分析了这种失效背后的机制。基于这些分析，我们提出了敏感性感知解析合并（SAR-Merging），一种针对RLVR参数空间独特结构定制的合并方案。SAR-Merging首先使用Fisher信息解决重叠更新区域中的冲突，以保留对任务更敏感的参數。然后，它对合并后的任务向量应用幅度感知的稀疏化和重新缩放，尊重RLVR固有的稀疏性，并防止破坏推理路径的密集坍缩。我们的贡献总结如下：

- • 我们揭示了RLVR模型合并中的*稀疏性诅咒*，并通过系统实证分析，阐明了RLVR的稀疏、偏离主方向更新在模型聚合背景下与SFT的差异。
- • 我们提出了SAR-Merging，一种专为RLVR模型设计的模型合并方法，结合了基于敏感性的冲突解决和保持稀疏性的重新缩放。
- • 在数学和编码基准上的大量实验表明，SAR-Merging显著优于现有方法，实现了RLVR模型的单任务增强和多能力融合。

## 2. 相关工作

### 2.1. LLM的后训练

LLM后训练主要有两种技术：监督微调（SFT）和强化学习（RL）。具备下一个词元预测能力的LLM往往无法精确遵循用户指令。为弥补这一差距，SFT被广泛用于将模型的输出分布与用户意图对齐（Dodge等人，2020 (https://arxiv.org/html/2606.18521#bib.bib9)；Zhao等人，2023 (https://arxiv.org/html/2606.18521#bib.bib10)）。SFT使用少量标注数据来调整模型参数以适应特定任务（Radford等人，2018 (https://arxiv.org/html/2606.18521#bib.bib11)；Li和Liang，2021 (https://arxiv.org/html/2606.18521#bib.bib12)；Hu等人，2022 (https://arxiv.org/html/2606.18521#bib.bib13)）。虽然有效，但SFT受限于示范数据的质量，并且常常遭受暴露偏差。为了进一步使模型与人类价值观对齐，基于人类反馈的强化学习（RLHF）（Ouyang等人，2022 (https://arxiv.org/html/2606.18521#bib.bib15)）已成为一种标准范式。近端策略优化（PPO）（Schulman等人，2017 (https://arxiv.org/html/2606.18521#bib.bib14)）在保持与参考模型的KL散度约束的同时最大化期望奖励。直接偏好优化（DPO）（Rafailov等人，2023 (https://arxiv.org/html/2606.18521#bib.bib16)）使用简单的分类损失推导出最优策略的闭式解。最近，基于可验证奖励的强化学习（RLVR）作为推理任务（如数学和编码）的后训练策略而崭露头角（Guo等人，2025 (https://arxiv.org/html/2606.18521#bib.bib17)；Jaech等人，2024 (https://arxiv.org/html/2606.18521#bib.bib21)）。与依赖学习到的奖励模型的RLHF不同，RLVR使用客观的、基于规则的验证信号（例如，检查数学正确性）来提供奖励。组相对策略优化（GRPO）（Guo等人，2025 (https://arxiv.org/html/2606.18521#bib.bib17)）使用组优势作为奖励信号，使RLVR适用于许多领域（Luo等人，2026 (https://arxiv.org/html/2606.18521#bib.bib47)；Zhou等人，2025 (https://arxiv.org/html/2606.18521#bib.bib54)；Tian等人，2025 (https://arxiv.org/html/2606.18521#bib.bib55)）。该范式已推动了最先进的推理模型，如DeepSeek-R1（Guo等人，2025 (https://arxiv.org/html/2606.18521#bib.bib17)）和OpenAI-o3（Jaech等人，2024 (https://arxiv.org/html/2606.18521#bib.bib21)）。值得注意的是，Zhu等人（Zhu等人，2025 (https://arxiv.org/html/2606.18521#bib.bib19)）表明，RLVR在一种与SFT根本不同的优化机制下运行：其参数更新稀疏且偏离主方向，集中在低曲率子空间，而不是沿着SFT所青睐的主奇异方向。

### 2.2. 模型合并

模型合并通过将多个任务特定模型整合到一个统一框架中，实现了免训练的集成，被广泛应用于不同领域，例如联邦学习（Li等人，2023 (https://arxiv.org/html/2606.18521#bib.bib50)；Wang等人，2020 (https://arxiv.org/html/2606.18521#bib.bib52)）、模型编辑（Wang等人，2024 (https://arxiv.org/html/2606.18521#bib.bib51)；Fu等人，2025 (https://arxiv.org/html/2606.18521#bib.bib53)）和多任务学习（Ilharco等人，2023 (https://arxiv.org/html/2606.18521#bib.bib2)；Yang等人，2024b (https://arxiv.org/html/2606.18521#bib.bib56)）。一种基础方法是线性平均（Wortsman等人，2022 (https://arxiv.org/html/2606.18521#bib.bib3)），它计算模型参数的简单加权平均值。任务算术（Ilharco等人，2023 (https://arxiv.org/html/2606.18521#bib.bib2)）提出了任务向量的概念，定义为与预训练权重的偏差，然后将这些向量聚合起来并加回到基模型。TIES-Merging（Yadav等人，2023 (https://arxiv.org/html/2606.18521#bib.bib4)）通过稀疏化这些向量并采用符号一致性算法来细化任务算术，从而保留单个模型的独特能力。DARE（Yu等人，2024 (https://arxiv.org/html/2606.18521#bib.bib1)）通过随机剪枝和重新缩放实现多任务微调模型的高效融合，也可与TIES-Merging结合使用。除了参数级别的操作，AIM（Nobari等人，2025 (https://arxiv.org/html/2606.18521#bib.bib8)）利用激活空间统计来识别并保留预训练模型中的关键权重。ACM（Yao等人，2025 (https://arxiv.org/html/2606.18521#bib.bib7)）也利用模型激活与基模型激活之间的互信息来指导逐层加权聚合。还有一些特定领域的模型合并范例，例如用于LoRA合并（Zeng等人，2025 (https://arxiv.org/html/2606.18521#bib.bib23)；Zhang和Zhou，2025 (https://arxiv.org/html/2606.18521#bib.bib37)；Stoica等人，2025 (https://arxiv.org/html/2606.18521#bib.bib39)；Zhao等人，2025 (https://arxiv.org/html/2606.18521#bib.bib38)；Shenaj等人，2026 (https://arxiv.org/html/2606.18521#bib.bib40)）、连续合并（Qiu等人，2025 (https://arxiv.org/html/2606.18521#bib.bib43)；Yang等人，2025 (https://arxiv.org/html/2606.18521#bib.bib44)；Tang等人，2025 (https://arxiv.org/html/2606.18521#bib.bib45)；Qiu等人，2026 (https://arxiv.org/html/2606.18521#bib.bib42)）等。然而，这些方法通常针对SFT模型，并且在应用于RLVR模型时会表现出性能退化。RAM-Merging（Yuan等人，2026 (https://arxiv.org/html/2606.18521#bib.bib6)）首先考虑了RLVR智能体模型的合并。然而，他们采用的智能体模型具有相对较低的更新稀疏性，类似于SFT模型，因此不能推广到高度稀疏的RLVR模型。

## 3. 预备知识

### 3.1. 监督微调（SFT）

我们考虑一个自回归语言模型，参数化为θ\\theta，该模型定义了在给定输入提示xx的条件下输出序列y=\(y1,...,yT\)y=\(y\_\{1\},\\ldots,y\_\{T\}\)的条件分布。模型似然因式分解为 \(1\) pθ\(y∣x\)=∏t=1Tpθ\(yt∣x,y0\\delta^\{A\}\_\{j\}\\delta^\{B\}\_\{j\}\>0，私有区域包含仅由一个模型更新的参数，不变区域包含两个模型均未更新的参数。然后，我们量化冲突区域C\\mathcal\{C\}中的重要性。令Dval\\mathcal\{D\}\_\{\\text\{val\}\}为一个小的验证集（例如，来自GSM8K的部分样本）。我们计算对角Fisher信息矩阵（Fisher,1922 (https://arxiv.org/html/2606.18521#bib.bib35)），表示为敏感性向量St∈Rd\\mathcal\{S\}^\{t\}\\in\\mathbb\{R\}^\{d\}，其中第jj个元素通过激活的平方梯度估计：\(13\) Sjt=E\(x,y\)∼Dval\[\(∂log⁡pθ\(y\|x;θt\)∂θjt\)2\],j∈C。\\mathcal\{S\}^\{t\}\_\{j\}=\\mathbb\{E\}\_\{\(x,y\)\\sim\\mathcal\{D\}\_\{\\text\{val\}\}\}\\left\[\\left\(\\frac\{\\partial\\log p\_\{\\theta\}\(y\|x;\\theta^\{t\}\)\}\{\\partial\\theta^\{t\}\_\{j\}\}\\right\)^\{2\}\\right\],\\quad j\\in\\mathcal\{C\}.直观上，较大的Sjt\\mathcal\{S\}^\{t\}\_\{j\}意味着扰动第jj个参数会对模型tt的输出分布产生更强的影响，表明更高的任务敏感性。因此，在冲突区域中，Fisher敏感性为决定应保留哪个模型的更新提供了一个局部标准。

### 5.3. 冲突解决

给定从模型θA\\theta^\{A\}和θB\\theta^\{B\}导出的两个任务向量δA\\delta^\{A\}和δB\\delta^\{B\}，我们识别出模型不一致的参数。在重叠区域中，如果两个更新方向相反，即δjAδjB<0\\delta^\{A\}\_\{j\}\\delta^\{B\}\_\{j\}<0，则在索引jj处发生符号冲突。现有方法（Yadav等人，2023 (https://arxiv.org/html/2606.18521#bib.bib4)；Yu等人，2024 (https://arxiv.org/html/2606.18521#bib.bib1)）通常通过幅度剪枝、平均或符号投票来解决冲突。然而，这种投票

稀疏性诅咒：从模型合并理解RLVR模型参数空间

相似文章

基于输出空间投影的模型合并

PermDoRA——理解语言模型中的适配器干扰：参数空间几何的局限性

Extra-Merge: 追踪语言模型预训练中模型合并的 Rank-1 子空间

CORA：通过一致性导向推理对齐分析与弥合多模态RLVR中的思考-答案差距

超越 GRPO 与策略内蒸馏：语言模型后训练的经验性“稀疏至稠密”奖励原则

提交意见反馈