稀疏性诅咒:从模型合并理解RLVR模型参数空间
摘要
本文研究了合并RLVR模型中的“稀疏性诅咒”,发现稀疏更新导致近乎正交的参数方向,阻碍了聚合,并提出了SAR-Merging方法,该方法利用Fisher信息和稀疏化来解决冲突,提高在数学和编程任务上的合并性能。
arXiv:2606.18521v1 Announce Type: new
强化学习与可验证奖励(RLVR)已成为一种强大的后训练范式,在激发推理能力和抵抗灾难性遗忘方面超越了监督微调(SFT)。近期研究进一步揭示,与SFT相比,RLVR会导致高度稀疏且偏离主方向的参数更新。这自然引发了一个问题:这种稀疏性是否使RLVR模型更易于合并?如果是,模型合并将提供一条可扩展、无需训练的路径,以聚合来自独立训练的RLVR模型的多样化推理能力。令人惊讶的是,我们发现恰恰相反,揭示了一种稀疏性诅咒:稀疏的RLVR更新在参数空间中分布得更远,形成近乎正交的捷径,使得聚合本质上是脆弱的。这很可能源于RL优化的随机性和涌现推理模式的多样性。与SFT模型收敛到共享的平坦盆地并自然合并不同,RLVR模型在标准合并方法下遭受严重退化。通过系统性地实证分析更新几何结构,我们表征了这种失败的机制,并提出了敏感性感知解析合并(SAR-Merging),这是一种针对RLVR参数空间独特结构定制的合并方案。SAR-Merging通过基于Fisher信息量的敏感性仲裁来解决重叠更新区域中的冲突,然后通过幅度感知稀疏化和重新缩放来保留脆弱的推理路径。在数学和编程基准上的实验表明,SAR-Merging在RLVR模型上显著优于现有合并方法,实现了单任务增强和多能力融合。
查看缓存全文
缓存时间: 2026/06/18 05:44
# 稀疏性诅咒:从模型合并视角理解RLVR模型参数空间
来源:https://arxiv.org/html/2606.18521 (2026)
###### 摘要。
基于可验证奖励的强化学习(RLVR)已成为一种强大的后训练范式,在激发推理智能和抵抗灾难性遗忘方面超越了监督微调(SFT)。近期研究进一步揭示,与SFT相比,RLVR会引发高度稀疏且偏离主方向的参数更新。这自然引出一个问题:这种稀疏性是否让RLVR模型更易于模型合并?如果是,模型合并将提供一条可扩展、免训练的路径,用于聚合来自独立训练的RLVR模型的各种推理能力。令人惊讶的是,我们发现恰恰相反,揭示了一种*稀疏性诅咒*:稀疏的RLVR更新在参数空间中分散得更远,形成近乎正交的捷径,使得聚合本质上脆弱。这很可能源于RL优化的随机性以及涌现推理模式的多样性。与收敛到共享平坦盆地并自然合并的SFT模型不同,RLVR模型在标准合并方法下遭受严重退化。通过对更新几何的系统性实证分析,我们刻画了这种失效背后的机制,并提出了敏感性感知解析合并(SAR-Merging),一种专为RLVR参数空间独特结构设计的合并方案。SAR-Merging通过基于Fisher信息的敏感性仲裁解决重叠更新区域中的冲突,随后进行幅度感知的稀疏化和重新缩放,以保护脆弱的推理路径。在数学和编码基准上的实验表明,SAR-Merging在RLVR模型上显著优于现有合并方法,实现了单任务增强和多能力融合。
大型语言模型, RLVR, 模型合并
††版权:acm授权††期刊年份:2026††版权:cc††会议:第32届ACM SIGKDD知识发现与数据挖掘会议V.2; 2026年8月09–13日; 韩国济州岛††书标题:第32届ACM SIGKDD知识发现与数据挖掘会议V.2 (KDD '26), 2026年8月09–13日, 韩国济州岛††doi:10.1145/3770855.3817679††isbn:979-8-4007-2259-2/2026/08††ccs:计算方法 自然语言处理††ccs:计算方法 强化学习††ccs:计算方法 神经网络††ccs:计算方法 机器学习算法
## 1. 引言
参见图注
图1. 使用GSM8K数据合并两个7B RLVR/SFT模型的性能增益与下降。Naive avg.表示两个父模型各自准确率的平均值。
基于可验证奖励的强化学习(RLVR)(Guo等人,2025 (https://arxiv.org/html/2606.18521#bib.bib17);Jin等人,2025 (https://arxiv.org/html/2606.18521#bib.bib22);Zhang等人,2026b (https://arxiv.org/html/2606.18521#bib.bib48))已成为大型语言模型(LLM)的主要后训练范式,为OpenAI-o3(Jaech等人,2024 (https://arxiv.org/html/2606.18521#bib.bib21))和DeepSeek-R1(Guo等人,2025 (https://arxiv.org/html/2606.18521#bib.bib17))等模型的推理突破提供了动力。与监督微调(SFT)(Radford等人,2018 (https://arxiv.org/html/2606.18521#bib.bib11);Li和Liang,2021 (https://arxiv.org/html/2606.18521#bib.bib12);Hu等人,2022 (https://arxiv.org/html/2606.18521#bib.bib13))相比,RLVR能更好地激发多步推理并抵抗灾难性遗忘(Grattafiori等人,2024 (https://arxiv.org/html/2606.18521#bib.bib30);Yang等人,2024a (https://arxiv.org/html/2606.18521#bib.bib29);Jiang等人,2023 (https://arxiv.org/html/2606.18521#bib.bib31);Zhang等人,2026b (https://arxiv.org/html/2606.18521#bib.bib48))。Zhu等人(Zhu等人,2025 (https://arxiv.org/html/2606.18521#bib.bib19))近期的分析进一步揭示了RLVR在参数空间中的一个显著特性:与沿着权重矩阵主奇异方向更新的SFT不同,RLVR的更新是*稀疏*且*偏离主方向*的,仅修改低曲率子空间中一小部分参数,同时保留预训练的光谱结构。这一发现也得到了Mukherjee等人(Mukherjee等人,2025 (https://arxiv.org/html/2606.18521#bib.bib18))的支持,表明RLVR和SFT在根本不同的优化机制下运行。这种区别自然地引出一个问题:RLVR更新的稀疏、偏离主方向特性是否使这些模型更易于进行*模型合并*?模型合并(Wortsman等人,2022 (https://arxiv.org/html/2606.18521#bib.bib3);Ilharco等人,2023 (https://arxiv.org/html/2606.18521#bib.bib2);Yadav等人,2023 (https://arxiv.org/html/2606.18521#bib.bib4);Yu等人,2024 (https://arxiv.org/html/2606.18521#bib.bib1);Yao等人,2025 (https://arxiv.org/html/2606.18521#bib.bib7);Nobari等人,2025 (https://arxiv.org/html/2606.18521#bib.bib8);Zeng等人,2025 (https://arxiv.org/html/2606.18521#bib.bib23);Matena和Raffel,2022 (https://arxiv.org/html/2606.18521#bib.bib32);Li等人,2025 (https://arxiv.org/html/2606.18521#bib.bib36))将独立训练的模型组合成一个统一的模型,无需额外训练。如果RLVR的稀疏更新在不同模型间兼容,合并将提供一条可扩展、免训练的路径,用于聚合来自单独训练的RLVR模型的各种推理能力。令人惊讶的是,我们发现恰恰相反。如图1 (https://arxiv.org/html/2606.18521#S1.F1)所示,对SFT模型效果良好的标准合并方法,在应用于RLVR模型时会导致严重的性能退化。我们将其归因于一种*稀疏性诅咒*:独立RLVR模型学习的稀疏、偏离主方向更新在参数空间中分散得很远,形成近乎正交的捷径,使得聚合本质上脆弱。这种脆弱性可能源于RL优化的随机性以及跨独立训练运行的涌现推理模式的多样性。虽然RAM-Merging(Yuan等人,2026 (https://arxiv.org/html/2606.18521#bib.bib6))也观察到RL模型合并中的退化,但他们的实验使用了相对密集的RL智能体模型,其更新模式类似于SFT,因此他们的方法不能推广到本文所研究的高度稀疏的RLVR模型。在本文中,我们通过关于更新稀疏性、逐层正交性和激活密度几何的实证研究,系统地分析了这种失效背后的机制。基于这些分析,我们提出了敏感性感知解析合并(SAR-Merging),一种针对RLVR参数空间独特结构定制的合并方案。SAR-Merging首先使用Fisher信息解决重叠更新区域中的冲突,以保留对任务更敏感的参數。然后,它对合并后的任务向量应用幅度感知的稀疏化和重新缩放,尊重RLVR固有的稀疏性,并防止破坏推理路径的密集坍缩。我们的贡献总结如下:
- • 我们揭示了RLVR模型合并中的*稀疏性诅咒*,并通过系统实证分析,阐明了RLVR的稀疏、偏离主方向更新在模型聚合背景下与SFT的差异。
- • 我们提出了SAR-Merging,一种专为RLVR模型设计的模型合并方法,结合了基于敏感性的冲突解决和保持稀疏性的重新缩放。
- • 在数学和编码基准上的大量实验表明,SAR-Merging显著优于现有方法,实现了RLVR模型的单任务增强和多能力融合。
## 2. 相关工作
### 2.1. LLM的后训练
LLM后训练主要有两种技术:监督微调(SFT)和强化学习(RL)。具备下一个词元预测能力的LLM往往无法精确遵循用户指令。为弥补这一差距,SFT被广泛用于将模型的输出分布与用户意图对齐(Dodge等人,2020 (https://arxiv.org/html/2606.18521#bib.bib9);Zhao等人,2023 (https://arxiv.org/html/2606.18521#bib.bib10))。SFT使用少量标注数据来调整模型参数以适应特定任务(Radford等人,2018 (https://arxiv.org/html/2606.18521#bib.bib11);Li和Liang,2021 (https://arxiv.org/html/2606.18521#bib.bib12);Hu等人,2022 (https://arxiv.org/html/2606.18521#bib.bib13))。虽然有效,但SFT受限于示范数据的质量,并且常常遭受暴露偏差。为了进一步使模型与人类价值观对齐,基于人类反馈的强化学习(RLHF)(Ouyang等人,2022 (https://arxiv.org/html/2606.18521#bib.bib15))已成为一种标准范式。近端策略优化(PPO)(Schulman等人,2017 (https://arxiv.org/html/2606.18521#bib.bib14))在保持与参考模型的KL散度约束的同时最大化期望奖励。直接偏好优化(DPO)(Rafailov等人,2023 (https://arxiv.org/html/2606.18521#bib.bib16))使用简单的分类损失推导出最优策略的闭式解。最近,基于可验证奖励的强化学习(RLVR)作为推理任务(如数学和编码)的后训练策略而崭露头角(Guo等人,2025 (https://arxiv.org/html/2606.18521#bib.bib17);Jaech等人,2024 (https://arxiv.org/html/2606.18521#bib.bib21))。与依赖学习到的奖励模型的RLHF不同,RLVR使用客观的、基于规则的验证信号(例如,检查数学正确性)来提供奖励。组相对策略优化(GRPO)(Guo等人,2025 (https://arxiv.org/html/2606.18521#bib.bib17))使用组优势作为奖励信号,使RLVR适用于许多领域(Luo等人,2026 (https://arxiv.org/html/2606.18521#bib.bib47);Zhou等人,2025 (https://arxiv.org/html/2606.18521#bib.bib54);Tian等人,2025 (https://arxiv.org/html/2606.18521#bib.bib55))。该范式已推动了最先进的推理模型,如DeepSeek-R1(Guo等人,2025 (https://arxiv.org/html/2606.18521#bib.bib17))和OpenAI-o3(Jaech等人,2024 (https://arxiv.org/html/2606.18521#bib.bib21))。值得注意的是,Zhu等人(Zhu等人,2025 (https://arxiv.org/html/2606.18521#bib.bib19))表明,RLVR在一种与SFT根本不同的优化机制下运行:其参数更新稀疏且偏离主方向,集中在低曲率子空间,而不是沿着SFT所青睐的主奇异方向。
### 2.2. 模型合并
模型合并通过将多个任务特定模型整合到一个统一框架中,实现了免训练的集成,被广泛应用于不同领域,例如联邦学习(Li等人,2023 (https://arxiv.org/html/2606.18521#bib.bib50);Wang等人,2020 (https://arxiv.org/html/2606.18521#bib.bib52))、模型编辑(Wang等人,2024 (https://arxiv.org/html/2606.18521#bib.bib51);Fu等人,2025 (https://arxiv.org/html/2606.18521#bib.bib53))和多任务学习(Ilharco等人,2023 (https://arxiv.org/html/2606.18521#bib.bib2);Yang等人,2024b (https://arxiv.org/html/2606.18521#bib.bib56))。一种基础方法是线性平均(Wortsman等人,2022 (https://arxiv.org/html/2606.18521#bib.bib3)),它计算模型参数的简单加权平均值。任务算术(Ilharco等人,2023 (https://arxiv.org/html/2606.18521#bib.bib2))提出了任务向量的概念,定义为与预训练权重的偏差,然后将这些向量聚合起来并加回到基模型。TIES-Merging(Yadav等人,2023 (https://arxiv.org/html/2606.18521#bib.bib4))通过稀疏化这些向量并采用符号一致性算法来细化任务算术,从而保留单个模型的独特能力。DARE(Yu等人,2024 (https://arxiv.org/html/2606.18521#bib.bib1))通过随机剪枝和重新缩放实现多任务微调模型的高效融合,也可与TIES-Merging结合使用。除了参数级别的操作,AIM(Nobari等人,2025 (https://arxiv.org/html/2606.18521#bib.bib8))利用激活空间统计来识别并保留预训练模型中的关键权重。ACM(Yao等人,2025 (https://arxiv.org/html/2606.18521#bib.bib7))也利用模型激活与基模型激活之间的互信息来指导逐层加权聚合。还有一些特定领域的模型合并范例,例如用于LoRA合并(Zeng等人,2025 (https://arxiv.org/html/2606.18521#bib.bib23);Zhang和Zhou,2025 (https://arxiv.org/html/2606.18521#bib.bib37);Stoica等人,2025 (https://arxiv.org/html/2606.18521#bib.bib39);Zhao等人,2025 (https://arxiv.org/html/2606.18521#bib.bib38);Shenaj等人,2026 (https://arxiv.org/html/2606.18521#bib.bib40))、连续合并(Qiu等人,2025 (https://arxiv.org/html/2606.18521#bib.bib43);Yang等人,2025 (https://arxiv.org/html/2606.18521#bib.bib44);Tang等人,2025 (https://arxiv.org/html/2606.18521#bib.bib45);Qiu等人,2026 (https://arxiv.org/html/2606.18521#bib.bib42))等。然而,这些方法通常针对SFT模型,并且在应用于RLVR模型时会表现出性能退化。RAM-Merging(Yuan等人,2026 (https://arxiv.org/html/2606.18521#bib.bib6))首先考虑了RLVR智能体模型的合并。然而,他们采用的智能体模型具有相对较低的更新稀疏性,类似于SFT模型,因此不能推广到高度稀疏的RLVR模型。
## 3. 预备知识
### 3.1. 监督微调(SFT)
我们考虑一个自回归语言模型,参数化为θ\\theta,该模型定义了在给定输入提示xx的条件下输出序列y=\(y1,...,yT\)y=\(y\_\{1\},\\ldots,y\_\{T\}\)的条件分布。模型似然因式分解为 \(1\) pθ\(y∣x\)=∏t=1Tpθ\(yt∣x,y0\\delta^\{A\}\_\{j\}\\delta^\{B\}\_\{j\}\>0,私有区域包含仅由一个模型更新的参数,不变区域包含两个模型均未更新的参数。然后,我们量化冲突区域C\\mathcal\{C\}中的重要性。令Dval\\mathcal\{D\}\_\{\\text\{val\}\}为一个小的验证集(例如,来自GSM8K的部分样本)。我们计算对角Fisher信息矩阵(Fisher,1922 (https://arxiv.org/html/2606.18521#bib.bib35)),表示为敏感性向量St∈Rd\\mathcal\{S\}^\{t\}\\in\\mathbb\{R\}^\{d\},其中第jj个元素通过激活的平方梯度估计:\(13\) Sjt=E\(x,y\)∼Dval\[\(∂logpθ\(y\|x;θt\)∂θjt\)2\],j∈C。\\mathcal\{S\}^\{t\}\_\{j\}=\\mathbb\{E\}\_\{\(x,y\)\\sim\\mathcal\{D\}\_\{\\text\{val\}\}\}\\left\[\\left\(\\frac\{\\partial\\log p\_\{\\theta\}\(y\|x;\\theta^\{t\}\)\}\{\\partial\\theta^\{t\}\_\{j\}\}\\right\)^\{2\}\\right\],\\quad j\\in\\mathcal\{C\}.直观上,较大的Sjt\\mathcal\{S\}^\{t\}\_\{j\}意味着扰动第jj个参数会对模型tt的输出分布产生更强的影响,表明更高的任务敏感性。因此,在冲突区域中,Fisher敏感性为决定应保留哪个模型的更新提供了一个局部标准。
### 5.3. 冲突解决
给定从模型θA\\theta^\{A\}和θB\\theta^\{B\}导出的两个任务向量δA\\delta^\{A\}和δB\\delta^\{B\},我们识别出模型不一致的参数。在重叠区域中,如果两个更新方向相反,即δjAδjB<0\\delta^\{A\}\_\{j\}\\delta^\{B\}\_\{j\}<0,则在索引jj处发生符号冲突。现有方法(Yadav等人,2023 (https://arxiv.org/html/2606.18521#bib.bib4);Yu等人,2024 (https://arxiv.org/html/2606.18521#bib.bib1))通常通过幅度剪枝、平均或符号投票来解决冲突。然而,这种投票相似文章
基于输出空间投影的模型合并
本文提出了一种新的模型合并框架,将问题转化为关于残差更新的凸二次规划,以最小化平方输出的校准目标。该框架涵盖现有的启发式方法,并提供了一种闭式诊断指标来预测合并质量,在语言和视觉基准测试中持续取得改进。
PermDoRA——理解语言模型中的适配器干扰:参数空间几何的局限性
本文介绍了DoRA-RBAC,一个用于组合LLM适配器的框架,并测试了几何感知合并是否能提升多域性能。结果显示,与标准平均方法相比,没有一致的改进,表明适配器干扰并非主要由参数空间几何驱动。
Extra-Merge: 追踪语言模型预训练中模型合并的 Rank-1 子空间
本文发现在 LLM 预训练轨迹中存在 Rank-1 子空间现象,并提出 Extra-Merge,一种无需训练的策略,沿该子空间外推以最小化损失,在 GPT-2 和 LLaMA 系列模型(最高 2B 参数)上实现了零样本准确率的一致提升。
CORA:通过一致性导向推理对齐分析与弥合多模态RLVR中的思考-答案差距
本文分析了大型视觉语言模型中多模态可验证奖励强化学习(RLVR)中的思考-答案不一致性,并提出CORA方法,该方法引入了一致性奖励模型和混合奖励优势拆分,以提高忠实性和任务性能。
超越 GRPO 与策略内蒸馏:语言模型后训练的经验性“稀疏至稠密”奖励原则
本文提出了一种用于语言模型后训练的经验性“稀疏至稠密”奖励原则,主张应使用稀疏奖励配合稀缺的标注数据进行教师模型发现,并使用稠密奖励通过蒸馏进行学生模型压缩。作者证明,这种连接稀疏强化学习与策略内蒸馏的分阶段方法,在数学基准测试中优于在部署规模模型上直接运行 GRPO 的效果。