从“弱”信号到强模型:利用LoRA合并进行偏好差值聚合
摘要
本文介绍了偏好差值聚合(PDA)和几何对齐合并(GAM),通过LoRA合并将来自弱模型对的多个“弱”偏好信号进行聚合,在知识推理和智能体搜索任务上平均将强LLM的性能提升超过6%。
查看缓存全文
缓存时间: 2026/06/02 15:46
# 从“弱”信号到强模型:基于LoRA合并的偏好增量聚合
来源:https://arxiv.org/html/2606.00357
Qi Sun¹, Siyue Zhang², Yulin Chen³, Yuxiang Xue¹, Ru Peng⁴, Chen Zhao¹
¹上海纽约大学
²南洋理工大学
³纽约大学
⁴上海交通大学
\{qs2196, yc7320, yx3044, cz1285\}@nyu.edu
[email protected]
[email protected]
AlbertQiSun/Preference-Delta-Aggregation (https://github.com/AlbertQiSun/Preference-Delta-Aggregation)
###### 摘要
训练强大的大型语言模型(LLM)需要高质量的监督,而这类监督往往稀缺。近期研究表明,来自弱-更弱模型对(例如,Qwen3 4B 对比 1.7B)的成对偏好数据,尽管单个回答质量有限,但可以通过相对质量增量提供有效的监督信号,我们将其称为“弱”信号。这引出了一个关键的研究问题:能否将多个“弱”信号构建性地聚合起来,以改进强模型(例如,Qwen3 8B)?为此,我们提出了偏好增量聚合(PDA)框架,这是首个从每个弱-更弱模型对中推导出偏好增量,并将其实例化为通过偏好优化学习的LoRA适配器,然后通过LoRA合并聚合所得增量的框架。为了进一步缓解LoRA合并过程中的方向性干扰,我们引入了几何对齐合并(GAM),这是一种几何感知的合并方法,在聚合前对齐适配器子空间,从而实现更鲁棒的多样增量组合。在知识推理和智能体搜索基准上的评估表明,聚合多个“弱”信号使得性能超越了任何单一信号,并且随着纳入更多信号,增益持续增加。相应地,PDA结合GAM在知识推理和智能体搜索上分别平均提升了强模型6.8和7.3分。它优于所有单增量和多增量基线,比最佳单增量基线平均高出2.1和4.3分。进一步分析表明,这些增益归因于不同偏好增量中编码的互补能力的有效组合。
---
## 1 引言
高质量数据被广泛认为是构建强大LLM的关键要素。因此,大量前期工作聚焦于在流程中(涵盖预训练(Li等人,2024b(https://arxiv.org/html/2606.00357#bib.bib10);Penedo等人,2024(https://arxiv.org/html/2606.00357#bib.bib48);Walsh等人,2025(https://arxiv.org/html/2606.00357#bib.bib11))和后训练(Nvidia等人,2024(https://arxiv.org/html/2606.00357#bib.bib45);Yang等人,2025b(https://arxiv.org/html/2606.00357#bib.bib47);Chen等人,2026(https://arxiv.org/html/2606.00357#bib.bib46)))精心整理训练数据。然而,许多期望的任务仍然难以有效监督,要么是因为标注成本过高,要么是因为超出了人类专业知识的范围。这一挑战激发了利用低质量数据拓展LLM能力前沿的兴趣(Zhu等人,2025(https://arxiv.org/html/2606.00357#bib.bib12);Yao等人,2025(https://arxiv.org/html/2606.00357#bib.bib13))。在此方向基础上,近期工作引入了增量学习假设(Geng等人,2025(https://arxiv.org/html/2606.00357#bib.bib1)),该假设认为弱响应之间的相对质量差异(例如,Qwen3 4B 对比 1.7B)可以作为有效的“弱”监督信号,通过偏好微调来改进强模型(例如,Qwen3-8B)。
增量学习假设的成功自然引出了一个关键问题:能否将多个这样的“弱”信号构建性地聚合起来,以获得进一步增益?为探究此问题,我们首先考察了基于训练的聚合策略,包括对多个数据集进行序列偏好优化以及对其混合数据进行联合优化。然而,序列训练遭受严重的灾难性遗忘(Chen和Liu,2018(https://arxiv.org/html/2606.00357#bib.bib61);Harmon等人,2026(https://arxiv.org/html/2606.00357#bib.bib49)),而联合训练由于梯度冲突(Yu等人,2020(https://arxiv.org/html/2606.00357#bib.bib43))未能超越最佳单个数据集的表现。这些结果表明,基于训练的天真聚合方法不能有效组合多个“弱”信号。
因此,我们提出了偏好增量聚合框架(PDA),该框架使用参数高效训练(Hu等人,2021(https://arxiv.org/html/2606.00357#bib.bib33)),独立地对强学生模型进行来自不同弱-更弱模型对生成的偏好数据集上的偏好微调,如图1(https://arxiv.org/html/2606.00357#S1.F1)所示。每个生成的LoRA适配器捕获了由偏好数据中质量增量诱导的改进方向,我们将其称为*偏好增量*。然后,我们通过LoRA合并技术(Yadav等人,2023(https://arxiv.org/html/2606.00357#bib.bib17);Stoica等人,2024(https://arxiv.org/html/2606.00357#bib.bib32);Huang等人,2024(https://arxiv.org/html/2606.00357#bib.bib39))聚合多个偏好增量。然而,传统的权重平均忽略了低秩更新子空间的几何结构,常常导致未对齐的偏好增量之间发生方向性干扰。为解决此问题,我们引入了一种新的LoRA合并方法——几何对齐合并(GAM),该方法将适配器分解为结构化的低秩分量,并在聚合前对齐其子空间,从而实现更鲁棒的多样偏好增量组合。
遵循先前工作(Geng等人,2025(https://arxiv.org/html/2606.00357#bib.bib1)),我们在知识推理任务上评估了所提出的PDA和GAM,并进一步将评估扩展到更具挑战性的智能体搜索设置,该设置需要推理和检索的结合(Zhang等人,2025(https://arxiv.org/html/2606.00357#bib.bib50),2026(https://arxiv.org/html/2606.00357#bib.bib51))。我们使用来自不同模型家族的多个弱-更弱模型对构建偏好数据集,这些数据集基于GSM8K(Cobbe等人,2021(https://arxiv.org/html/2606.00357#bib.bib38))和MuSiQue(Trivedi等人,2022(https://arxiv.org/html/2606.00357#bib.bib8)),模型家族包括Llama-3.2(Grattafiori等人,2024(https://arxiv.org/html/2606.00357#bib.bib5))、Qwen3(Yang等人,2025a(https://arxiv.org/html/2606.00357#bib.bib2))、DeepSeek-R1(Guo等人,2025(https://arxiv.org/html/2606.00357#bib.bib26))、AceSearcher(Xu等人,2025(https://arxiv.org/html/2606.00357#bib.bib6))和Search-R1(Jin等人,2025a(https://arxiv.org/html/2606.00357#bib.bib7))。我们评估了强学生模型,包括Qwen3-8B和Tülu3-8B(Lambert等人,2025(https://arxiv.org/html/2606.00357#bib.bib18)),在多种推理基准以及单跳和多跳搜索问答基准上的表现,并与四类基线进行比较:未微调的原始学生模型、单增量偏好微调、基于训练的多增量聚合方法(例如,序列和联合训练),以及现有的LoRA合并方法,如朴素平均(Ilharco等人,2023(https://arxiv.org/html/2606.00357#bib.bib27))、TIES-Merging(Yadav等人,2023(https://arxiv.org/html/2606.00357#bib.bib17))和KnOTS(Stoica等人,2024(https://arxiv.org/html/2606.00357#bib.bib32))。
参见图注
图1:(a) 偏好增量聚合(PDA)使用LoRA微调,独立地对强学生模型进行来自不同弱-更弱模型对的偏好数据集上的偏好微调,然后合并生成的适配器。(b) 在参数空间中,每个适配器诱导一个不同的更新方向,PDA聚合这些增量以组合互补的改进,将学生模型推向更好的解。(c) 通过聚合多个偏好增量,PDA相比在来自任何单个弱-更弱模型对的偏好数据上训练的基线取得了更大的增益。
结果显示,仅使用从较弱模型生成的低质量偏好数据,PDA-GAM分别将Qwen3-8B在知识推理和智能体搜索基准上平均提升了6.8和7.3分。PDA-GAM优于所有单增量和多增量基线,平均比最强单增量基线高出2.1和4.3分。在Tülu3-8B上也一致观察到类似的改进,展示了在不同学生模型上的强泛化能力。值得注意的是,随着更多偏好增量的纳入,增益持续增加,突显了聚合多样化“弱”信号的好处。我们的分析进一步表明,这些改进源于不同偏好增量中编码的互补能力的组合。
我们的贡献可以总结如下:
1. (1) 一个通过聚合“弱”偏好信号来改进强模型的框架。我们提出了PDA,这是首个不依赖高质量数据,而是利用来自多个弱-更弱模型对的成对偏好数据,并通过LoRA合并聚合所得信号来改进强模型的框架。
2. (2) 一种缓解偏好增量之间方向性干扰的LoRA合并方法。我们引入了GAM,一种几何感知的LoRA合并方法,通过SVD分解适配器,在格拉斯曼流形上对齐其低秩子空间,平均对齐后的奇异分量,并重构合并后的适配器。
3. (3) 在推理和智能体搜索任务上的强实证结果。在知识推理和智能体搜索基准上的广泛实验表明,PDA-GAM构建性地聚合了多个“弱”信号,一致优于所有单增量和多增量基线。
---
## 2 相关工作
#### 弱到强泛化
弱到强泛化研究来自较弱模型的监督能否有效改进更强模型,同时避免坍缩到弱监督者的性能上限(Burns等人,2023(https://arxiv.org/html/2606.00357#bib.bib29);Ye等人,2026(https://arxiv.org/html/2606.00357#bib.bib40))。先前研究主要集中于两个方向:揭示预训练基模型中已经存在的能力(Hase等人,2024(https://arxiv.org/html/2606.00357#bib.bib41)),以及使用模型递归优化用于后续训练的数据(Wu等人,2025(https://arxiv.org/html/2606.00357#bib.bib42))。在这两种设置中,监督通常以单个弱教师的逐点判断形式传递。然而,近期关于AI反馈的研究表明,这种绝对监督可能会传播教师的系统性错误和幻觉偏差(Zheng等人,2023(https://arxiv.org/html/2606.00357#bib.bib53);Li等人,2024a(https://arxiv.org/html/2606.00357#bib.bib52))。这激发了基于质量差异而非绝对判断的相对监督信号(Zhu等人,2025(https://arxiv.org/html/2606.00357#bib.bib12);Yao等人,2025(https://arxiv.org/html/2606.00357#bib.bib13);Geng等人,2025(https://arxiv.org/html/2606.00357#bib.bib1))。
#### 增量学习
现有的对齐方法严重依赖人工标注或来自前沿模型的监督,框架包括RLHF或DPO(Ouyang等人,2022(https://arxiv.org/html/2606.00357#bib.bib24);Bai等人,2022(https://arxiv.org/html/2606.00357#bib.bib25);Rafailov等人,2024(https://arxiv.org/html/2606.00357#bib.bib30))。增量学习通过从弱模型及其更弱变体中构建偏好对来放宽这一昂贵的监督要求,利用它们响应之间的质量差距作为更强学生模型的优化信号(Geng等人,2025(https://arxiv.org/html/2606.00357#bib.bib1))。虽然这种范式与合成偏好生成(Yuan等人,2025(https://arxiv.org/html/2606.00357#bib.bib56))在概念上相似,并在知识推理任务上显示出潜力,但其在复杂多轮环境(如智能体搜索,其中模型必须迭代地与外部工具交互(Yao等人,2023(https://arxiv.org/html/2606.00357#bib.bib64)))中的适用性仍待探索。在本工作中,我们首先在更具挑战性的智能体搜索任务上验证了增量学习假设,然后研究了聚合多个增量是否能比任何单个增量带来更大的收益,我们通过偏好增量聚合来解决这个问题。
#### LoRA微调与合并
低秩适应(LoRA)(Hu等人,2021(https://arxiv.org/html/2606.00357#bib.bib33))通过引入轻量级低秩模块实现大型语言模型的参数高效适应,避免了对每个下游任务进行完整模型微调。其模块化结构天然支持事后组合,因此引发了人们对组合从不同任务或领域学到的专门能力的日益增长的兴趣(Jin等人,2025b(https://arxiv.org/html/2606.00357#bib.bib59))。一条常见的工作路线将适配器视为参数更新,可以通过代数方式组合。任务算术(Ilharco等人,2023(https://arxiv.org/html/2606.00357#bib.bib27))将每次更新建模为任务向量,并通过加权加法进行组合。后续方法如TIES-merging(Yadav等人,2023(https://arxiv.org/html/2606.00357#bib.bib17))和DARE(Yu等人,2024(https://arxiv.org/html/2606.00357#bib.bib60))尝试通过稀疏化更新和解决符号冲突来减少干扰。KnOTS(Stoica等人,2024(https://arxiv.org/html/2606.00357#bib.bib32))进一步引入奇异值分解(SVD)以在合并前对齐适配器子空间。然而,当聚合同一任务内多样的偏好方向时,线性平均可能会严重削弱有用信号。因此,我们提出了几何对齐合并,该方法通过SVD将适配器分解为幅度和方向,使用正交Procrustes对齐子空间,并独立组合方向基和内在幅度,从而实现对多样且冲突信号的鲁棒聚合。
---
## 3 偏好增量聚合
为了聚合多个“弱”监督信号,我们提出了偏好增量聚合(PDA)框架,这是一个两阶段框架,首先从每个弱-更弱模型对中推导出偏好增量,然后通过参数空间合并聚合生成的LoRA实例化更新。
#### 推导偏好增量
在成对响应上进行训练使得模型能够从相对质量差异中学习(Geng等人,2025(https://arxiv.org/html/2606.00357#bib.bib1))。遵循这一原则,我们从nn个模型家族中构建nn个偏好数据集。对于第ii个家族,我们选择一个弱模型θwi及其更弱的(即更小的)模型θw′i。给定任务查询,这两个模型生成成对的响应,其中较强弱模型θwi的响应自动被视为选用样本。这产生了一个偏好数据集Di,由标记的响应对组成。每个偏好数据集Di可以通过偏好优化(使用DPO(Rafailov等人,2024(https://arxiv.org/html/2606.00357#bib.bib30))或ORPO(Hong等人,2024(https://arxiv.org/html/2606.00357#bib.bib9))等目标)用于改进强学生模型θs。我们将从Di学到的更新称为偏好增量,记为Δi。直观上,每个Δi捕获了一个可迁移的改进方向,该方向由对应弱-更弱模型对生成的偏好数据中编码的相对质量差异所诱导。相似文章
超越因子聚合:面向联邦 LoRA 的规范感知低秩服务器表示
本文介绍了 GLoRA,这是一种面向联邦 LoRA 的规范感知服务器表示,旨在通过估计共识更新子空间来解决因子聚合中的语义不匹配问题。实验表明,在异构客户端场景下,GLoRA 在性能和效率方面均优于基线方法。
重访DAgger:大语言模型智能体时代的新探索
本文重新审视了数据集聚合(DAgger)方法在训练长周期大语言模型智能体中的应用,证明了在回合级别上对教师与学生的策略进行插值能够有效缓解协变量偏移,并在SWE-bench Verified等软件工程基准测试中优于现有方法。
B空间拥挤:为LoRA融合校准共享方向
# 论文页 - B空间拥挤:为LoRA融合校准共享方向 来源:[https://huggingface.co/papers/2604.16826](https://huggingface.co/papers/2604.16826) 发布于4月18日 · 由[https://huggingface.co/yixuantt](https://huggingface.co/yixuantt)提交 [](https://huggingface.co/yixuantt) [yixuan](https://huggingface.co/yixuantt) 于4月21日上传 ## 摘要 通过校准共享方向,可提升LoRA适配器融合性能。
多智能体协商中基于对手建模的偏好估计
本文提出了一种新颖的偏好估计方法,将大型语言模型(LLM)的自然语言信息集成到结构化贝叶斯对手建模框架中,用于多智能体协商。该方法利用LLM从话语中提取定性线索,并将其转换为概率格式,在多方协商基准上展示了改进的协议达成率和偏好估计准确性。
平衡聚合:理解与修复 GRPO 中的聚合偏差
本文指出了 GRPO 风格的大语言模型强化学习中存在的聚合偏差问题,并提出了平衡聚合(Balanced Aggregation, BA)方法。该方法通过对正负子集分别计算 token 级均值,从而提高了训练稳定性和最终性能。