PACT:在任务向量中保留锚定核心以进行模型合并

arXiv cs.LG 论文

摘要

本文识别了预训练模型中的“承重墙”维度,这些维度保留了模型合并中任务向量未完全捕获的任务特定知识,并提出了PACT(PreserveAnchoredCores)来保留这些核心,在多个基准测试中实现了最先进的性能。

arXiv:2606.18627v1 公告类型:新 摘要:模型合并已成为多任务学习的无训练替代方案,旨在将多个任务特定的微调模型组合成一个多任务模型。大多数现有的模型合并方法遵循任务算术范式,该范式将微调权重分解为预训练参数和任务向量,并仅在任务向量空间中进行合并。该范式的有效性隐含地依赖于一个假设:任务特定知识仅编码在任务向量中。我们认为,由于预训练模型的内在任务偏好,这一假设通常不成立。具体来说,我们识别出**承重墙(LBW)维度**,即一些关键任务知识仍嵌入在预训练权重中,而非完全转移到任务向量中。我们从标量权重和子空间两个角度表征LBW维度,从而覆盖了现有模型合并方法的主要范式。我们的分析揭示,忽略LBW维度会导致基于任务向量的方法无法完全解决任务冲突,并可能无意中损害预训练模型中编码的任务特定知识,从而导致性能下降。为解决此问题,我们提出PACT(PreserveAnchoredCores),通过将LBW维度的正交补与预训练权重的子空间对齐,来保留任务向量中的锚定任务核心(即LBW维度)。在对齐后,这些子空间分量在应用现有模型合并算法之前从任务向量中移除。此外,我们开发了一种基于随机SVD的高效变体以提高可扩展性。PACT可以无缝集成到现有方法中。跨多个基准的大量实验表明,PACT持续增强主流模型合并方法,并建立了最新的最先进性能。
查看原文
查看缓存全文

缓存时间: 2026/06/18 05:44

# PACT: 在任务向量中保留锚定核心以实现模型融合
来源:https://arxiv.org/html/2606.18627
Ningyuan Shi1,⋆, Zhipeng Zhou2,⋆, Hao Wang3, Chunyan Miao2, Peilin Zhao3,†
1上海交通大学 2南洋理工大学 3香港科技大学(广州)
shiningyuanAccount@sjtu\.edu\.cn, zzpustcml@gmail\.com
haowang@hkust\-gz\.edu\.cn, ascymiao@ntu\.edu\.sg, peilinzhao@sjtu\.edu\.sg

###### 摘要
模型融合已成为一种无需训练的多任务学习替代方案,旨在将多个任务特定的微调模型合并为单个多任务模型。大多数现有模型融合方法遵循*任务算术*范式,该范式将微调权重分解为预训练参数和任务向量,并仅在任务向量空间中进行融合。该范式的有效性隐含地依赖于一个假设,即任务特定知识仅编码在任务向量中。在本文中,我们认为这一假设通常不成立,因为预训练模型存在内在的任务偏好。具体来说,我们识别出了**承重墙维度**,即一些任务关键知识仍保留在预训练权重中,而非完全转移到任务向量中。我们从标量权重和子空间两个角度刻画了承重墙维度,从而覆盖了现有模型融合方法的主要范式。我们的分析表明,由于忽略了承重墙维度,基于任务向量的方法无法完全解决任务冲突,并且可能无意中损坏预训练模型中编码的任务特定知识,导致性能下降。为解决此问题,我们提出**保留锚定核心**,该方法通过将任务向量的正交补与预训练权重的子空间对齐,从而保留任务向量中的锚定任务特定核心(即承重墙分量)。然后,在应用现有模型融合算法之前,将这些对齐的子空间分量从任务向量中移除。此外,我们开发了一种基于随机 SVD 的高效变体,以提高可扩展性。由于保留锚定核心方法从互补的角度处理模型融合,因此可以无缝集成到现有方法中。跨多个基准的大量实验表明,保留锚定核心持续提升了主流模型融合方法的性能,并建立了新的最先进水平。

## 1 引言
预训练模型已成为现代机器学习系统的基础,在广泛领域和任务中提供强大的通用表示(Carion et al.,2020 (https://arxiv.org/html/2606.18627#bib.bib3); Radford et al.,2021 (https://arxiv.org/html/2606.18627#bib.bib31); Caron et al.,2021 (https://arxiv.org/html/2606.18627#bib.bib4))。为了在下游应用中取得高性能,预训练模型通常通过任务特定的微调进行特化(Wortsman et al.,2022b (https://arxiv.org/html/2606.18627#bib.bib46); Ilharco et al.,2022b (https://arxiv.org/html/2606.18627#bib.bib18))。然而,将这种特化扩展到多任务设置通常需要复杂的优化过程、大量的计算资源以及访问大量任务特定的训练数据(Wei et al.,2024 (https://arxiv.org/html/2606.18627#bib.bib43))。模型融合最近作为一种有吸引力的无需训练替代方案出现,旨在将多个任务特定的微调模型合并为单个多任务模型,而无需额外训练(Li et al.,2023 (https://arxiv.org/html/2606.18627#bib.bib24); Yang et al.,2026 (https://arxiv.org/html/2606.18627#bib.bib51))。

现有的模型融合方法大致可分为基于标量权重的方法和基于子空间的方法(Yang et al.,2026 (https://arxiv.org/html/2606.18627#bib.bib51); Ruan et al.,2025 (https://arxiv.org/html/2606.18627#bib.bib32))。基于标量权重的方法(Ilharco et al.,2022a (https://arxiv.org/html/2606.18627#bib.bib17); Yadav et al.,2023 (https://arxiv.org/html/2606.18627#bib.bib50); Nguyen et al.,2025 (https://arxiv.org/html/2606.18627#bib.bib27))将单个参数坐标视为任务知识的基本单元,并对模型权重或任务向量执行坐标级操作。相比之下,基于子空间的方法(Stoica et al.,2025 (https://arxiv.org/html/2606.18627#bib.bib36); Gargiulo et al.,2025 (https://arxiv.org/html/2606.18627#bib.bib12); Marczak et al.,2025 (https://arxiv.org/html/2606.18627#bib.bib25))将任务知识表示为参数空间中一组重要的方向,并通过识别、保留或重组任务相关子空间来合并模型。

尽管方法学上存在差异,这两种范式主要都在*任务向量*空间中进行操作,即由微调引起的参数更新。任务向量的广泛采用很大程度上受任务算术的见解驱动(Ilharco et al.,2022a (https://arxiv.org/html/2606.18627#bib.bib17)),该工作表明不同任务对应的任务向量通常是近似正交的。这一观察表明,任务特定知识在很大程度上编码在任务向量中,因此可以独立操作。因此,大多数现有的模型融合方法隐含地假设任务向量提供了任务特定知识的足够完整表示,而预训练模型仅充当共享的初始化点。

在本文中,我们通过提出一个简单但根本性的问题来挑战这一假设:

> *任务特定且关键的知识是否完全被任务向量捕获?*

我们的回答是否定的。通过一系列涵盖标量权重和子空间融合范式的受控实验,我们识别出一个先前被忽视的现象:一部分任务特定且关键的知识仍然锚定在预训练模型本身中。我们将此类维度称为**承重墙维度**。尽管这些维度在微调期间通常只表现出很小的变化,因此对任务向量贡献不大,但它们在维持任务性能方面起着不成比例的重要作用。结果,仅凭任务向量无法提供任务特定知识的完整表示。

![参考标题](图1:预训练模型中承重墙维度的示意图及其对模型融合的影响。)

这一观察对模型融合有重要影响。由于现有方法仅在任务向量上操作,它们无法在融合过程中明确保护承重墙维度。因此,其他任务向量引入的更新可能会覆盖或扭曲任务关键依赖的预训练结构,导致融合后性能下降。通过破坏性扰动实验,我们验证了承重墙分量的存在以及它们在模型聚合过程中的脆弱性,如图1 (https://arxiv.org/html/2606.18627#S1.F1)所示。

基于这些发现,我们提出**PACT**,一种在模型融合期间保护任务特定承重墙知识的无数据框架。关键思想是识别并保留与承重墙维度相关的任务锚定分量,同时过滤掉干扰对应预训练子空间的任务向量分量。由于PACT直接对任务向量进行操作,它可以无缝集成到现有的基于标量权重和子空间的融合算法中。为了进一步提高可扩展性,我们开发了一种基于随机 SVD 的高效变体,显著降低了计算复杂度。

我们的贡献总结如下:
- •我们重新审视了任务算术的一个基本假设,并研究了任务向量是否完全捕获了任务特定知识。我们通过实验验证了承重墙维度的存在,并展示了它们在模型融合中的关键作用。
- •我们提出了PACT,一种在模型融合期间保护任务特定承重墙知识免受干扰的无数据框架。我们进一步通过随机 SVD 开发了一种具有更好可扩展性的高效变体。
- •在视觉和语言基准上的大量实验,涵盖全微调和 LoRA 微调设置,表明 PACT 持续改进了主流模型融合方法,并建立了新的最先进性能。

## 2 相关工作
模型融合旨在将多个任务特定的微调专家模型集成到一个多任务模型中,而无需访问其原始训练数据,从而避免了传统多任务学习的计算开销和数据隐私问题。任务向量是大多数静态融合方法的核心。任务算术(Ilharco et al.,2022a (https://arxiv.org/html/2606.18627#bib.bib17))通过对任务向量进行缩放和求和来执行多任务融合,建立了即插即用的融合范式。TIES-Merging(Yadav et al.,2023 (https://arxiv.org/html/2606.18627#bib.bib50))依次应用幅度剪枝、符号消歧和不相交聚合来缓解参数冲突。Consensus Merging(Wang et al.,2024 (https://arxiv.org/html/2606.18627#bib.bib42))消除那些仅对单个任务有利、但损害其他任务的“自私”和“灾难性”权重。Concrete Merging(Tang et al.,2023 (https://arxiv.org/html/2606.18627#bib.bib39))使用元学习生成抑制冲突参数的二元掩码。AWD(Xiong et al.,2024 (https://arxiv.org/html/2606.18627#bib.bib49))通过促进任务向量间的正交性来减少干扰。DARE(Yu et al.,2024 (https://arxiv.org/html/2606.18627#bib.bib52))随机丢弃部分参数,作为类似 dropout 的预处理步骤。MAP(Li et al.,2025 (https://arxiv.org/html/2606.18627#bib.bib23))利用二阶泰勒展开和线性回归来估计 Hessian 矩阵,为融合提供基于损失的指导。MetaGPT(Zhou et al.,2024 (https://arxiv.org/html/2606.18627#bib.bib53))和 TATR(Sun et al.,2025 (https://arxiv.org/html/2606.18627#bib.bib38))均显式建模损失缺口:前者推导了融合系数的闭式解,后者将损失缺口建模为梯度和任务向量的乘积,以量化知识冲突。

近期方法利用 SVD 捕获任务矩阵的低秩结构,在子空间内对齐、正交化或均衡分量,以在保留共享知识的同时抑制干扰。KnOTS(Stoica et al.,2025 (https://arxiv.org/html/2606.18627#bib.bib36))专为 LoRA 微调设计,通过对齐和平均右奇异向量来合并适配器。TSV(Gargiulo et al.,2025 (https://arxiv.org/html/2606.18627#bib.bib12))对每个任务矩阵应用 SVD,并对结果子空间进行白化以减少任务间干扰。Iso-C(Marczak et al.,2025 (https://arxiv.org/html/2606.18627#bib.bib25))将求和任务矩阵的奇异值替换为其均值,展平奇异谱以扩展有效子空间,显著提升子空间对齐比。Iso-CTS(Marczak et al.,2025 (https://arxiv.org/html/2606.18627#bib.bib25))通过注入任务特定的奇异方向来扩展该方法,平衡共享和任务特定知识。DOGE TA(Wei et al.,2025 (https://arxiv.org/html/2606.18627#bib.bib44))将融合建模为约束优化问题,构建共享子空间,并通过带有自适应任务感知融合系数的投影梯度下降优化校正向量,进一步缩小了与单个任务模型的性能差距。

然而,所有这些模型融合方法都基于一个隐含假设:任务特定且关键的知识仅位于相应任务向量中,并且独立于预训练基础模型。因此,它们忽略了预训练参数中对每个任务至关重要的承重墙参数。我们的研究首次考察了预训练参数对单个任务的作用,并通过从任务向量中过滤承重墙维度来保护预训练核心子空间。

## 3 动机与观察
在本节中,我们首先介绍模型融合的通用任务向量公式,并建立本文其余部分使用的符号。然后,我们分别从标量权重和子空间范式两个角度验证我们的动机:(1) 识别承重墙维度的存在,以及 (2) 展示这些分量在模型融合过程中如何被破坏。这些观察共同提供了启发性见解,用于设计我们在下一节中提出的方法。

### 3.1 预备知识
模型融合旨在将多个深度神经网络——每个网络从相同的预训练模型在各自任务上微调得到——合并为一个统一的模型。令 \( \theta_0 \) 表示预训练权重,\( \theta_t \) 表示任务 \( t \) 的微调权重,其中 \( t = 1, \dots, T \),\( T \) 为总任务数。我们将 \( \theta^{( \ell )}_t \) 记为任务 \( t \) 在层 \( \ell \) 的权重,并令 \( L \) 为总层数。模型融合的目标是确定一个融合函数 \( f \),使得最终模型
\[
\theta^{( \ell )}_M = f\left( \theta^{( \ell )}_0, \{ \theta^{( \ell )}_t \}_{t=1}^T \right), \quad \forall \ \ell = 1, \dots, L
\]
能够执行各单个模型 \( \theta_t \) 训练过的所有任务。遵循 (Ilharco et al.,2022a (https://arxiv.org/html/2606.18627#bib.bib17)),层内任务向量 \( \Delta_t^{( \ell )} \) 定义为微调权重 \( \theta_t^{( \ell )} \) 与预训练权重 \( \theta_0^{( \ell )} \) 在层 \( \ell \) 的差值:\( \Delta_t^{( \ell )} = \theta_t^{( \ell )} - \theta_0^{( \ell )} \)。在本文后续部分,当上下文明确时,将省略上标 \( \ell \),所有定义适用于任意一层。

在任务算术中,融合函数将所有任务矩阵求和并加回预训练权重:
\[
\theta_{TA}^{( \ell )} = \theta_0^{( \ell )} + \alpha \Delta_{TA}^{( \ell )}, \quad \text{其中} \ \Delta_{TA}^{( \ell )} = \sum_{t=1}^T \Delta_t^{( \ell )}.
\]
这里 \( \alpha \) 是在保留验证集上选择的缩放因子。该策略使得能够从多个微调模型中复用和迁移知识到预训练模型,而无需额外训练或访问原始训练数据。在此基础上,后续算法集中于研究 \( \Delta_t \) 之间的冲突及其聚合方法,隐含地假设 \( \theta_0 \) 与 \( \Delta_{TA} \) 之间不存在干扰,可以直接求和。我们的研究正是从这一前提出发。在展示我们的实证证据之前,首先给出承重墙维度的简要定义。

###### 定义 3.1(承重墙维度)。对于任务 \( t \),若某个参数维度 \( i \) 对任务性能贡献显著,但在微调过程中仅受到可忽略的更新,即 \( |\Delta_t^{(i)}| \approx 0 \),则该维度被称为承重墙维度。在此类维度中,任务相关知识主要驻留在

相似文章

Anchor:缓解智能体基准生成中的工件漂移

arXiv cs.AI

Anchor是一个任务生成流水线,通过从单一的约束优化规范中联合生成指令、环境、解决方案和验证器,解决了AI智能体基准中的工件漂移问题,为企业工作流提供一致且可审计的评估任务。论文介绍了ERP-Bench——一个包含生产级ERP系统中300个长时任务的基准,结果显示前沿模型在26.1%的试验中满足显式约束,但仅17.4%的试验达到最优解。

用于可扩展视觉 Transformer 的弹性注意力核 [R]

Reddit r/MachineLearning

本文介绍了一篇关于视觉 Transformer 弹性注意力核的新论文,提出了一种核心-外围块稀疏注意力结构,与 DINOv3 等密集自注意力方法相比,该结构提高了可扩展性和准确率。

CORE:用于知识图谱补全的循环正交体关系嵌入

arXiv cs.LG

本文介绍了 CORE,这是一种新的知识图谱补全模型,通过在环面流形上使用循环正交体关系嵌入来解决基于区域的模型中的边界约束问题。实验表明,该模型在链接预测任务中表现出具有竞争力的性能。