GRASP: 梯度对齐顺序参数迁移——面向内存高效的多源学习

arXiv cs.LG 论文

摘要

GRASP提出一种多源迁移学习方法,顺序合并源模型到单个目标模型,内存占用恒定O(1),使用基于梯度的参数对齐避免负迁移。实验表明其性能优于集成方法且内存效率更高。

arXiv:2606.14900v1 公告类型: 新 摘要: 多源迁移学习面临根本的可扩展性瓶颈:现有方法要么在参数融合时将所有K个源模型同时加载到内存中(需要O(K)内存),要么在推理时部署所有模型,使得生产部署不可行。我们提出GRASP(梯度对齐顺序参数迁移),通过三项关键创新实现更优的知识整合同时保持O(1)内存消耗:(1)顺序处理,每次将一个源合并到演变中的目标模型;(2)逐参数梯度对齐,仅选择性迁移优化方向与目标领域一致的参数,避免负迁移;(3)迭代微调,在整合下一个源之前调整迁移的知识。在三个持续学习基准(Yearbook、CLEAR-10、CLEAR-100,涵盖10至108年的时间分布偏移)和四种架构(1.3M至25.6M参数)上的大量实验表明,GRASP在所有数据集和架构上达到93.5%的平均准确率,而集成方法为71.7%,同时仅需恒定内存,而标准多源融合需要K个模型。关键的是,GRASP的顺序特性使得先前合并的模型无需增长内存即可扩展到任意多的源,特别适合资源受限的部署和持续演化的源领域。
查看原文
查看缓存全文

缓存时间: 2026/06/16 11:35

# GRASP: 梯度对齐的序列参数迁移用于内存高效的多源学习
来源: https://arxiv.org/html/2606.14900

11institutetext:圣地亚哥州立大学,加利福尼亚州圣地亚哥,美国  
22institutetext:犹他大学,犹他州盐湖城,美国  
33institutetext:缅因大学,缅因州奥罗诺,美国  

###### 摘要

多源迁移学习面临一个根本的可扩展性瓶颈:现有方法要么需要在参数融合时将所有 \(K\) 个源模型同时加载到内存中,导致 \(O(K)\) 内存需求;要么在推理时部署所有模型,使得生产部署不可行。我们提出 GRASP(梯度对齐的序列参数迁移),该方法通过三项关键创新实现了优越的知识整合,同时保持 \(O(1)\) 内存消耗:(1) 序列处理,每次将一个源合并到不断演进的目标模型中;(2) 参数级梯度对齐,仅选择优化方向与目标域对齐的参数进行迁移,避免负迁移;(3) 迭代微调,在整合下一个源之前对迁移的知识进行适配。我们在三个持续学习基准(Yearbook、CLEAR-10、CLEAR-100)上进行广泛实验,这些基准覆盖了 10 到 108 年的时间分布偏移,并使用了四种架构(参数量从 1.3M 到 25.6M)。结果表明,与集成方法的 71.7% 准确率相比,GRASP 在所有数据集和架构上的平均准确率达到 93.5%,同时只需恒定内存,而标准多源融合需要存储 \(K\) 个模型。关键是,GRASP 的序列设计支持增量源整合,无需重新处理先前合并的模型,并且可以扩展到任意数量的源而无需增加内存,使其特别适合资源受限的部署和持续演化的源域。

关键词:迁移学习,多源学习,参数高效方法,持续学习,内存高效深度学习

## 1 引言

迁移学习通过重用预训练模型的知识,使得能够快速适应新领域,从而彻底改变了深度学习 [15, 22]。虽然单源迁移已被证明非常有效,但实际应用越来越多地涉及多个异构源域,每个源域都包含与目标任务相关的互补知识。多源迁移学习有望利用这些多样的知识来获得更优的目标性能;然而,现有方法面临着严重限制其实际部署的根本性权衡。

**内存可扩展性问题:** 当前多源方法分为三类,每类都有关键局限性。**集成方法**[1, 9] 维护 \(K\) 个独立训练的源模型,并通过加权平均组合它们的预测。虽然概念简单且易于并行化,但集成需要 \(O(K)\) 空间复杂度,使得在内存受限环境中部署不可行。**参数融合方法**[23, 13, 7] 将源参数合并到单个模型中,消除了推理开销,但通常需要在合并时同时加载所有源,这造成了 \(O(K)\) 内存瓶颈,阻碍了扩展到大型源集合。**参数高效方法**[16, 17] 为每个源训练轻量级适配器,但这些适配器会随着源的数量累积,并遭受灾难性遗忘 [8]。

**我们的方法 (GRASP):** 我们提出**梯度对齐的序列参数迁移**(Gradient-Aligned Sequential Parameter Transfer,GRASP),该方法通过以下方式解决了这些根本性限制:(1) **恒定内存的序列处理**:每次处理一个源,内存复杂度为 \(O(1)\)(内存中仅 2 个模型);(2) **梯度对齐的参数选择**:仅迁移那些梯度与目标梯度具有正余弦相似度的参数;(3) **带适配的迭代整合**:在每次源合并后进行微调,以确保与后续迁移知识的兼容性。

**贡献:** (1) 一种内存高效的序列迁移框架,无论源数量多少,都实现 \(O(1)\) 内存复杂度。(2) 一种梯度对齐准则,提供原则性的参数级选择,识别有益知识同时避免负迁移。(3) 通过 Fisher 信息公式对多源迁移有效性进行界定的理论分析。(4) 全面的实证验证,展示了在不同时间偏移下的卓越准确性、稳定性和内存效率。**代码:** 可于 https://github.com/Sekeh-Lab/grasp-multisource-transfer 获取。

## 2 相关工作

**多源迁移与融合。** 多源域适应利用多个源来提升目标性能 [12]。最近的融合方法无需重新训练即可组合独立训练的模型:模型汤 [23] 平均具有不同超参数的模型的权重,Fisher 加权平均 [13] 按 Fisher 信息重要性对参数加权,任务算术 [7] 展示了任务向量可以相加或相减。虽然这些方法取得了强大性能,但它们需要在合并时同时加载所有 \(K\) 个源(\(O(K)\) 内存),添加源时需要重新合并,并且采用均匀或粗粒度的加权方案。

**集成方法。** 集成通过投票或平均组合模型 [1],深度集成 [9] 以在内存中维护 \(K\) 个模型并执行 \(K\) 次前向传播为代价提供不确定性估计。这两种方法都存在线性的内存和计算扩展问题,且不支持持续扩展。

**基于梯度的迁移。** 梯度对齐已成为成功迁移的一项指标。Du 等人 [2] 提出了用于域适应的梯度分布对齐,而 Wang 等人 [21] 引入了用于域级决策的提示梯度对齐。Standley 等人 [19] 在多任务学习中使用了梯度余弦相似度来衡量任务亲和性。然而,先前的工作将梯度对齐应用于域级或任务级,而非参数级的选择性迁移。

**参数高效与序列方法。** 参数高效微调通过低秩分解减少了可训练参数 [6]。序列方法包括 AdapterFusion [16],它使用学习到的权重组合适配器;以及序列适配器训练 [17],它顺序训练任务特定的适配器,但会累积 \(K\) 个适配器模块。持续学习通过正则化 [8] 或动态架构 [18] 防止灾难性遗忘,但通常需要架构增长或专门的内存机制。

**GRASP 的独特性。** 与需要 \(O(K)\) 内存和重新合并的融合方法不同,GRASP 通过序列处理和持续整合实现 \(O(1)\) 内存。与集成方法相比,GRASP 提供单模型推理和选择性知识聚合。GRASP 将梯度对齐从域级 [2, 21] 扩展到参数级选择,实现了细粒度的迁移控制。与序列适配器方法 [17] 和持续学习方法 [18] 不同,GRASP 将知识整合到单个模型中,无需适配器累积或架构增长。

## 3 方法与理论分析

### 3.1 问题形式化

我们考虑一个序列,包含 \(M\) 个源 \(\{(\mathbf{X}_m, \mathbf{Y}_m)\}_{m=1,\ldots,M}\),其中 \(\mathbf{X}_m\) 是源 \(m\) 的域,\(\mathbf{Y}_m\) 是第 \(m\) 个源的类别集合。目标任务记为 \(T\),即 \(\{(\mathbf{X}_T, \mathbf{Y}_T)\}\),类别集合为 \(\mathbf{Y}_T\)。

###### 定义 1 (多源迁移学习 MS-TL)

对于来自 \(M\) 个源(记为 \(\mathcal{D}^u_M\))的任何基础事件 \(\mathcal{D}\),MS-TL 的目标是学习 \(P(x \in \mathbf{X}_T | \mathcal{D}^u_M)\)。我们假设源域是不相交的,即 \(\mathbf{X}_m \bigcap \mathbf{X}_{m'} = \emptyset\),\(\forall m \neq m'\) 且 \(\mathcal{D}_M^u = \bigcup_{m=1}^M \mathbf{X}_m\),并且

\[
P(x \in \mathbf{X}_T | \mathcal{D}^u_M) = \sum_{m=1}^M P(x \in \mathbf{X}_T | x \in \mathbf{X}_m) P(x \in \mathbf{X}_m). \tag{1}
\]

由于 \(\mathbf{X}_m \bigcap \mathbf{X}_{m'} = \emptyset\),对特定源 \(\mathbf{X}_m\) 的定义为:

\[
P(x \in \mathbf{X}_T | x \in \mathbf{X}_m) P(x \in \mathbf{X}_m), \tag{2}
\]

其中源预测(SP)概率为 \(P(x \in \mathbf{X}_m)\),第 \(m\) 个源的迁移预测(\(m\)-STP)概率为 \(P(x \in \mathbf{X}_T | x \in \mathbf{X}_m)\)。

###### 定义 2 (集成迁移学习 E-TL)

对于源集合 \(\{\mathbf{X}_m\}_{m=1,\ldots,M}\)(即 \(\mathcal{D}^e_M = \{\mathbf{X}_m\}_{m=1}^M\)),E-TL 学习给定 \(\mathcal{D}^e_M\) 的目标 \(\mathbf{X}_T\):

\[
P(x \in \mathbf{X}_T | \mathcal{D}^e_M) = \sum_{m=1}^M \alpha_m P(x \in \mathbf{X}_T | x \in \mathbf{X}_m), \tag{3}
\]

其中 \(\alpha_m \in (0,1)\) 是源 \(\mathbf{X}_m\) 的集成权重。概率 \(P(x \in \mathbf{X}_T | x \in \mathbf{X}_m)\) 是第 \(m\) 个 STP 概率。

注:如果设 \(\alpha_m = P(x \in \mathbf{X}_m)\),则 E-TL 蕴含 MS-TL。

###### 定义 3 (序列迁移学习 S-TL)

对于源序列 \(\{(\mathbf{X}_m, \mathbf{Y}_m)\}_{m=1,\ldots,M}\),其中 \(\mathcal{D}^s_M\) 是序列 \(\mathcal{D}^s_M = \mathbf{X}_1 \rightarrow \mathbf{X}_2 \rightarrow \ldots \mathbf{X}_M\) 的基础事件:

\[
P(x \in \mathbf{X}_T | \mathcal{D}^s_M) = P(x \in \mathbf{X}_T | x \in \mathbf{X}_M). \tag{4}
\]

###### 引理 1

假设源预测概率有界,即 \(P(x \in \mathbf{X}_m) \leq \gamma_m\),\(m=1,\ldots,M\)。那么 E-TL 和 MS-TL 对目标 \(\mathbf{X}_T\) 的预测满足:

\[
\left\| P(x \in \mathbf{X}_T | \mathcal{D}^e_M) - P(x \in \mathbf{X}_T | \mathcal{D}^u_M) \right\| \leq \sum_{m=1}^M \beta_m P(x \in \mathbf{X}_T | x \in \mathbf{X}_m), \tag{5}
\]

其中 \(\beta_m\),\(m=1,\ldots M\) 是常数。

### 3.2 源的有效性与信息量

在 S-TL 中,确定每个源对目标的有效性和信息量至关重要。

###### 定义 4 (源有效性)

设 \(d(\mathbb{P}_1 \| \mathbb{P}_2)\) 是两个分布之间的对称距离(例如 L2 距离、总变差、对称 KL 散度)。给定连续源 \(\mathbf{X}_{m-1}\) 和 \(\mathbf{X}_m\),源 \(\mathbf{X}_m\) 对目标 \(\mathbf{X}_T\) 的有效性为:

\[
\mathcal{E}(\mathbf{X}_{m-1 \rightarrow m}) := d\left(P(x \in \mathbf{X}_T | \mathcal{D}^s_m), P(x \in \mathbf{X}_T | \mathcal{D}^s_{m-1})\right). \tag{6}
\]

如果 \(\mathcal{E}(\mathbf{X}_{m-1 \rightarrow m}) \geq \delta\),则源 \(\mathbf{X}_m\) 是 \(\delta\) 有效的。

###### 定义 5 (源信息量)

给定连续源 \(\mathbf{X}_{m-1}\) 和 \(\mathbf{X}_m\),如果:

\[
\mathcal{I}(\mathbf{X}_{m-1 \rightarrow m}) := \frac{P(x \in \mathbf{X}_T | \mathcal{D}^s_m)}{P(x \in \mathbf{X}_T | \mathcal{D}^s_{m-1})} \geq \gamma, \tag{7}
\]

其中常数 \(\gamma > 1\),则源 \(\mathbf{X}_m\) 是 \(\gamma\) 信息性的。

注:当距离函数 \(d\) 是对数概率差绝对值时:

\[
\begin{aligned}
\mathcal{E}(\mathbf{X}_{m-1 \rightarrow m}) &= \big\| \log P(x \in \mathbf{X}_T | \mathcal{D}^s_m) - \log P(x \in \mathbf{X}_T | \mathcal{D}^s_{m-1}) \big\| \\
&= \big\| \log\left(\frac{P(x \in \mathbf{X}_T | \mathcal{D}^s_m)}{P(x \in \mathbf{X}_T | \mathcal{D}^s_{m-1})}\right) \big\|,
\end{aligned} \tag{8}
\]

我们有 \(\mathcal{E}(\mathbf{X}_{m-1 \rightarrow m}) = |\log(\mathcal{I}(\mathbf{X}_{m-1 \rightarrow m}))|\)。对于 \(k\) 个源:

\[
\mathcal{E}(\mathbf{X}_{m \rightarrow m+k}) = \left\| \log\left(\frac{P(x \in \mathbf{X}_T | \mathcal{D}^s_{m+k})}{P(x \in \mathbf{X}_T | \mathcal{D}^s_m)}\right) \right\|, \tag{9}
\]

其中 \(\mathcal{D}^s_{m+k} = \mathbf{X}_m \rightarrow \mathbf{X}_{m+1} \rightarrow \ldots \rightarrow \mathbf{X}_{m+k}\)。

符号:

- \(P_{\theta^{(m)}_T} := P(x \in \mathbf{X}_T | \mathcal{D}^s_m)\):当目标在序列 \(\mathcal{D}^s_m = \mathbf{X}_1 \rightarrow \mathbf{X}_2 \rightarrow \ldots \mathbf{X}_m\) 上学习时的概率。
- \(P_{\theta^{(m \rightarrow m+1)}_T} := P(x \in \mathbf{X}_T | \mathcal{D}^s_m \rightarrow \mathbf{X}_{m+1})\):当目标在学习了 \(\mathcal{D}^s_m\) 之后在 \(\mathcal{D}_{m+1}\) 上学习时的概率。注意 \(\mathcal{D}^s_{m+1} = \mathcal{D}^s_m \rightarrow \mathbf{X}_{m+1}\)。

我们将学习到的参数记为 \(\widehat{\theta}^{(m)}_T\),并使用凸组合:

\[
\widehat{\theta}^{(m \rightarrow m+1)}_T = \lambda \widehat{\theta}^{(m+1)}_T + (1 - \lambda) \widehat{\theta}^{(m)}_T, \quad 0 \leq \lambda \leq 1.
\]

相似文章

可检索梯度:无累积权重漂移的持续后训练

arXiv cs.CL

提出 ReGrad,一种将梯度视为可检索知识单元用于持续后训练的范式,通过将文档特定梯度存储在梯度银行(Gradient Bank)中,并在推理时检索查询相关梯度进行临时权重适应,从而避免累积权重漂移。

GRASP:在多人物非语言交互中建立社交推理的根基

Hugging Face Daily Papers

GRASP是一个大规模数据集,用于多人物视频中的社交推理,将高层次社交问题与细粒度的注视和手势事件联系起来,并引入了社交基础奖励(Social Grounding Reward)以提升多模态模型的理解能力。