多目标优化中梯度聚合的统一框架
摘要
本文提出了一个多目标优化中梯度聚合的统一理论框架,建立了收敛到帕累托平稳性的速率。作者引入了一个充分对齐条件,并展示了其在现有算法和新算法(如 capped MGDA)中的应用。
arXiv:2605.30452v1 Announce Type: new
Abstract: 许多机器学习问题涉及多个固有的权衡,最好通过基于梯度的多目标优化(MOO)算法来解决。现有方法通常基于不同的动机提出,逐个案例进行分析,并且在算法上因每个步骤中组件梯度的聚合方式而异。在这项工作中,我们开发了一个用于MOO中梯度聚合的统一框架,建立了收敛到帕累托平稳性(MOO的标准性能度量)的(最优)速率。我们分析的核心是一个充分对齐条件,由此我们推导出一个定理,表明在梯度的凸包内选择非冲突方向是收敛的一个基本充分条件。我们进一步证明,通过对偶锥上的投影可以确保可行性,从而拓宽了具有收敛保证的方法的范围。同时,我们提出了梯度聚合的原始优化视角,该视角涵盖了现有算法,阐明了它们的理论关系,并能够设计新的变体。作为示例,我们介绍了基于CVaR公式的capped MGDA,并展示了其在对抗性联邦学习中的鲁棒性。最后,我们通过合成问题和实际基准的实验验证了我们的理论。
查看缓存全文
缓存时间: 2026/06/01 09:24
# 多目标优化中梯度聚合的统一框架
来源:https://arxiv.org/html/2605.30452
Zeou Hu · Kelvin Ho · 计算机科学与技术学院 · 香港中文大学
Yaoliang Yu · Cheriton计算机科学学院 · 滑铁卢大学 · 滑铁卢, 安大略省, 加拿大 · 向量研究所
###### 摘要
许多机器学习问题涉及多个固有的权衡,最好通过基于梯度的多目标优化(MOO)算法来解决。现有的方法通常基于不同的动机提出,逐个案例进行分析,并在每一步如何聚合分量梯度方面存在算法差异。在这项工作中,我们为MOO中的梯度聚合开发了一个统一框架,建立了收敛到帕累托平稳性——MOO中的标准性能度量——的(最优)速率。我们分析的核心是一个充分对齐条件,由此推导出一个定理,表明在梯度的凸包内选择的非冲突方向构成收敛的一个基本充分条件。我们进一步表明,通过对偶锥上的投影可以确保可行性,从而扩展了具有收敛保证的方法范围。同时,我们提出了梯度聚合的原始优化视角,该视角涵盖了已有的算法,阐明了它们的理论关系,并使得新变体的设计成为可能。作为说明,我们引入了capped MGDA,它源自基于CVaR的公式,并展示了其在对抗性联邦学习中的鲁棒性。最后,我们通过合成问题上的实验和实际基准验证了我们的理论。
## 1 引言
机器学习中的许多问题本质上是多目标的,需要在多个经常相互竞争的性能标准之间取得平衡。这种张力在各种应用中都很明显:从分类系统中确保公平性同时保持准确性,到在联邦学习(FL)中平衡异构客户端的性能,再到在多任务学习(MTL)中使用共享模型联合掌握不同的任务。为了应对现代深度学习中的这些挑战,基于梯度的MOO方法变得不可或缺,它们能够扩展到高维模型,并与现有的训练流程无缝集成。在这些方法中,关键的算法挑战是在每次迭代中,从分量梯度中综合出一个有效的更新方向d\mathbf{d},以指导在竞争目标之间的学习。
关于MOO中梯度聚合的最新工作涵盖了一系列算法——例如,MGDA [Desideri12]、Nash-MTL [NavonSAMKCF22]、FairGrad [BanJi24] 和 UPGrad [quinton2024jacobian] 等——每种算法都提出了一种从分量梯度构建d\mathbf{d}的特定规则。这些方法是在不同的动机下开发的,并且当有收敛分析时,它们也是逐个案例建立的,依赖于特定于方法的假设和证明。因此,尽管这些方法提供了宝贵的见解,但仍然没有一个通用框架来解释更新方向的哪些属性能确保收敛到帕累托平稳性,或者这些不同方法之间是如何联系的。这一差距凸显了需要一个统一的理论来阐明收敛的条件,并为设计新的聚合方案提供有原则的基础。
在这项工作中,我们为基于梯度的MOO开发了一个通用的理论框架。我们的第一个主要结果(定理̃1 (https://arxiv.org/html/2605.30452#Thmtheorem1) 和推论̃1 (https://arxiv.org/html/2605.30452#Thmcorollary1))在d_t\mathbf{d}_t上建立了一个广泛的*对齐条件* (A (https://arxiv.org/html/2605.30452#S4.Ex1)),该条件保证了收敛到帕累托平稳性。这个通用的结果使得推论̃1 (https://arxiv.org/html/2605.30452#Thmcorollary1) 成为关键,并作为我们分析的基石。在此基础上,我们推导出定理̃2 (https://arxiv.org/html/2605.30452#Thmtheorem2),该定理将条件 (A (https://arxiv.org/html/2605.30452#S4.Ex1)) 特化为凸包和非冲突要求,从而解释了突出的非冲突聚合规则的成功。我们进一步表明,通过对偶锥上的投影可以恢复可行性,从而得到推论̃2 (https://arxiv.org/html/2605.30452#Thmcorollary2) 。同时,我们引入了梯度聚合的(原始)优化子问题视角 (12 (https://arxiv.org/html/2605.30452#S4.E12)),并建立了由此产生的聚合是梯度的锥组合的充分条件,从而确保收敛(定理̃4 (https://arxiv.org/html/2605.30452#Thmtheorem4))。这个视角涵盖了现有的公式,并为设计新的公式提供了一个有原则的蓝图。这些结果共同形成了一个连贯的统一框架,简化了理论分析,阐明了先前的工作,并开辟了新的设计可能性。我们总结我们的贡献如下:
- •我们为基于梯度的MOO建立了一个通用的对齐准则,产生了一个广泛适用的收敛分析模板。
- •我们发现MOO中非冲突方向作为收敛的基本条件的理论重要性。
- •我们研究了梯度聚合的原始优化子问题公式,为最终的聚合位于锥包中并收敛提供了充分条件,这涵盖了几种现有方法(例如,LS、MGDA、Nash-MTL)并阐明了它们之间的关系。
- •我们设计并分析了一种新方法,capped MGDA,它源自基于CVaR的原始公式,说明了我们的框架产生新聚合的能力。
- •我们通过在合成和公平性基准上的实验,以及在对抗性联邦学习上的实验验证了我们的理论结果,展示了capped MGDA的鲁棒性。
定理1非凸定理3凸推论1条件 (A)夹角约束定理2凸包 & 非冲突推论2定理4原始-对偶投影到对偶锥• MGDA • Nash-MTL\* • UPGrad\* • DualProj\* • PCGrad\* • UPGrad • DualProj • Greedy-DCP • Power mean: FairGrad • 凸风险度量: CVaR凸包m=1m=1
图 1: 我们关键理论结果之间关系的概览。我们的关键结果,定理̃1 (https://arxiv.org/html/2605.30452#Thmtheorem1) 和推论̃1 (https://arxiv.org/html/2605.30452#Thmcorollary1),建立了一个广泛适用的收敛保证,该保证要求条件 (A (https://arxiv.org/html/2605.30452#S4.Ex1))。从这个结果,我们推导出定理̃2 (https://arxiv.org/html/2605.30452#Thmtheorem2)、推论̃2 (https://arxiv.org/html/2605.30452#Thmcorollary2) 和定理̃4 (https://arxiv.org/html/2605.30452#Thmtheorem4),它们为一大类MOO聚合方法提供了更具洞察力且易于验证的准则。
## 2 相关工作
多目标优化 (MOO) 和帕累托解已被广泛研究,经典方法如进化算法 [DebPAM02]。然而,现代机器学习问题是大规模且可微的,这使得基于梯度的方法更为合适。因此,在这项工作中,我们专注于基于梯度的MOO,特别是多目标梯度聚合。
**基于梯度的MOO。** 基于梯度的MOO利用梯度信息优化多个目标。这方面的一个基础算法是 MGDA [Mukai80, FliegeSvaiter00, Desideri12],它通过求解梯度凸包中范数最小的元素来计算一个*非冲突*方向。[FliegeVV19] 提供了 MGDA 的详细收敛分析。后续工作(例如,[Fliege2009newton, MontonenKM18, tanabe2019proximal, AssunccaoFP21, tanabe2023accelerated])也将经典的单一目标方法扩展到多目标设置。另一个重要的研究方向是研究 MGDA 的随机变体 [MercierPD18, LiuVicente21, ZhouZJZGZ22, FernandoSLCMC23, ChenFYC23, XiaoBJ23],这些变体因其在机器学习中的实际相关性而受到激励,特别是在深度神经网络的小批量训练中。
**多任务学习 (MTL) 和多目标梯度聚合 (MOGA)。** MTL 旨在训练一个在多个任务上表现良好的单一模型。[SenerKoltun18] 首次将 MTL 视为一个多目标优化问题,并应用 MGDA 来解决它。从那时起,MTL 中一系列丰富的研究提出了通用的多目标梯度聚合方法,专注于新颖的梯度聚合方案以缓解任务冲突。例子包括:PCGrad [YuKGLHF20],它将每个梯度投影到其他梯度的法平面上;CAGrad [LiuLJSL21],它通过约束搜索区域来平衡平均和最坏情况目标;以及 Nash-MTL [NavonSAMKCF22],它将 MTL 建模为一个讨价还价博弈。其他方法包括 IMTL-G [LiuLKXCYLZ21] 和 FairGrad [BanJi24] 等。
**非冲突方向和对偶锥。** 非冲突更新方向的概念已经出现在各种与MOO相关的作品中 [Desideri12, YuKGLHF20, LiuLJSL21],尽管通常缺乏足够的正式化或强调。最近的研究澄清了这一准则对应于梯度g_k\{\mathbf{g}_k\}上的对偶锥约束,可以显式地强制执行以保证无冲突更新 [HwangLim2024, quinton2024jacobian]。虽然 [quinton2024jacobian] 承认非冲突方向的相关性,并提议通过对偶锥上的投影来确保它们,但他们并未研究其理论意义。相比之下,我们的工作严格地将非冲突确立为收敛到帕累托平稳性的一个统一充分条件(见定理̃2 (https://arxiv.org/html/2605.30452#Thmtheorem2))。我们表明非冲突不仅仅是一种偏好,而是收敛保证的一个基本条件——这一点在先前的文献中未被认识。
## 3 预备知识
本节回顾帕累托最优性、帕累托平稳性、量化后者的度量,以及与多目标优化中雅可比矩阵相关的两个关键锥。
### 3.1 多目标优化 (MOO)
在数学术语中,一个多目标优化 (MOO) 问题可以写成:
min_w∈R^d\mathbf{f}(\mathbf{w}), (1)
其中 \mathbf{f}(\mathbf{w}) := (f_1(\mathbf{w}), \ldots, f_m(\mathbf{w}))。
并且最小值是相对于*偏序*定义的:
\mathbf{f}(\mathbf{w}) \leq \mathbf{f}(\mathbf{z}) \iff \forall i=1,\ldots,m, f_i(\mathbf{w}) \leq f_i(\mathbf{z}). (2)
与单目标优化不同,对于多个目标,可能出现:
\mathbf{f}(\mathbf{w}) \not\leq \mathbf{f}(\mathbf{z}) \quad \text{且} \quad \mathbf{f}(\mathbf{z}) \not\leq \mathbf{f}(\mathbf{w}), (3)
在这种情况下,我们说 \mathbf{w} 和 \mathbf{z} 是不可比较的。因此,一个MOO问题通常允许一组最优解(也称为*帕累托最优*),其目标值构成*帕累托前沿*。
### 3.2 帕累托最优性和帕累托平稳性
**定义 1 (帕累托最优性).** 我们称 \mathbf{w}^* 为问题 (1) 的一个*帕累托最优*解,如果它的目标值 \mathbf{f}(\mathbf{w}^*) 是相对于 (2) 中的偏序的最小元素;等价地,
\forall \mathbf{w},\ \mathbf{f}(\mathbf{w}) \leq \mathbf{f}(\mathbf{w}^*) \implies \mathbf{f}(\mathbf{w}) = \mathbf{f}(\mathbf{w}^*). (4)
换句话说,不可能在不损害*某些*其他目标的情况下改进 \mathbf{f}(\mathbf{w}^*) 中的*任何一个*分量目标。类似地,我们称 \mathbf{w}^* 为*弱*帕累托最优,如果不可能同时改进 \mathbf{f}(\mathbf{w}^*) 中的*所有*目标,即不存在 \mathbf{w} 使得 \mathbf{f}(\mathbf{w}) < \mathbf{f}(\mathbf{w}^*).
接下来,我们回顾*帕累托平稳性*(也称为*帕累托临界性*)的概念,它是帕累托最优性的一阶必要条件。
**定义 2 (帕累托平稳性).** 我们称 \mathbf{w}^* 为帕累托平稳 (PS) 当且仅当
\mathbf{0} \in \operatorname{conv}\{\nabla f_1(\mathbf{w}^*), \cdots, \nabla f_m(\mathbf{w}^*)\}, (5)
即存在某个 \bm{\lambda} \in \Delta (概率单纯形) 使得 \sum_{i=1}^m \lambda_i \nabla f_i(\mathbf{w}^*) = \mathbf{0}.
帕累托平稳性的相关性体现在以下引理中:
**引理 1 (例如, [Mukai80], 定理 1).** 任何帕累托最优解都是帕累托平稳的。反之,如果所有函数都是凸的(相应地,严格凸的),那么任何帕累托平稳解都是弱帕累托最优的(相应地,帕累托最优的)。
**帕累托平稳性的度量。** 为了量化帕累托平稳性的程度,我们回顾以下度量(例如,[Mukai80, ChenFYC23, ZhangXJZ24]):
\gamma(\mathbf{w}) = \gamma_{\mathbf{f}}(\mathbf{w}) := \min_{\bm{\lambda} \in \Delta} \|J_{\mathbf{f}}(\mathbf{w}) \bm{\lambda}\|, (6)
其中 J_{\mathbf{f}}(\mathbf{w}) := [\nabla f_1(\mathbf{w}), \ldots, \nabla f_m(\mathbf{w})].
显然,\gamma(\mathbf{w}) = 0 当且仅当 \mathbf{w} 是帕累托平稳的。当 m=1 (单目标) 时,\gamma(\mathbf{w}) = \|\nabla f(\mathbf{w})\| 是广泛用于分析非凸函数梯度下降的标准梯度范数。这个度量 \gamma(\mathbf{w}) 是连续的(假设 \mathbf{f} 是连续可微的)。因此,当 \mathbf{w}_t \to \mathbf{w}_* 且 \gamma(\mathbf{w}_t) \to 0 时,我们立即知道极限点 \mathbf{w}_* 必须是帕累托平稳的,因为 \gamma(\mathbf{w}_*) = 0.
我们引入与矩阵 J \in \mathbb{R}^{d \times m} 相关的两个在 \mathbb{R}^d 中的锥:
\operatorname{cone} J := \{ \mathbf{d} : \mathbf{d} = J \bm{\mu}, \bm{\mu} \geq \mathbf{0} \}, (7)
\operatorname{cone}^* J := \{ \mathbf{d} : J^\top \mathbf{d} \geq \mathbf{0} \}.
在每次迭代中,将 J 设为(转置的)雅可比矩阵 J_{\mathbf{f}}(\mathbf{w}),这两个锥代表了更新方向 \mathbf{d} 的两个自然条件:
- \operatorname{cone} J_{\mathbf{f}}(\mathbf{w}) 由分量梯度的锥组合方向组成;
- \operatorname{cone}^* J_{\mathbf{f}}(\mathbf{w}) 由与每个分量梯度*非冲突*的方向组成。
我们注意到,方向 \mathbf{d} \in \operatorname{cone} J 可以归一化到位于 \operatorname{conv} J 中,并且相似文章
乐观对偶平均化统一了现代优化器
本文介绍了 SODA,这是乐观对偶平均化的一种广义形式,统一了 Muon 和 Lion 等现代优化器。该研究提出了一种实用包装器,在不同规模下均可提升性能,且无需为权重衰减进行额外的超参数调优。
通过隐式梯度传输加速基于 LMO 的优化
本文提出了 LMO-IGT,这是一类新的随机优化方法,它利用隐式梯度传输来加速收敛,同时保持每次迭代仅计算一次梯度的结构。文中引入了一个统一的理论框架,并展示了相较于 Muon 等现有基于 LMO 的优化器,该方法具有更优的性能。
多目标多智能体赌博机:从学习效率到公平性优化
本文针对多目标多智能体多臂赌博机问题,介绍了 Pareto UCB1 Gossip 和模拟 NSW UCB Gossip 算法,旨在解决随机环境下的学习效率与公平性问题。
用于Forward-Forward学习的自适应多尺度优度聚合
提出了自适应多尺度优度聚合(AMSGA),这是Forward-Forward算法的一个扩展,通过多尺度优度聚合、自适应难负样本挖掘和层相关阈值,提高了稳定性、鲁棒性和泛化能力,在MNIST和Fashion-MNIST上实现了适度的准确率提升。
平衡聚合:理解与修复 GRPO 中的聚合偏差
本文指出了 GRPO 风格的大语言模型强化学习中存在的聚合偏差问题,并提出了平衡聚合(Balanced Aggregation, BA)方法。该方法通过对正负子集分别计算 token 级均值,从而提高了训练稳定性和最终性能。