通过预测梯度催化剂加速多目标贝叶斯优化

arXiv cs.LG 2026/06/08 04:00 论文

摘要

本文介绍了一种通用加速机制，用于多目标贝叶斯优化，该机制利用高斯过程预测梯度作为辅助信号来增强现有的采集函数，从而在有限的评估预算下更快地收敛到全局帕累托集。

arXiv:2606.06984v1 公告类型：新摘要：本文提出了一种用于多目标贝叶斯优化（MOBO）的通用加速机制，该机制利用高斯过程预测梯度作为辅助信号。该方法并非取代现有的帕累托合规采集函数，而是通过从代理模型推导出的梯度中获取局部平稳性信息来增强它们，从而在有限的评估预算下更快地收敛到全局帕累托集。研究了两种催化剂实例化：自适应多梯度下降算法催化剂（MGDA）和一种预定义权重变体，后者在预算紧张时能够实现集中探索。在DTLZ基准测试集（使用2个目标和10个决策变量）上的实验表明，当代理模型准确时，特别是在平稳问题上，预测梯度催化可以比其它采集函数（EHVI、AugTch、tMPoI、SAF）带来显著的加速。

查看原文

查看缓存全文

缓存时间: 2026/06/08 09:19

# 通过预测梯度催化剂加速多目标贝叶斯优化
来源：https://arxiv.org/html/2606.06984
11地址：拉夫堡大学，拉夫堡，LE11 3TU，英国
11邮箱：[email protected]地址：埃克塞特大学，埃克塞特，EX4 4QD，英国
22邮箱：{T.Chugh,J.E.Fieldsend}@exeter.ac.uk33地址：曼彻斯特大学，曼彻斯特，M15 6PB，英国
33邮箱：[email protected]###### 摘要

本文提出了一种用于多目标贝叶斯优化（MOBO）的通用加速机制，该机制利用高斯过程预测梯度作为辅助信号。所提出的方法不是替换现有的帕累托兼容采集函数，而是用从代理派生的梯度中获得的局部平稳性信息来增强它们，从而在有限的评估预算下实现向全局帕累托集的更快收敛。研究了两种催化剂实例：一种自适应多梯度下降算法基催化剂（MGDA）和一种预定义权重变体，当预算紧张时，该变体能够实现聚焦探索。在DTLZ基准测试套件（使用2个目标和10个决策变量）上的实验表明，当代理准确时，特别是对于平稳问题，与其他采集函数（EHVI、AugTch、tMPoI、SAF）相比，预测梯度催化可以带来显著的加速。111补充材料、代码和数据可在Zenodo获取：19649281 (https://doi.org/10.5281/zenodo.19649281)。

## 1 引言

贝叶斯优化（BO）是一种广泛使用的优化昂贵、有噪声或黑箱目标函数的框架。通过将概率代理模型（最常见的是高斯过程）与平衡探索和利用的采集函数相结合，BO能够使用相对较少的昂贵评估来识别高质量的解决方案。这已导致在机器学习、工程设计和基于仿真的优化中的成功应用[23 (https://arxiv.org/html/2606.06984#bib.bib32),10 (https://arxiv.org/html/2606.06984#bib.bib33)]。

近期工作探索了使用梯度信息来加速BO的方法。早期方法侧重于将*观测到的*梯度（通过伴随方法或自动微分获得）纳入代理模型和采集函数中。特别是，Wu等人[27 (https://arxiv.org/html/2606.06984#bib.bib31)]表明，在一步前瞻知识梯度框架中使用精确梯度可以显著降低样本复杂度。最近，Perrin和Le Riche提出了一种加速策略，利用高斯过程代理的*预测*梯度将采集偏向于局部最优区域[18 (https://arxiv.org/html/2606.06984#bib.bib13)]。虽然有效，但这种方法仅限于单目标设置，并且与特定的采集函数紧密耦合。

然而，许多现实世界问题本质上是多目标的，需要优化几个相互竞争的标准，并产生一组权衡解决方案而非单个最优解。在此类问题中，小的设计变更可能会显著改变目标间性能的分布方式，使得在评估成本高昂时，对帕累托集的高效探索特别具有挑战性。尽管基于梯度的平稳性概念在确定性多目标优化中起着核心作用，但它们在多目标贝叶斯优化（MOBO）中的应用在很大程度上仍未得到探索。

本文通过引入一种通用的加速机制来填补这一空白，该机制利用高斯过程*预测梯度*作为辅助的、类似催化剂的信号。所提出的框架不是替换现有的采集函数，而是用从代理梯度中获得的局部平稳性信息来增强它们，从而在有限的评估预算下实现向帕累托集的更快收敛。

本文的主要贡献如下：

- • 一个用于MOBO的催化框架，该框架利用GP预测梯度来加速收敛，同时不改变底层的采集函数。
- • 基于帕累托平稳性理论的两种催化剂实例：一种自适应多梯度下降算法（MGDA）基策略，以及一种用于聚焦权衡探索的预定义权重方法。
- • 通过增广切比雪夫标量化，将催化信号与标准帕累托兼容采集函数进行原则性整合。
- • 在DTLZ基准测试套件上的广泛评估表明，对于（近似）平稳问题具有一致的加速效果。

本文的其余部分组织如下。第2节 (https://arxiv.org/html/2606.06984#S2)回顾了关于多目标优化、高斯过程和MOBO的背景材料。第3节 (https://arxiv.org/html/2606.06984#S3)介绍了所提出的催化框架。实验设置和结果在第4节 (https://arxiv.org/html/2606.06984#S4)和第5节 (https://arxiv.org/html/2606.06984#S5)中讨论，随后在第6节 (https://arxiv.org/html/2606.06984#S6)给出结论。

## 2 背景

我们现在列出支撑这项工作的背景材料。

### 2.1 多目标优化与帕累托平稳性

设x∈Rn\mathbf{x}\in\mathbb{R}^n为一个nn维的决策向量。不失一般性，一个无约束的多目标优化问题可以定义为

minx∈X⁡f(x),\displaystyle\min_{\mathbf{x}\in\mathcal{X}}\,\mathbf{f}(\mathbf{x}),(1)其中f(x)=(f1(x),...,fM(x))⊤\mathbf{f}(\mathbf{x})=(f_{1}(\mathbf{x}),\dots,f_{M}(\mathbf{x}))^{\top}是一个MM维的目标向量，fi(⋅)f_{i}(\cdot)表示第ii个目标，并且X⊆Rn\mathcal{X}\subseteq\mathbb{R}^n是可行空间。

求解多目标问题会产生一组最优的权衡解，而不是单个最优点。如果一个期望的解不存在任何其他可行解能在不恶化至少一个其他目标的情况下改进一个目标，则该解被认为是期望的。这引出了帕累托最优性的标准概念。一个向量x′∈X\mathbf{x}^{\prime}\in\mathcal{X}是帕累托最优的，如果不存在另一个向量x′′∈X\mathbf{x}^{\prime\prime}\in\mathcal{X}支配它；也就是说，

- •x′′\mathbf{x}^{\prime\prime}在所有目标上至少与x′\mathbf{x}^{\prime}一样好，并且
- •x′′\mathbf{x}^{\prime\prime}在至少一个目标上严格更好。

形式化地，帕累托最优集P∗\mathcal{P}^{*}定义为

P∗={x′∈X|∄x′′∈X:(∀i∈{1,...,M},fi(x′′)≤fi(x′))∧(∃j∈{1,...,M},fj(x′′)<fj(x′))}.(2)\mathcal{P}^{*}=\Big\{\mathbf{x}^{\prime}\in\mathcal{X}~\Big|~\nexists\mathbf{x}^{\prime\prime}\in\mathcal{X}:\left(\forall i\in\{1,\dots,M\},\ f_{i}(\mathbf{x}^{\prime\prime})\leq f_{i}(\mathbf{x}^{\prime})\right)\quad\land~\left(\exists j\in\{1,\ldots,M\},\ f_{j}(\mathbf{x}^{\prime\prime})<f_{j}(\mathbf{x}^{\prime})\right)\Big\}.\(2\) 帕累托前沿F∗\mathcal{F}^{*}是帕累托集在目标空间中的像，即，F∗={f(x):x∈P∗}\mathcal{F}^{*}=\left\{\mathbf{f}(\mathbf{x}):\mathbf{x}\in\mathcal{P}^{*}\right\}。

帕累托平稳性的必要条件——意味着决策空间中围绕一个平稳点x\mathbf{x}的任何足够小的扰动都会产生一个等价或受支配的解——对于无约束多目标优化问题在[17 (https://arxiv.org/html/2606.06984#bib.bib2)]中给出为：

γ⋅∇f(x)=∑i=1Mγi∇fi(x)=0,\displaystyle\bm{\gamma}\cdot\nabla\mathbf{f}(\mathbf{x})=\sum_{i=1}^{M}\gamma_{i}\nabla f_{i}(\mathbf{x})=0,(3)其中γ=(γ1,...,γM)⊤\bm{\gamma}=(\gamma_{1},\dots,\gamma_{M})^{\top}表示一个凸组合系数向量，满足γi∈[0,1]\gamma_{i}\in[0,1]和∑iγi=1\sum_{i}\gamma_{i}=1。这些条件通常被称为Fritz–John (FJ) 条件，意味着在帕累托平稳点处，要么所有目标同时被最小化，要么它们的改进方向相互冲突，使得其梯度的加权和相消，从而没有可行的下降方向能够同时改进所有目标。

重要的是，FJ条件是全局帕累托最优性的*必要条件但不是充分条件*。充分性仅在额外假设下成立；参见，例如，Censor[2 (https://arxiv.org/html/2606.06984#bib.bib3)]。因此，该条件也可能在局部有效但全局受支配的点处满足。因此，FJ条件本身仅保证*局部*帕累托效率，而非全局最优性。

### 2.2 高斯过程回归

高斯过程（GP）模型为回归提供了一个灵活的贝叶斯框架，提供了闭合形式的后验预测分布，可以量化预期的目标值和相关的认知不确定性。预测均值表示模型当前对目标的最佳估计，而预测方差反映了局部观测的稀疏性。这种双重表示自然地支撑了探索-利用权衡，使得GP成为代理辅助优化的强大选择[6 (https://arxiv.org/html/2606.06984#bib.bib8)]。

对于每个目标ii，我们考虑一个大小为TT的数据集Di={(xt,yt=fi(xt))}t=1T\mathcal{D}_{i}=\{(\mathbf{x}^{t},y^{t}=f_{i}(\mathbf{x}^{t}))\}_{t=1}^{T}。配备超参数θi∗\bm{\theta}_{i}^{*}的GP产生高斯预测分布

f^i(x)∼p(fi(x)∣Di,θi∗)=N(μi(x),σi2(x)).\displaystyle\hat{f}_{i}(\mathbf{x})\sim p(f_{i}(\mathbf{x})\mid\mathcal{D}_{i},\bm{\theta}_{i}^{*})=\mathcal{N}\!\left(\mu_{i}(\mathbf{x}),\,\sigma_{i}^{2}(\mathbf{x})\right).\(4\)预测矩[20 (https://arxiv.org/html/2606.06984#bib.bib9)]由下式给出

μi(x)=κ(x,X)K−1yi,\displaystyle\mu_{i}(\mathbf{x})=\kappa(\mathbf{x},X)K^{-1}\mathbf{y}_{i},\(5\)σi2(x)=κ(x,x)−κ(x,X)K−1κ(X,x),\displaystyle\sigma_{i}^{2}(\mathbf{x})=\kappa(\mathbf{x},\mathbf{x})-\kappa(\mathbf{x},X)K^{-1}\kappa(X,\mathbf{x}),\(6\)其中X∈RT×nX\in\mathbb{R}^{T\times n}包含输入位置，yi∈RT\mathbf{y}_{i}\in\mathbb{R}^{T}包含相应的目标评估值，而KK是由核κ(⋅,⋅|θi∗)\kappa(\cdot,\cdot\,|\,\bm{\theta}_{i}^{*})诱导的协方差矩阵。向量κ(x,X)\kappa(\mathbf{x},X)表示查询点x\mathbf{x}与所有观测值之间的协方差。

核在编码关于底层目标的平滑性和结构假设方面起着核心作用。在这项工作中，我们采用Matérn-5/25/2核，该核已被推荐用于现实世界的优化任务[24 (https://arxiv.org/html/2606.06984#bib.bib11)]。超参数θi∗\bm{\theta}_{i}^{*}通过使用L-BFGS优化器[15 (https://arxiv.org/html/2606.06984#bib.bib35)]进行十次随机重启的最大似然推断获得；详见[11 (https://arxiv.org/html/2606.06984#bib.bib12)]。

由于预测分布是高斯分布，fif_{i}的期望梯度就是其预测均值的梯度。微分得到[25 (https://arxiv.org/html/2606.06984#bib.bib10)]：

E[∇f^i(x)]=(∂μi(x)∂xj|j=1,...,n)⊤=(∂κ(x,X)∂xjK−1yi|j=1,...,n)⊤.\displaystyle\mathbb{E}\left[\nabla\hat{f}_{i}(\mathbf{x})\right]=\left(\frac{\partial\mu_{i}(\mathbf{x})}{\partial x_{j}}\;\bigg|\;j=1,\dots,n\right)^{\top}=\left(\frac{\partial\kappa(\mathbf{x},X)}{\partial x_{j}}K^{-1}\mathbf{y}_{i}\;\bigg|\;j=1,\dots,n\right)^{\top}.\(7\) 图1 (https://arxiv.org/html/2606.06984#S2.F1) 可视化了这些量对于Sphere函数的GP模型，说明了GP预测梯度如何用大小为五的小数据集在真正最优处正确识别出平稳点。

参见说明图 1：GP模型在Sphere函数fi(x)=x2f_{i}(x)=x^{2}上训练的预测均值、不确定性和期望梯度图示。预测均值（蓝色虚线）和不确定性带（浅蓝色）与期望梯度（黑色实线）一起显示，后者在真正最小值（绿色虚线）处正确消失。水平红色虚线表示零梯度目标E[∇fi(x)]=0\mathbb{E}[\nabla f_{i}(\mathbf{x})]=0。训练数据由灰色十字表示。尽管在此示例中我们假设无噪声观测，但GP回归可以轻松通过加性高斯噪声项来容纳有噪声数据。例如，对于方差为σnoise2\sigma_{noise}^{2}的齐次噪声，预测方差变为σi2(x)+σnoise2\sigma_{i}^{2}(\mathbf{x})+\sigma_{noise}^{2}。

构建多目标代理模型的标准策略是假设目标之间条件独立，并使用单独的GP对每个目标建模。在此假设下，联合预测模型跨目标分解，得到：

f^(x)∣D∼∏i=1Mp(fi(x))=∏i=1MN(μi(x),σi2(x)),\displaystyle\hat{\mathbf{f}}(\mathbf{x})\mid\bm{\mathcal{D}}\;\sim\;\prod_{i=1}^{M}p\!\left(f_{i}(\mathbf{x})\right)=\prod_{i=1}^{M}\mathcal{N}\!\left(\mu_{i}(\mathbf{x}),\,\sigma_{i}^{2}(\mathbf{x})\right),\(8\)其中D={X,Y}\bm{\mathcal{D}}=\{X,Y\}表示训练数据集，由输入矩阵XX和相应的目标评估矩阵Y=(y1,...,yM)⊤Y=(\mathbf{y}_{1},\dots,\mathbf{y}_{M})^{\top}组成。

我们采用这种独立的多次代理公式作为我们贝叶斯多目标优化框架的基础。这一选择得到先前研究的支持，这些研究表明独立的逐目标GP通常优于单代理方法，在单代理方法中，多目标问题的标量化版本使用单个GP建模[19 (https://arxiv.org/html/2606.06984#bib.bib17),4 (https://arxiv.org/html/2606.06984#bib.bib18),3 (https://arxiv.org/html/2606.06984#bib.bib34)]。

### 2.3 多目标贝叶斯优化

多目标贝叶斯优化（MOBO）在过去二十年中经历了显著增长，早期有影响力的贡献出现在2006年左右[9 (https://arxiv.org/html/2606.06984#bib.bib14),14 (https://arxiv.org/html/2606.06984#bib.bib15),13 (https://arxiv.org/html/2606.06984#bib.bib16)]。这种增长是由有效逼近昂贵黑箱问题的帕累托集的需求驱动的。

MOBO通用工作流程概念上很简单：使用空间填充设计（如拉丁超立方采样[16 (https://arxiv.org/html/2606.06984#bib.bib19)]）生成初始数据集，产生一组候选解XX及其相应的目标评估YY。然后在这个数据集上训练单代理或多代理GP模型，产生目标上的多变量预测分布。使用采集函数来选择下一个有望改进当前帕累托集近似的候选解，进行权衡

通过预测梯度催化剂加速多目标贝叶斯优化

相似文章

多目标优化中梯度聚合的统一框架

BayesPO: 基于并行回火梯度引导离散MCMC的贝叶斯提示优化

多任务贝叶斯优化的陷阱与补救措施

面向多目标强化学习的确定性帕累托最优策略综合

高效条件化：伪观测批量贝叶斯优化为何有效及何时失效

提交意见反馈