面向理解高维贝叶斯优化的自动化核发现

arXiv cs.LG 2026/05/21 04:00 论文

摘要

论文介绍了Kernel Discovery，这是一个LLM驱动的进化框架，用于高维贝叶斯优化，它搜索更广泛的核空间并在基准测试上取得了最先进的结果。

arXiv:2605.20249v1 Announce Type: new 摘要：高斯过程（GP）核是贝叶斯优化（BO）的核心，但为高维问题设计有效的核仍然依赖于大量的人工工程。现有的自动化方法在高维中面临两个瓶颈：它们的核搜索空间仅限于基核的加法和乘法，而基于LLM的方法需要以原始观测为条件，由于上下文长度限制以及提取有意义模式的困难，这变得不可行。我们引入了\textbf{Kernel Discovery}，这是一个LLM驱动的进化框架，用于高维BO，它搜索超越预定义组合规则的更广泛核空间，并且不需要以观测为条件。基于直接提示LLM生成核代码会产生语法不同但功能相同的核这一观察，我们采用了两阶段方法：首先让LLM提出新颖的数学形式，然后通过第二次LLM调用将每种形式转换为经过验证的可执行代码。我们还提出了留一连续等级概率评分（LOO-CRPS）作为选择标准，用于惩罚过拟合的核。在五个高维BO基准测试中，我们的方法取得了平均排名1.2（共17个）的成绩，超过了具有竞争力的基线方法。我们进一步分析了发现的核，以确定哪些核导致了高维BO的改进。

查看原文

查看缓存全文

缓存时间: 2026/05/21 06:20

# 面向理解高维贝叶斯优化的自动核发现 来源：https://arxiv.org/html/2605.20249 Taeyoung Yun1,∗Woocheol Shin1,∗Inhyuck Song1Jaewoo Lee1Jinkyoo Park1 1韩国科学技术院 \(KAIST\) \{99yty, woofe, son9ih, jaewoo, jinkyoo\.park\}@kaist\.ac\.kr ###### 摘要 高斯过程 \(GP\) 核是贝叶斯优化 \(BO\) 的核心，然而为高维问题设计有效的核仍依赖大量手工工程。现有自动化方法在高维场景中面临两个瓶颈：其核搜索空间仅限于基核的加法和乘法组合，且基于LLM的方法需要以原始观测为条件，由于上下文长度限制以及从大量数值中提取有意义模式的困难，这在高维情况下变得不可行。我们提出Kernel Discovery，一个面向高维BO的LLM驱动进化框架，它在预定义组合规则之外搜索更广阔的核空间，并且不需要以观测为条件。受“直接提示LLM生成核代码时，会得到语法各异但功能相同核”这一现象的启发，我们采用两阶段方法：首先LLM提出新颖的数学形式，然后第二个LLM调用将每种形式转化为经过验证的可执行代码。我们还提出留一连续排名概率评分 \(LOO\-CRPS\) 作为选择标准，用于惩罚过拟合核。在五个高维BO基准测试中，我们的方法在17个方法中实现了1.2的平均排名，超越了竞争性基线。我们进一步分析发现的核，以识别哪些核能带来高维BO的性能提升。 ## 1引言 高维黑箱函数优化涵盖广泛的机器学习问题，包括超参数优化\[49 (https://arxiv.org/html/2605.20249#bib.bib46),51 (https://arxiv.org/html/2605.20249#bib.bib51)\], 神经架构搜索\[47 (https://arxiv.org/html/2605.20249#bib.bib44),19 (https://arxiv.org/html/2605.20249#bib.bib20)\], 生物序列设计\[29 (https://arxiv.org/html/2605.20249#bib.bib30),24 (https://arxiv.org/html/2605.20249#bib.bib24)\], 以及控制任务\[50 (https://arxiv.org/html/2605.20249#bib.bib50),4 (https://arxiv.org/html/2605.20249#bib.bib4)\]\. 贝叶斯优化 \(BO\) 是黑箱优化的事实标准范式，它基于到目前为止的观测拟合的代理模型，迭代选择有潜力的候选点\[23 (https://arxiv.org/html/2605.20249#bib.bib23),15 (https://arxiv.org/html/2605.20249#bib.bib15)\]\. 然而，它常受维度灾难困扰，因为观测间的大距离使精确代理建模变得困难，并加剧了向搜索空间边界的过度探索。高维BO的先前工作利用了结构假设，如加法分解\[9 (https://arxiv.org/html/2605.20249#bib.bib9),20 (https://arxiv.org/html/2605.20249#bib.bib19),14 (https://arxiv.org/html/2605.20249#bib.bib14),28 (https://arxiv.org/html/2605.20249#bib.bib28)\], 低维子空间\[53 (https://arxiv.org/html/2605.20249#bib.bib48),33 (https://arxiv.org/html/2605.20249#bib.bib32),25 (https://arxiv.org/html/2605.20249#bib.bib25)\], 或稀疏性\[11 (https://arxiv.org/html/2605.20249#bib.bib12),37 (https://arxiv.org/html/2605.20249#bib.bib36)\]\. 然而，这些方法仅在具有明确底层结构的合成基准上表现良好，这在实践中很少成立。另一类方法采用信任区域来有效搜索高维空间\[50 (https://arxiv.org/html/2605.20249#bib.bib50),12 (https://arxiv.org/html/2605.20249#bib.bib11)\]\. 虽然局部性在多种任务上取得了有希望的结果\[29 (https://arxiv.org/html/2605.20249#bib.bib30),13 (https://arxiv.org/html/2605.20249#bib.bib13),30 (https://arxiv.org/html/2605.20249#bib.bib31)\], 但它需要大量评估次数，且可能难以逃离局部最优。最近，Hvarfner等人\[18 (https://arxiv.org/html/2605.20249#bib.bib18)\] 和 Xu等人\[55 (https://arxiv.org/html/2605.20249#bib.bib53)\] 表明，即使是基本核（如 RBF 或 Matérn52 核），通过根据维度适当缩放长度尺度先验，也能匹配或超越高维BO中的专用方法。此外，Oh等人\[36 (https://arxiv.org/html/2605.20249#bib.bib35)\] 和 Doumont等人\[8 (https://arxiv.org/html/2605.20249#bib.bib8)\] 证明，使用简单模型的几何输入扭曲（例如超圆柱或超球面）可以在高维真实世界基准上超越复杂的基线。尽管这些突破令人鼓舞，但识别如此有效的先验或变换仍需要领域专家进行大量手工工程。这表明，用具备数学推理能力的系统自动化核设计可以显著降低这一门槛。这自然促使我们利用大型语言模型 \(LLMs,16 (https://arxiv.org/html/2605.20249#bib.bib16),56 (https://arxiv.org/html/2605.20249#bib.bib54),6 (https://arxiv.org/html/2605.20249#bib.bib6)\), 它们内化了大量数学知识，并且在融入进化算法 \(EA\) 流程时能够提出新颖的函数形式\[42 (https://arxiv.org/html/2605.20249#bib.bib40),35 (https://arxiv.org/html/2605.20249#bib.bib34),1 (https://arxiv.org/html/2605.20249#bib.bib1),57 (https://arxiv.org/html/2605.20249#bib.bib55),21 (https://arxiv.org/html/2605.20249#bib.bib21)\]\. 然而，现有的基于LLM的BO方法由于两个瓶颈而无法直接扩展到高维问题。首先是**表达能力瓶颈**：现有的核搜索方法局限于基核的加法和乘法组合，从而限制了它们发现适用于高维BO的新颖核的能力。其次是**接口瓶颈**：大多数基于LLM的BO方法需要以原始观测为条件，这在高维情况下变得不可行，因为上下文长度有限，且从一长串数字中提取模式十分困难，如Figure 1 (https://arxiv.org/html/2605.20249#S1.F1) 所示。为了解决这些局限性，我们引入了Kernel Discovery，一个用于高维BO设计有效核结构的新框架。首先，我们**初始化**一个面向高维BO定制的核种群。在每个BO迭代中，我们通过两阶段方法**发现**新核：LLM首先提出新颖的数学形式，然后第二个LLM将该形式转换为可执行代码。通过这种分解，我们鼓励LLM利用数学推理能力探索更广泛的合法核空间。然后我们通过无关执行和PSD检查来**验证**发现的核，仅保留有效的GP核。为了**选择**最有前景的核，我们引入LOO\-CRPS，它比边际对数似然指标更不易发生样本内过拟合。最后，我们在选定的点上评估目标函数，并**更新**数据集和种群，重复此过程直到评估预算耗尽。请参见图注Figure 1:动机图。\(左\):在高维BO中，传统的基于LLM的BO由于上下文长度限制和难以提取有意义的模式而无法工作。\(右\):我们的流程能够发现超出组合范围的有效高维BO核。我们在五个高维BO基准上进行实验，在17个方法中实现了1.2的平均排名，超越了竞争性基线。我们还对框架的设计选择进行了多项消融研究。最后，我们分析了发现的核，并揭示出意外的核（例如几何扭曲或非平稳分量的组合）可能带来性能提升，从而提供关于什么使核在高维中有效的见解。 ## 2相关工作 #### 高维贝叶斯优化。已有多种方法试图突破BO在高维中的极限。一条工作线利用显式的结构假设，如低维子空间\[53 (https://arxiv.org/html/2605.20249#bib.bib48),33 (https://arxiv.org/html/2605.20249#bib.bib32),25 (https://arxiv.org/html/2605.20249#bib.bib25),22 (https://arxiv.org/html/2605.20249#bib.bib22)\], 稀疏性\[11 (https://arxiv.org/html/2605.20249#bib.bib12),37 (https://arxiv.org/html/2605.20249#bib.bib36)\], 变量选择\[50 (https://arxiv.org/html/2605.20249#bib.bib50),45 (https://arxiv.org/html/2605.20249#bib.bib42),17 (https://arxiv.org/html/2605.20249#bib.bib17)\], 以及加法分解\[9 (https://arxiv.org/html/2605.20249#bib.bib9),20 (https://arxiv.org/html/2605.20249#bib.bib19),14 (https://arxiv.org/html/2605.20249#bib.bib14),28 (https://arxiv.org/html/2605.20249#bib.bib28)\]。然而，这些假设在真实世界问题中很少成立。另一条工作线采用信任区域，在该区域中我们约束搜索空间以防止在高维空间中搜索边界点\[29 (https://arxiv.org/html/2605.20249#bib.bib30),12 (https://arxiv.org/html/2605.20249#bib.bib11),30 (https://arxiv.org/html/2605.20249#bib.bib31),7 (https://arxiv.org/html/2605.20249#bib.bib7),31 (https://arxiv.org/html/2605.20249#bib.bib29),3 (https://arxiv.org/html/2605.20249#bib.bib3)\]。虽然它在多个领域特别是在可扩展设置中实现了优越性能，但需要过多次评估，并且仍然容易陷入局部最优。最近，一系列令人惊讶的发现挑战了关于高维BO的长期直觉。Hvarfner等人\[18 (https://arxiv.org/html/2605.20249#bib.bib18)\] 和 Xu等人\[55 (https://arxiv.org/html/2605.20249#bib.bib53)\] 表明，具有良好选择长度尺度先验的简单核可以匹配或超越复杂方法。Papenmeier等人\[38 (https://arxiv.org/html/2605.20249#bib.bib37)\] 也声称，在初始中缩放长度尺度并结合随机轴对齐子空间扰动采样 \(RAASP,39 (https://arxiv.org/html/2605.20249#bib.bib56)\) 可以缓解高维采集函数优化中的梯度消失问题。Doumont等人\[8 (https://arxiv.org/html/2605.20249#bib.bib8)\] 进一步证明，代理模型的平滑性是一个关键因素，并且球面输入映射配合简单的线性基足以获得竞争性性能。这些结果共同表明，社区关于高维BO驱动因素的普遍假设可能是不完整的。这凸显了对高维BO中核设计进行更深入研究的必要性，而这正是我们工作旨在填补的空白。 #### 面向黑箱优化的LLMs。大型语言模型的最新进展展现了强大的复杂推理能力\[16 (https://arxiv.org/html/2605.20249#bib.bib16),56 (https://arxiv.org/html/2605.20249#bib.bib54),6 (https://arxiv.org/html/2605.20249#bib.bib6)\]，促使多篇工作将它们整合到BO流程中。Aglietti等人\[1 (https://arxiv.org/html/2605.20249#bib.bib1)\] 和 Ngo等人\[34 (https://arxiv.org/html/2605.20249#bib.bib33)\] 利用LLM发现新颖的采集函数，而Li等人\[26 (https://arxiv.org/html/2605.20249#bib.bib26)\] 和 Liu等人\[27 (https://arxiv.org/html/2605.20249#bib.bib27)\] 则用LLM驱动的系统替换了整个BO循环。然而，这些方法主要是在低维设置下进行评估，并且依赖于将先前的观测作为上下文进行前置，这在高维情况下因上下文长度限制而变得不可行。此外，即使对于最近闭源的LLM，从密集观测中提取有意义的结构也具有挑战性。与我们的工作最相关的是CAKE\[46 (https://arxiv.org/html/2605.20249#bib.bib43)\]，它利用LLM选择并组合基核以改进BO代理模型。虽然它与我们LLM引导核设计的动机相同，但它也依赖于先前的试验作为上下文，并将搜索空间限制为基核的加法和乘法组合。相比之下，我们的框架不仅以原始观测为条件，并且积极探索超出组合范围的更广阔合法核空间，从而为高维问题实现更具表达力的代理建模。请参见图注Figure 2:方法概述。给定初始种群，我们指导LLM通过两阶段方法生成新核：数学公式化和代码转换。然后我们进行合理性检查以仅保留有效核，并选择具有最低LOO\-CRPS值的核。最后，我们使用选定的核提出下一个查询，并更新数据集和种群。 ## 3预备知识 #### 贝叶斯优化。在BO中，我们旨在寻找最大化未知黑箱函数f:X→Rf:\\mathcal\{X\}\\rightarrow\\mathbb\{R\}的输入x∈X\\mathbf\{x\}\\in\\mathcal\{X\}，该函数通常评估代价高且不可微。BO可以模块化为三个正交组件：代理模型、采集函数和采集函数的优化器\[48 (https://arxiv.org/html/2605.20249#bib.bib45)\]。每次迭代中，我们将代理模型拟合到当前观测，并使用优化器选择最大化所选采集函数的下一个查询点。尽管每个组件有多种可能选择，常规方法是使用高斯过程 \(GP,40 (https://arxiv.org/html/2605.20249#bib.bib57)\) 作为代理模型，期望改进 \(EI,32 (https://arxiv.org/html/2605.20249#bib.bib58)\) 作为采集函数，以及L\-BFGS\-B\[5 (https://arxiv.org/html/2605.20249#bib.bib5)\] 作为优化器。 #### 高斯过程与核。GP定义了函数上的分布，并由均值函数（多数情况下为常数）和协方差矩阵K\\mathbf\{K\}指定。协方差矩阵可以通过核函数k\(x,x′\):X×X→Rk\(\\mathbf\{x\},\\mathbf\{x\}^\{\\prime\}\):\\mathcal\{X\}\\times\\mathcal\{X\}\\rightarrow\\mathbb\{R\}导出。BO中最常用的核是RBF核\[54 (https://arxiv.org/html/2605.20249#bib.bib52)\]，可定义如下： kRBF\(x,x′\):=σ2exp⁡\(−12\(x−x′\)⊤L−1\(x−x′\)\)k\_\{\\text\{RBF\}\}\(\\mathbf\{x\},\\mathbf\{x\}^\{\\prime\}\):=\\sigma^\{2\}\\exp\\left\(\-\\frac\{1\}\{2\}\(\\mathbf\{x\}\-\\mathbf\{x\}^\{\\prime\}\)^\{\\top\}\\mathbf\{L\}^\{\-1\}\(\\mathbf\{x\}\-\\mathbf\{x\}^\{\\prime\}\)\\right\)\(1\)其中σ2\>0\\sigma^\{2\}\>0是输出尺度，L=diag\(l12,...,ld2\)\\mathbf\{L\}=\\text\{diag\}\(\\ell\_\{1\}^\{2\},\\ldots,\\ell\_\{d\}^\{2\}\)是一个对角矩阵，包含每维长度尺度超参数li\>0\\ell\_\{i\}\>0。核可以通过多种方式组合或构建。首先，两个合法核的和与积也是合法核，从而可以构建更丰富的协方差结构。其次，对于任意特征映射φ:X→Rm\\phi:\\mathcal\{X\}\\rightarrow\\mathbb\{R\}^\{m\}，内积k\(x,x′\)=φ\(x\)⊤φ\(x′\)k\(\\mathbf\{x\},\\mathbf\{x\}^\{\\prime\}\)=\\phi\(\\mathbf\{x\}\)^\{\\top\}\\phi\(\\mathbf\{x\}^\{\\prime\}\) 天然定义了一个半正定核。通过将这些组合和特征映射性质作为归纳偏置注入到LLM驱动的核构建过程中，我们可以发现专门针对高维BO的新颖核结构。 ## 4方法 在本节中，我们介绍Kernel Discovery，一个通过利用大型语言模型（LLM）为高维贝叶斯优化发现有效核的新框架。

面向理解高维贝叶斯优化的自动化核发现

相似文章

AdaExplore：基于失败驱动的自适应与多样性保留搜索的高效内核生成

面向临床数据的离散化贝叶斯网络分类器的并行自适应多目标进化学习

AgentKernelArena：兼顾泛化能力的GPU内核优化代理基准测试

通过引导进行嵌入：系统提示贝叶斯优化的动态表示

Ada-MK：基于自动化 DAG 搜索的 LLM 推理自适应 MegaKernel 优化

提交意见反馈