面向理解高维贝叶斯优化的自动化核发现

arXiv cs.LG 论文

摘要

论文介绍了Kernel Discovery,这是一个LLM驱动的进化框架,用于高维贝叶斯优化,它搜索更广泛的核空间并在基准测试上取得了最先进的结果。

arXiv:2605.20249v1 Announce Type: new 摘要:高斯过程(GP)核是贝叶斯优化(BO)的核心,但为高维问题设计有效的核仍然依赖于大量的人工工程。现有的自动化方法在高维中面临两个瓶颈:它们的核搜索空间仅限于基核的加法和乘法,而基于LLM的方法需要以原始观测为条件,由于上下文长度限制以及提取有意义模式的困难,这变得不可行。我们引入了\textbf{Kernel Discovery},这是一个LLM驱动的进化框架,用于高维BO,它搜索超越预定义组合规则的更广泛核空间,并且不需要以观测为条件。基于直接提示LLM生成核代码会产生语法不同但功能相同的核这一观察,我们采用了两阶段方法:首先让LLM提出新颖的数学形式,然后通过第二次LLM调用将每种形式转换为经过验证的可执行代码。我们还提出了留一连续等级概率评分(LOO-CRPS)作为选择标准,用于惩罚过拟合的核。在五个高维BO基准测试中,我们的方法取得了平均排名1.2(共17个)的成绩,超过了具有竞争力的基线方法。我们进一步分析了发现的核,以确定哪些核导致了高维BO的改进。
查看原文
查看缓存全文

缓存时间: 2026/05/21 06:20

# 面向理解高维贝叶斯优化的自动核发现 来源:https://arxiv.org/html/2605.20249 Taeyoung Yun1,∗Woocheol Shin1,∗Inhyuck Song1Jaewoo Lee1Jinkyoo Park1 1韩国科学技术院 \(KAIST\) \{99yty, woofe, son9ih, jaewoo, jinkyoo\.park\}@kaist\.ac\.kr ###### 摘要 高斯过程 \(GP\) 核是贝叶斯优化 \(BO\) 的核心,然而为高维问题设计有效的核仍依赖大量手工工程。现有自动化方法在高维场景中面临两个瓶颈:其核搜索空间仅限于基核的加法和乘法组合,且基于LLM的方法需要以原始观测为条件,由于上下文长度限制以及从大量数值中提取有意义模式的困难,这在高维情况下变得不可行。我们提出Kernel Discovery,一个面向高维BO的LLM驱动进化框架,它在预定义组合规则之外搜索更广阔的核空间,并且不需要以观测为条件。受“直接提示LLM生成核代码时,会得到语法各异但功能相同核”这一现象的启发,我们采用两阶段方法:首先LLM提出新颖的数学形式,然后第二个LLM调用将每种形式转化为经过验证的可执行代码。我们还提出留一连续排名概率评分 \(LOO\-CRPS\) 作为选择标准,用于惩罚过拟合核。在五个高维BO基准测试中,我们的方法在17个方法中实现了1.2的平均排名,超越了竞争性基线。我们进一步分析发现的核,以识别哪些核能带来高维BO的性能提升。 ## 1引言 高维黑箱函数优化涵盖广泛的机器学习问题,包括超参数优化\[49 (https://arxiv.org/html/2605.20249#bib.bib46),51 (https://arxiv.org/html/2605.20249#bib.bib51)\], 神经架构搜索\[47 (https://arxiv.org/html/2605.20249#bib.bib44),19 (https://arxiv.org/html/2605.20249#bib.bib20)\], 生物序列设计\[29 (https://arxiv.org/html/2605.20249#bib.bib30),24 (https://arxiv.org/html/2605.20249#bib.bib24)\], 以及控制任务\[50 (https://arxiv.org/html/2605.20249#bib.bib50),4 (https://arxiv.org/html/2605.20249#bib.bib4)\]\. 贝叶斯优化 \(BO\) 是黑箱优化的事实标准范式,它基于到目前为止的观测拟合的代理模型,迭代选择有潜力的候选点\[23 (https://arxiv.org/html/2605.20249#bib.bib23),15 (https://arxiv.org/html/2605.20249#bib.bib15)\]\. 然而,它常受维度灾难困扰,因为观测间的大距离使精确代理建模变得困难,并加剧了向搜索空间边界的过度探索。高维BO的先前工作利用了结构假设,如加法分解\[9 (https://arxiv.org/html/2605.20249#bib.bib9),20 (https://arxiv.org/html/2605.20249#bib.bib19),14 (https://arxiv.org/html/2605.20249#bib.bib14),28 (https://arxiv.org/html/2605.20249#bib.bib28)\], 低维子空间\[53 (https://arxiv.org/html/2605.20249#bib.bib48),33 (https://arxiv.org/html/2605.20249#bib.bib32),25 (https://arxiv.org/html/2605.20249#bib.bib25)\], 或稀疏性\[11 (https://arxiv.org/html/2605.20249#bib.bib12),37 (https://arxiv.org/html/2605.20249#bib.bib36)\]\. 然而,这些方法仅在具有明确底层结构的合成基准上表现良好,这在实践中很少成立。另一类方法采用信任区域来有效搜索高维空间\[50 (https://arxiv.org/html/2605.20249#bib.bib50),12 (https://arxiv.org/html/2605.20249#bib.bib11)\]\. 虽然局部性在多种任务上取得了有希望的结果\[29 (https://arxiv.org/html/2605.20249#bib.bib30),13 (https://arxiv.org/html/2605.20249#bib.bib13),30 (https://arxiv.org/html/2605.20249#bib.bib31)\], 但它需要大量评估次数,且可能难以逃离局部最优。最近,Hvarfner等人\[18 (https://arxiv.org/html/2605.20249#bib.bib18)\] 和 Xu等人\[55 (https://arxiv.org/html/2605.20249#bib.bib53)\] 表明,即使是基本核(如 RBF 或 Matérn52 核),通过根据维度适当缩放长度尺度先验,也能匹配或超越高维BO中的专用方法。此外,Oh等人\[36 (https://arxiv.org/html/2605.20249#bib.bib35)\] 和 Doumont等人\[8 (https://arxiv.org/html/2605.20249#bib.bib8)\] 证明,使用简单模型的几何输入扭曲(例如超圆柱或超球面)可以在高维真实世界基准上超越复杂的基线。尽管这些突破令人鼓舞,但识别如此有效的先验或变换仍需要领域专家进行大量手工工程。这表明,用具备数学推理能力的系统自动化核设计可以显著降低这一门槛。这自然促使我们利用大型语言模型 \(LLMs,16 (https://arxiv.org/html/2605.20249#bib.bib16),56 (https://arxiv.org/html/2605.20249#bib.bib54),6 (https://arxiv.org/html/2605.20249#bib.bib6)\), 它们内化了大量数学知识,并且在融入进化算法 \(EA\) 流程时能够提出新颖的函数形式\[42 (https://arxiv.org/html/2605.20249#bib.bib40),35 (https://arxiv.org/html/2605.20249#bib.bib34),1 (https://arxiv.org/html/2605.20249#bib.bib1),57 (https://arxiv.org/html/2605.20249#bib.bib55),21 (https://arxiv.org/html/2605.20249#bib.bib21)\]\. 然而,现有的基于LLM的BO方法由于两个瓶颈而无法直接扩展到高维问题。首先是**表达能力瓶颈**:现有的核搜索方法局限于基核的加法和乘法组合,从而限制了它们发现适用于高维BO的新颖核的能力。其次是**接口瓶颈**:大多数基于LLM的BO方法需要以原始观测为条件,这在高维情况下变得不可行,因为上下文长度有限,且从一长串数字中提取模式十分困难,如Figure 1 (https://arxiv.org/html/2605.20249#S1.F1) 所示。为了解决这些局限性,我们引入了Kernel Discovery,一个用于高维BO设计有效核结构的新框架。首先,我们**初始化**一个面向高维BO定制的核种群。在每个BO迭代中,我们通过两阶段方法**发现**新核:LLM首先提出新颖的数学形式,然后第二个LLM将该形式转换为可执行代码。通过这种分解,我们鼓励LLM利用数学推理能力探索更广泛的合法核空间。然后我们通过无关执行和PSD检查来**验证**发现的核,仅保留有效的GP核。为了**选择**最有前景的核,我们引入LOO\-CRPS,它比边际对数似然指标更不易发生样本内过拟合。最后,我们在选定的点上评估目标函数,并**更新**数据集和种群,重复此过程直到评估预算耗尽。请参见图注Figure 1:动机图。\(左\):在高维BO中,传统的基于LLM的BO由于上下文长度限制和难以提取有意义的模式而无法工作。\(右\):我们的流程能够发现超出组合范围的有效高维BO核。我们在五个高维BO基准上进行实验,在17个方法中实现了1.2的平均排名,超越了竞争性基线。我们还对框架的设计选择进行了多项消融研究。最后,我们分析了发现的核,并揭示出意外的核(例如几何扭曲或非平稳分量的组合)可能带来性能提升,从而提供关于什么使核在高维中有效的见解。 ## 2相关工作 #### 高维贝叶斯优化。已有多种方法试图突破BO在高维中的极限。一条工作线利用显式的结构假设,如低维子空间\[53 (https://arxiv.org/html/2605.20249#bib.bib48),33 (https://arxiv.org/html/2605.20249#bib.bib32),25 (https://arxiv.org/html/2605.20249#bib.bib25),22 (https://arxiv.org/html/2605.20249#bib.bib22)\], 稀疏性\[11 (https://arxiv.org/html/2605.20249#bib.bib12),37 (https://arxiv.org/html/2605.20249#bib.bib36)\], 变量选择\[50 (https://arxiv.org/html/2605.20249#bib.bib50),45 (https://arxiv.org/html/2605.20249#bib.bib42),17 (https://arxiv.org/html/2605.20249#bib.bib17)\], 以及加法分解\[9 (https://arxiv.org/html/2605.20249#bib.bib9),20 (https://arxiv.org/html/2605.20249#bib.bib19),14 (https://arxiv.org/html/2605.20249#bib.bib14),28 (https://arxiv.org/html/2605.20249#bib.bib28)\]。然而,这些假设在真实世界问题中很少成立。另一条工作线采用信任区域,在该区域中我们约束搜索空间以防止在高维空间中搜索边界点\[29 (https://arxiv.org/html/2605.20249#bib.bib30),12 (https://arxiv.org/html/2605.20249#bib.bib11),30 (https://arxiv.org/html/2605.20249#bib.bib31),7 (https://arxiv.org/html/2605.20249#bib.bib7),31 (https://arxiv.org/html/2605.20249#bib.bib29),3 (https://arxiv.org/html/2605.20249#bib.bib3)\]。虽然它在多个领域特别是在可扩展设置中实现了优越性能,但需要过多次评估,并且仍然容易陷入局部最优。最近,一系列令人惊讶的发现挑战了关于高维BO的长期直觉。Hvarfner等人\[18 (https://arxiv.org/html/2605.20249#bib.bib18)\] 和 Xu等人\[55 (https://arxiv.org/html/2605.20249#bib.bib53)\] 表明,具有良好选择长度尺度先验的简单核可以匹配或超越复杂方法。Papenmeier等人\[38 (https://arxiv.org/html/2605.20249#bib.bib37)\] 也声称,在初始中缩放长度尺度并结合随机轴对齐子空间扰动采样 \(RAASP,39 (https://arxiv.org/html/2605.20249#bib.bib56)\) 可以缓解高维采集函数优化中的梯度消失问题。Doumont等人\[8 (https://arxiv.org/html/2605.20249#bib.bib8)\] 进一步证明,代理模型的平滑性是一个关键因素,并且球面输入映射配合简单的线性基足以获得竞争性性能。这些结果共同表明,社区关于高维BO驱动因素的普遍假设可能是不完整的。这凸显了对高维BO中核设计进行更深入研究的必要性,而这正是我们工作旨在填补的空白。 #### 面向黑箱优化的LLMs。大型语言模型的最新进展展现了强大的复杂推理能力\[16 (https://arxiv.org/html/2605.20249#bib.bib16),56 (https://arxiv.org/html/2605.20249#bib.bib54),6 (https://arxiv.org/html/2605.20249#bib.bib6)\],促使多篇工作将它们整合到BO流程中。Aglietti等人\[1 (https://arxiv.org/html/2605.20249#bib.bib1)\] 和 Ngo等人\[34 (https://arxiv.org/html/2605.20249#bib.bib33)\] 利用LLM发现新颖的采集函数,而Li等人\[26 (https://arxiv.org/html/2605.20249#bib.bib26)\] 和 Liu等人\[27 (https://arxiv.org/html/2605.20249#bib.bib27)\] 则用LLM驱动的系统替换了整个BO循环。然而,这些方法主要是在低维设置下进行评估,并且依赖于将先前的观测作为上下文进行前置,这在高维情况下因上下文长度限制而变得不可行。此外,即使对于最近闭源的LLM,从密集观测中提取有意义的结构也具有挑战性。与我们的工作最相关的是CAKE\[46 (https://arxiv.org/html/2605.20249#bib.bib43)\],它利用LLM选择并组合基核以改进BO代理模型。虽然它与我们LLM引导核设计的动机相同,但它也依赖于先前的试验作为上下文,并将搜索空间限制为基核的加法和乘法组合。相比之下,我们的框架不仅以原始观测为条件,并且积极探索超出组合范围的更广阔合法核空间,从而为高维问题实现更具表达力的代理建模。请参见图注Figure 2:方法概述。给定初始种群,我们指导LLM通过两阶段方法生成新核:数学公式化和代码转换。然后我们进行合理性检查以仅保留有效核,并选择具有最低LOO\-CRPS值的核。最后,我们使用选定的核提出下一个查询,并更新数据集和种群。 ## 3预备知识 #### 贝叶斯优化。在BO中,我们旨在寻找最大化未知黑箱函数f:X→Rf:\\mathcal\{X\}\\rightarrow\\mathbb\{R\}的输入x∈X\\mathbf\{x\}\\in\\mathcal\{X\},该函数通常评估代价高且不可微。BO可以模块化为三个正交组件:代理模型、采集函数和采集函数的优化器\[48 (https://arxiv.org/html/2605.20249#bib.bib45)\]。每次迭代中,我们将代理模型拟合到当前观测,并使用优化器选择最大化所选采集函数的下一个查询点。尽管每个组件有多种可能选择,常规方法是使用高斯过程 \(GP,40 (https://arxiv.org/html/2605.20249#bib.bib57)\) 作为代理模型,期望改进 \(EI,32 (https://arxiv.org/html/2605.20249#bib.bib58)\) 作为采集函数,以及L\-BFGS\-B\[5 (https://arxiv.org/html/2605.20249#bib.bib5)\] 作为优化器。 #### 高斯过程与核。GP定义了函数上的分布,并由均值函数(多数情况下为常数)和协方差矩阵K\\mathbf\{K\}指定。协方差矩阵可以通过核函数k\(x,x′\):X×X→Rk\(\\mathbf\{x\},\\mathbf\{x\}^\{\\prime\}\):\\mathcal\{X\}\\times\\mathcal\{X\}\\rightarrow\\mathbb\{R\}导出。BO中最常用的核是RBF核\[54 (https://arxiv.org/html/2605.20249#bib.bib52)\],可定义如下: kRBF\(x,x′\):=σ2exp⁡\(−12\(x−x′\)⊤L−1\(x−x′\)\)k\_\{\\text\{RBF\}\}\(\\mathbf\{x\},\\mathbf\{x\}^\{\\prime\}\):=\\sigma^\{2\}\\exp\\left\(\-\\frac\{1\}\{2\}\(\\mathbf\{x\}\-\\mathbf\{x\}^\{\\prime\}\)^\{\\top\}\\mathbf\{L\}^\{\-1\}\(\\mathbf\{x\}\-\\mathbf\{x\}^\{\\prime\}\)\\right\)\(1\)其中σ2\>0\\sigma^\{2\}\>0是输出尺度,L=diag\(l12,...,ld2\)\\mathbf\{L\}=\\text\{diag\}\(\\ell\_\{1\}^\{2\},\\ldots,\\ell\_\{d\}^\{2\}\)是一个对角矩阵,包含每维长度尺度超参数li\>0\\ell\_\{i\}\>0。核可以通过多种方式组合或构建。首先,两个合法核的和与积也是合法核,从而可以构建更丰富的协方差结构。其次,对于任意特征映射φ:X→Rm\\phi:\\mathcal\{X\}\\rightarrow\\mathbb\{R\}^\{m\},内积k\(x,x′\)=φ\(x\)⊤φ\(x′\)k\(\\mathbf\{x\},\\mathbf\{x\}^\{\\prime\}\)=\\phi\(\\mathbf\{x\}\)^\{\\top\}\\phi\(\\mathbf\{x\}^\{\\prime\}\) 天然定义了一个半正定核。通过将这些组合和特征映射性质作为归纳偏置注入到LLM驱动的核构建过程中,我们可以发现专门针对高维BO的新颖核结构。 ## 4方法 在本节中,我们介绍Kernel Discovery,一个通过利用大型语言模型(LLM)为高维贝叶斯优化发现有效核的新框架。

相似文章

AdaExplore:基于失败驱动的自适应与多样性保留搜索的高效内核生成

arXiv cs.CL

来自卡内基梅隆大学、华盛顿大学和Arm的研究人员提出了AdaExplore,这是一种用于GPU内核代码生成的LLM智能体框架。该框架通过失败驱动自适应与多样性保留搜索技术,在不进行额外微调的情况下,在KernelBench Level-2和Level-3基准测试中分别实现了3.12倍和1.72倍的加速。

Ada-MK:基于自动化 DAG 搜索的 LLM 推理自适应 MegaKernel 优化

arXiv cs.CL

本文介绍了 Ada-MK,一种利用自动化基于有向无环图(DAG)的搜索来消除运行时分支并减少大语言模型(LLM)推理共享内存使用的自适应 MegaKernel 优化方法。通过集成到 TensorRT-LLM 中,该方法在 NVIDIA Ada GPU 上展示了显著的吞吐量提升,在商业广告系统中相比原生 TensorRT-LLM 性能最高提升 23.6%。