通过引导进行嵌入:系统提示贝叶斯优化的动态表示
摘要
介绍ReElicit,一个贝叶斯优化框架,利用大型语言模型(LLM)来引导和调整特征空间,在聚合标量反馈下优化系统提示,在十个基准任务上取得了强劲性能。
arXiv:2605.19093v1 公告类型: 新
摘要: 系统提示是现代AI系统中的核心控制机制,塑造着对话、任务和用户群体中的行为。然而,当反馈仅以聚合指标而非每个示例的标签、失败或批评的形式提供时,这些提示难以调整。我们将这种聚合反馈场景研究为对离散、可变长度文本的样本受限黑箱优化。我们提出了ReElicit,一个基于\emph{通过引导进行嵌入}的贝叶斯优化框架。给定任务描述、先前评估的提示和标量分数,LLM引导出一个紧凑、可解释的特征空间并将提示映射到其中。利用概率高斯过程代理,获取函数随后选择目标特征向量,LLM将这些向量实现并精炼为可部署的系统提示。随着新评估的到来,重新引导特征空间使得表示能够适应观察到的提示-分数历史。我们使用离线基准准确性作为受控的聚合代理来评估该设置:优化器每个提示观察一个标量分数,没有每个示例的标签、错误或批评。在十个系统提示优化任务中,总评估预算为30次,ReElicit在代表性仅聚合提示优化基线中取得了最强的聚合性能表现。这些结果表明,LLM可以作为自适应语义表示构建器,而不仅仅是提示生成器,用于自然语言工件的贝叶斯优化。
查看缓存全文
缓存时间: 2026/05/20 08:27
# 通过启发进行嵌入:面向系统提示贝叶斯优化的动态表示
来源:https://arxiv.org/html/2605.19093
Zhiyuan Jerry Lin Meta zylin@meta\.com & Benjamin Letham Meta bletham@meta\.com & Samuel Dooley Meta dooley@meta\.com
Maximilian Balandat Meta balandat@meta\.com & Eytan Bakshy Meta ebakshy@meta\.com
###### 摘要
系统提示是现代AI系统的核心控制机制,塑造着跨对话、任务和用户群体的行为。然而,当反馈仅以聚合指标形式(而非每个示例的标签、失败或批评)提供时,系统提示的调优变得困难。我们研究了这种聚合反馈设置,将其视为对离散、可变长度文本的样本受限黑盒优化问题。我们提出了ReElicit,一种基于*通过启发进行嵌入*的贝叶斯优化框架。给定任务描述、先前评估过的提示和标量分数,LLM会启发出一个紧凑、可解释的特征空间,并将提示映射到其中。借助概率化的高斯过程代理模型,采集函数选择目标特征向量,然后由LLM实现并精炼为可部署的系统提示。随着新评估结果的到来,重新启发特征空间使得表示能够适应观察到的提示-分数历史。我们使用离线基准准确率作为受控的聚合代理来评估该设置:优化器每个提示仅观察一个标量分数,没有每个示例的标签、错误或批评。在十个系统提示优化任务上,总评估预算为30次,ReElicit在仅使用聚合反馈的提示优化基线中实现了最强的整体性能。这些结果表明,LLM不仅可以作为提示生成器,还可以作为自适应语义表示构建器,用于对自然语言制品进行贝叶斯优化。
## 1 引言
*system prompt*(系统提示)是现代AI系统的核心控制机制。它塑造着跨对话和任务的响应风格、护栏和操作策略。因此,微小的提示变化可能影响许多下游交互。尽管其重要性,系统提示仍然常常通过开发者直觉和有限的离线评估手动编写。最近的自动提示优化(APO)工作旨在自动调优提示以最大化目标目标(Ramnath等人,2025 (https://arxiv.org/html/2605.19093#bib.bib3))。许多APO方法假设细粒度的任务反馈:候选提示在有标签示例上进行评估,优化器可以检查每个示例的成功、失败、跟踪或批评。这种接口很强大,但它与许多面向部署的系统提示优化设置不同,在后一种设置中,结果是延迟的、群体层面的,或者仅在多次交互后才有意义。例如长周期任务完成率、安全事件率、用户满意度、留存率和升级率。尽管这些指标聚合了许多个体交互,但优化器对于每个部署的提示变体可能只观察到顶层的标量分数,而无法分解为单个交互。在这种机制下,提示优化不再是基于标签示例的有监督提示修订问题,而是对自然语言的样本受限黑盒优化问题。直接让LLM提出更好的提示是一个自然的基线,但这种搜索没有明确建模不确定性,也没有提供原则性的探索-利用权衡。贝叶斯优化(BO)是处理昂贵的标量反馈目标的自然工具。它拟合一个概率化代理模型到过去的评估,并使用采集函数平衡探索和利用。BO广泛用于超参数调优和机器学习系统设计(Shahriari等人,2015 (https://arxiv.org/html/2605.19093#bib.bib26);Balandat等人,2020 (https://arxiv.org/html/2605.19093#bib.bib1))、A/B测试(Olson等人,2025 (https://arxiv.org/html/2605.19093#bib.bib24);Letham等人,2019 (https://arxiv.org/html/2605.19093#bib.bib25))以及其他聚合反馈的LLM设置,如数据混合优化(Yen等人,2025 (https://arxiv.org/html/2605.19093#bib.bib23))。我们设置中的障碍在于表示和实现。BO通常在固定的低维欧几里得域中运行,而系统提示是离散的、可变长度的、语义结构化的自然语言对象。结构化输入BO可以使用针对离散对象的手工设计核(Oh等人,2019 (https://arxiv.org/html/2605.19093#bib.bib27);Moss等人,2020 (https://arxiv.org/html/2605.19093#bib.bib28);Griffiths等人,2023 (https://arxiv.org/html/2605.19093#bib.bib29))或学习到的潜在表示(Gómez-Bombarelli等人,2018 (https://arxiv.org/html/2605.19093#bib.bib31);Deshwal和Doppa,2021 (https://arxiv.org/html/2605.19093#bib.bib30);Maus等人,2022 (https://arxiv.org/html/2605.19093#bib.bib7)),但这些工具并不能直接提供一个完整的提示优化循环。核方法仍然需要通过枚举或采样来搜索文本,而学习到的潜在空间通常需要辅助数据或特定任务的编码器-解码器训练。因此,我们需要一个紧凑的空间来支持代理建模和采集优化,同时还需要一种方法将优化后的点映射回可部署的系统提示。我们的方法是利用LLM本身作为语义表示构建器。给定任务描述、评估过的提示和标量分数,LLM提出一小部分与性能相关的特征轴,并将提示映射到\[0,1\]^{d_t}中。其前提并非提示本身是简单的,而是说在特定目标下观察到的与任务相关的变化可能集中在少数语义上有意义的轴上。有用的轴可能捕捉答案格式控制、校准的不确定性、显式推理结构、证据使用,或者任务特定的区分,如数值一致性、歧义消解、符号有效性或语用意图。这些不是表面特征(如长度或词标记重叠);它们是提示可以沿其变化的语义方向。这种表示为BO提供了一个紧凑的连续空间用于代理建模和采集优化。然后,LLM将BO选定的特征目标实现为可部署的提示,并使用特征差距反馈进行精炼。随着新评估结果的到来,重新启发特征空间使得表示能够适应关于哪些提示属性区分高绩效和低绩效候选者的证据。我们的主要贡献是:
- • 我们将聚合反馈的系统提示调优定义为一个黑盒优化问题,区别于依赖每个示例标签、错误跟踪或文本批评的提示优化设置。
- • 我们提出了ReElicit,一种基于*通过启发进行嵌入*的贝叶斯优化框架:LLM从提示-分数历史中启发出一个语义特征空间,BO在该空间中选择目标特征向量,LLM将这些目标实现并精炼为自然语言系统提示。
- • 我们提供了一种可达性分析,展示了表示误差如何在启发式嵌入中影响优化:在假设存在一个oracle平滑语义嵌入的情况下,对于近似目标函数的近似最优性会转化为有界的真实提示质量差距。
- • 我们在十个基准系统提示优化任务上评估了ReElicit,共享30次评估预算和仅聚合反馈接口。ReElicit在仅聚合反馈的APO基线中实现了最强的整体性能,我们的诊断和消融实验分析了特征稳定性、代理拟合质量、精炼质量以及各组件贡献。
## 2 相关工作
##### 自动提示优化。
自动提示优化直接搜索自然语言指令(Ramnath等人,2025 (https://arxiv.org/html/2605.19093#bib.bib3))。许多APO方法使用实例级反馈,例如每个示例的标签、文本批评、错误跟踪或对成功和失败的反思;例子包括ProTeGi、TextGrad和GEPA(Pryzant等人,2023 (https://arxiv.org/html/2605.19093#bib.bib12);Yuksekgonul等人,2024 (https://arxiv.org/html/2605.19093#bib.bib11);Agrawal等人,2025 (https://arxiv.org/html/2605.19093#bib.bib21))。其他方法更接近聚合黑盒搜索:APE从LLM中采样提示(Zhou等人,2022 (https://arxiv.org/html/2605.19093#bib.bib9)),OPRO将生成条件放在之前的解决方案和分数上(Yang等人,2023 (https://arxiv.org/html/2605.19093#bib.bib10)),PromptBreeder使用进化变异和重组(Fernando等人,2023 (https://arxiv.org/html/2605.19093#bib.bib13)),而无标签提示优化器减少了对标签化实例级反馈的依赖(Wu等人,2025 (https://arxiv.org/html/2605.19093#bib.bib15))。
##### 结构化空间和嵌入空间上的贝叶斯优化。
BO在低维连续域中最直接,而系统提示是离散的、可变长度的、语义结构化的。先前的工作通过使用低维嵌入(Wang等人,2016 (https://arxiv.org/html/2605.19093#bib.bib2);Letham等人,2020 (https://arxiv.org/html/2605.19093#bib.bib4))、针对字符串或图等结构化对象的核(Oh等人,2019 (https://arxiv.org/html/2605.19093#bib.bib27);Moss等人,2020 (https://arxiv.org/html/2605.19093#bib.bib28);Griffiths等人,2023 (https://arxiv.org/html/2605.19093#bib.bib29))以及学习到的潜在空间或深度核(Gómez-Bombarelli等人,2018 (https://arxiv.org/html/2605.19093#bib.bib31);Deshwal和Doppa,2021 (https://arxiv.org/html/2605.19093#bib.bib30);Maus等人,2022 (https://arxiv.org/html/2605.19093#bib.bib7), 2023 (https://arxiv.org/html/2605.19093#bib.bib8);Moss等人,2025 (https://arxiv.org/html/2605.19093#bib.bib16);Wilson等人,2016 (https://arxiv.org/html/2605.19093#bib.bib6))来应对这一挑战。这些方法启发了我们使用紧凑表示,但它们并未直接提供完整的提示优化循环。结构化核仍然需要搜索文本(通常通过采样或枚举),而学习到的潜在空间通常需要辅助数据或训练好的编码器-解码器。人们可能考虑在现成的稠密文本嵌入上进行BO。然而,这在少量数据设置中是禁止的。在仅有极少观测的情况下,在数千维上拟合代理模型会产生信息量很少的后验。此外,即使应用了降维(例如PCA),将优化后的连续潜在向量解码回可部署的离散文本也需要辅助训练的解码器。而且,这样的降维将挑选出最重要的*通用*潜在特征,但我们真正想要的是那些*专门针对系统提示性能*、对目标应用最相关的特征。ReElicit允许LLM构建一个低维、可解释的语义空间,其中BO的目标可以通过文本生成自然地实现为可部署的提示,从而避开了维数灾难和逆映射问题。
##### 贝叶斯和基于代理的提示优化。
几种方法将BO或代理建模与提示或指令搜索相结合。InstructZero优化软提示以用于指令生成器(Chen等人,2023 (https://arxiv.org/html/2605.19093#bib.bib17));BOInG在松弛的或生成器中介的指令空间中使用BO(Sabbatella等人,2024 (https://arxiv.org/html/2605.19093#bib.bib18));MIPRO使用贝叶斯代理来搜索LM程序的指令和示例(Opsahl-Ong等人,2024 (https://arxiv.org/html/2605.19093#bib.bib14));HbBoPs将结构感知的深度核GP与Hyperband结合用于提示选择(Schneider等人,2024 (https://arxiv.org/html/2605.19093#bib.bib32));BOPRO在语言解决方案的固定嵌入上进行BO(Agarwal等人,2025 (https://arxiv.org/html/2605.19093#bib.bib22)),相关工作还包括提示和代码生成搜索(Ballew等人,2025 (https://arxiv.org/html/2605.19093#bib.bib19);Toma等人,2025 (https://arxiv.org/html/2605.19093#bib.bib20))。这些方法密切相关,但针对不同的接口,包括软提示、有限的提示/程序配置、少样本示例、候选池或固定嵌入空间。ReElicit针对可部署的硬系统提示,在提示级标量反馈下,使用动态启发在优化过程中构建BO表示。
## 3 方法
### 3.1 问题设置
我们考虑对系统提示进行黑盒优化。令 \(f: \mathcal{X} \to \mathbb{R}\) 表示一个目标函数,它将提示 \(x \in \mathcal{X}\) 映射到标量分数 \(y = f(x)\)。在部署中,这个分数可能是一个延迟的聚合指标,例如任务完成率、安全事件率或用户满意度。在我们的实验中,\(f(x)\) 是固定评估集上的基准准确率,对优化器仅暴露为单个提示级的标量。优化器没有每个示例的标签、单个失败、答案跟踪或文本批评。目标是在高度受限的评估预算内找到一个高分的提示。受典型的并行运行多个长时间在线实验设置的启发,我们使用批优化,批大小为 \(q\)。令 \(T\) 表示评估的总批次数(包括初始种子批次)。初始数据集 \(\mathcal{D}_0 = \{(x_i, y_i)\}_{i=1}^{q}\) 包含 \(q\) 个评估过的种子提示,对应于迭代 \(t=0\)。对于每个优化轮次 \(t=1,\ldots,T-1\),优化器使用当前历史 \(\mathcal{D}_{t-1}\) 提出一个由 \(q\) 个提示组成的新批次,评估它们,并更新 \(\mathcal{D}_t = \mathcal{D}_{t-1} \cup \{(x_{t,j}^{\mathrm{new}}, y_{t,j}^{\mathrm{new}})\}_{j=1}^{q}\)。在轮次 \(t\) 之后,数据集中包含 \(q(t+1)\) 个评估过的提示。总评估预算为 \(N = qT\)。
### 3.2 ReElicit
1 输入: \(\mathcal{D}_0 = \{(x_i, y_i)\}_{i=1}^{q}\),总评估批次数 \(T\),批大小 \(q\),采集函数 \(\alpha\),启发轮数 \(K\),实现预算 \(M\),容忍度 \(\tau\)
输出: \(x^{*} = \arg \max_{(x,y) \in \mathcal{D}_{T-1}} y\)
2
3 \(\mathcal{F}_0 \leftarrow \varnothing\);
4
5 **对于** \(t=1,\ldots,T-1\) **执行**
6 令 \(X_{t-1}, Y_{t-1}\) 为 \(\mathcal{D}_{t-1}\) 中的提示和分数;
7
8 **对于** \(k=1,\ldots,K\) **执行**
9 \(\mathcal{F}_t^{(k)} \leftarrow \text{DefineFeatures}(\mathcal{D}_{t-1}, \mathcal{F}_{t-1})\);
10 \(Z_t^{(k)} \leftarrow \text{ExtractFeatures}(X_{t-1}, \mathcal{F}_t^{(k)})\);
11 \(s_t^{(k)} \leftarrow \mathrm{CV}(Z_t^{(k)}, Y_{t-1})\);
12
13
14 **如果** \(t > 1\) **则**
15 将当前最佳 \(\mathcal{F}_{t-1}\) 作为额外候选加入,方法是在 \(X_{t-1}\) 上重新提取并用CV评分;
16
17
18 选择具有最低CV误差的 \(\mathcal{F}_t\),并令 \(Z_t\) 为对应的嵌入;
19
20 在 \((Z_t, Y_{t-1})\) 上拟合GP代理模型 \(\mathcal{M}_t\);
21 \(\{z_{t,1}^{\mathrm{new}},\ldots,z_{t,q}^{\mathrm{new}}\} \leftarrow \arg \max_{z_1,\ldots,z_q \in [0,1]^{d_t}} \alpha(z_1,\ldots,z_q \mid \mathcal{M}_t)\);
22相似文章
RECAP:面向提示持续适应性的回归评估基准
介绍了RECAP,一个用于在主动适应场景下评估提示持续学习能力的基准。结果表明,现有提示优化方法在该场景下表现不佳,亟需新方法。
单一提示不够:指令敏感性削弱嵌入模型评估
本文通过实证表明,对指令调优嵌入模型进行单一提示评估是不够的,因为性能随提示措辞显著变化,且排行榜排名可通过提示选择被操纵。
潜在奖励引导:一种在推理大语言模型中隐式促进认知行为的自适应推理时框架
介绍了潜在奖励引导(LRS),一种自适应推理时框架,利用稀疏自编码器的潜在状态和学习的奖励模型,隐式促进推理大语言模型中的验证和回溯等认知行为,从而在多个模型和基准测试中提升性能。
自监督提示优化
本文提出了一种名为自监督提示优化(SPO)的框架,该框架通过输出对比来优化大语言模型的提示词,无需外部参考,显著降低了成本和数据需求。
面向偏好变化的记忆检索
本文提出了一种针对长上下文对话系统中记忆访问与选择的统一框架,利用贝叶斯因子量化历史轮次对建模变化用户偏好的效用。实验表明,在偏好密集型任务中,该框架优于基于嵌入的检索方法。