SePO：用于系统提示优化的自进化提示智能体

arXiv cs.CL 2026/06/04 04:00 论文

prompt-optimization self-evolving llm-agents system-prompts evolutionary-search meta-learning benchmark

摘要

SePO（自进化提示优化）提出了一种自指涉提示智能体，通过进化搜索同时优化任务智能体的系统提示和自身的系统提示。在包括 AIME'25、ARC-AGI-1 和 GPQA 在内的五个基准测试中，SePO 的表现优于 Manual-CoT、TextGrad 和 MetaSPO。

arXiv:2606.04465v1 公告类型：新论文摘要：系统提示优化无需修改底层模型即可改善智能体行为，生成人类可读、模型无关的指令。现有方法构建一个提示智能体来优化任务智能体的系统提示，但提示智能体自身的系统提示仍依赖人工设计且固定不变。我们提出自进化提示优化（SePO），将提示智能体自身的系统提示与任务智能体的系统提示一同作为优化目标。SePO 采用自指涉设计：单个提示智能体在开放式进化搜索框架下同时优化任务智能体的系统提示和自身的系统提示，该框架维护一个候选提示档案库作为演化的跳板。训练分为两个阶段：预训练阶段在多任务池上对提示智能体进行进化优化，微调阶段再将其应用于目标任务。在涵盖数学（AIME'25）、抽象推理（ARC-AGI-1）、研究生级科学（GPQA）、代码生成（MBPP）和逻辑谜题（数独）的五个基准测试中，SePO 始终优于 Manual-CoT、TextGrad 和 MetaSPO，与 Manual-CoT 相比平均准确率提升 4.49 个百分点。预训练所获得的提示优化能力还能泛化到预训练任务集之外的任务，而非仅仅记忆各任务的专属提示。

查看原文

查看缓存全文

缓存时间: 2026/06/05 02:14

# 用于系统提示优化的自进化提示智能体
来源：https://arxiv.org/html/2606.04465
Wangcheng Tao 新加坡国立大学 taowangcheng@u\.nus\.edu &Han Wu 香港城市大学 hanwu\.cs@my\.cityu\.edu\.hk &Weng\-Fai Wong 新加坡国立大学 wongwf@nus\.edu\.sg
###### 摘要
系统提示优化无需修改底层模型即可改善智能体行为，生成人类可读、与模型无关的指令。现有方法构建一个提示智能体来优化任务智能体的系统提示，但提示智能体本身的系统提示仍由人工设计且固定不变。我们提出自进化提示优化（SePO），将提示智能体自身的系统提示与任务智能体的系统提示同时作为优化目标。SePO采用自指涉设计：单个提示智能体在开放式进化搜索框架下，同时优化任务智能体的系统提示和自身的系统提示，并维护一个候选提示存档作为进化的基础。训练分两个阶段进行：预训练阶段在多任务池上演化提示智能体，微调阶段则将其应用于目标任务。在涵盖数学（AIME'25）、抽象推理（ARC\-AGI\-1）、研究生水平科学（GPQA）、代码生成（MBPP）和逻辑谜题（Sudoku）的五个基准测试中，SePO持续优于Manual\-CoT、TextGrad和MetaSPO，与Manual\-CoT相比平均准确率提升4\.49分。预训练所获得的提示优化技能也能泛化到预训练混合任务之外的任务，而非仅记忆各任务的特定提示。11脚注：https://github.com/taowangcheng/SePO

## 1 引言

智能体如今被广泛部署于推理\(Yao et al\.,2023 (https://arxiv.org/html/2606.04465#bib.bib14)\)、编程\(Yang et al\.,2024b (https://arxiv.org/html/2606.04465#bib.bib15)\)和决策\(Wang et al\.,2024 (https://arxiv.org/html/2606.04465#bib.bib11)\)等特定任务中。智能体性能可通过重新训练模型权重\(Ouyang et al\.,2022 (https://arxiv.org/html/2606.04465#bib.bib16)\)、扩充记忆\(Packer et al\.,2023 (https://arxiv.org/html/2606.04465#bib.bib17)\)、设计工作流\(Hu et al\.,2025 (https://arxiv.org/html/2606.04465#bib.bib20); Khattab et al\.,2024 (https://arxiv.org/html/2606.04465#bib.bib18)\)或优化系统提示\(Zhou et al\.,2023 (https://arxiv.org/html/2606.04465#bib.bib5); Yang et al\.,2024a (https://arxiv.org/html/2606.04465#bib.bib6); Yuksekgonul et al\.,2025 (https://arxiv.org/html/2606.04465#bib.bib3); Choi et al\.,2025 (https://arxiv.org/html/2606.04465#bib.bib4)\)来提升。我们专注于系统提示优化，该方法无需修改底层模型即可改善智能体行为，并生成人类可读、与模型无关的指令。

系统提示优化的方法涵盖多个研究方向。早期工作将提示搜索视为由评估反馈驱动的黑盒优化问题\(Zhou et al\.,2023 (https://arxiv.org/html/2606.04465#bib.bib5); Yang et al\.,2024a (https://arxiv.org/html/2606.04465#bib.bib6)\)。后续工作在候选提示种群上进行进化搜索\(Fernando et al\.,2024 (https://arxiv.org/html/2606.04465#bib.bib7); Guo et al\.,2024 (https://arxiv.org/html/2606.04465#bib.bib8)\)。更近期的方法通过文本梯度框架反向传播自然语言批评\(Yuksekgonul et al\.,2025 (https://arxiv.org/html/2606.04465#bib.bib3)\)，以及通过元学习获得跨任务共享提示\(Choi et al\.,2025 (https://arxiv.org/html/2606.04465#bib.bib4)\)。在所有这些方法中，*提示智能体*读取评估反馈并为任务智能体提出改进提示。提示智能体本身由人工设计，无法随着更多任务的积累而自我改进。因此，提示优化的上限受限于人工设计的水平，无法从积累的经验中受益。

根本问题在于：只有任务智能体的提示被视为优化目标，而提示智能体本身始终保持固定。我们通过自指涉设计弥补这一差距：提示智能体将自身视为一个特殊的任务智能体，因此用于优化任意任务智能体提示的相同流程也适用于优化其自身。图 1 (https://arxiv.org/html/2606.04465#S1.F1) 对比了SePO的自指涉设计与现有提示优化方法的区别。

\(a\) 常规提示优化  
提示智能体 → 任务智能体（优化提示）  
提示智能体由人工设计，从不自我改进。

\(b\) PromptBreeder  
超变异提示 → 变异提示 → 任务提示（各层依次进化）  
自指涉受限；元栈顶层固定不变。

\(c\) SePO（我们的方法）  
提示智能体 ↔ 任务智能体（互相优化提示）  
同一流程优化两个智能体的提示；闭环实现。

图1：系统提示优化中的自指涉设计。\(a\) 常规提示优化方法保留人工设计的提示智能体，优化循环从不涵盖提示智能体本身。\(b\) PromptBreeder引入了元栈，但其顶层始终固定，使得循环受限而未能真正闭合。\(c\) 在SePO的自指涉设计下，同一流程同时优化任务智能体的系统提示和提示智能体自身的提示，从而实现闭环。

该流程以开放式进化的方式在候选提示种群上运行，受 Zhang et al\.\(2026 (https://arxiv.org/html/2606.04465#bib.bib1)\) 的启发。存档机制使早期提示能够作为后续改进的基础。我们将这一框架称为*自进化提示优化*（SePO）。同一流程现在覆盖两个层级，无需为提示智能体单独手工设计优化器。

仿照标准的预训练和微调范式，我们将流程组织为两个阶段。第一阶段即提示智能体的"预训练"，在任务池上运行自指涉循环，演化出具备跨多种场景通用能力的强大提示智能体。第二阶段称为针对特定任务的"微调"，利用提示智能体优化目标任务智能体的提示。这种划分将自进化提示智能体的成本分摊到众多微调任务中。多任务预训练也遵循多样化训练数据能提升鲁棒性和泛化能力的标准原则。

自指涉设计与两阶段训练流程相结合，将提示优化从固定工具转变为可跨任务积累的可学习技能。

我们在五个基准测试上评估SePO，涵盖数学（AIME'25）、抽象推理（ARC\-AGI\-1）、研究生水平科学（GPQA）、代码生成（MBPP）和逻辑谜题（Sudoku）。与三个提示优化基线（Manual\-CoT、TextGrad、MetaSPO）相比，SePO在所有任务上均取得最佳准确率，与Manual\-CoT相比平均准确率提升4\.49分。将训练拆分为预训练和微调阶段也实现了清晰的关注点分离：预训练在多任务池上运行一次，得到的提示智能体在微调阶段可复用于各种任务智能体。预训练所获得的提示优化技能也能延伸到预训练混合任务之外的任务，而非仅记忆各任务的特定提示。

## 2 相关工作

#### 提示优化

自链式思维提示\(Wei et al\.,2022 (https://arxiv.org/html/2606.04465#bib.bib24)\)证明简单的结构性提示能够显著提升智能体推理能力以来，提示优化受到了广泛关注。这些提示最初由人工设计，耗时费力，从而推动了后续自动化提示优化的研究工作。

早期黑盒方法将提示搜索视为优化问题，由读取评估反馈并提出改进提示的智能体驱动\(Zhou et al\.,2023 (https://arxiv.org/html/2606.04465#bib.bib5); Yang et al\.,2024a (https://arxiv.org/html/2606.04465#bib.bib6)\)。当优质提示稀疏时，该方法表现欠佳，由此催生了维护候选种群并应用变异和选择的进化方法\(Fernando et al\.,2024 (https://arxiv.org/html/2606.04465#bib.bib7); Guo et al\.,2024 (https://arxiv.org/html/2606.04465#bib.bib8)\)。

另一研究方向通过成熟的机器学习范式处理提示优化，超越启发式搜索。文本梯度框架\(Yuksekgonul et al\.,2025 (https://arxiv.org/html/2606.04465#bib.bib3)\)通过智能体计算图传播自然语言批评，提供组件级反馈而非种群级适应度。元学习\(Choi et al\.,2025 (https://arxiv.org/html/2606.04465#bib.bib4)\)则生成跨任务共享提示，实现优化的跨任务泛化。

其中，PromptBreeder是与SePO最接近的先例。它将任务提示与产生任务提示的变异提示协同演化，是自指涉提示进化的早期形式。然而，其自指涉是有界的：一个人工编写的超变异提示负责演化变异提示，但其自身从不被演化。因此，元栈的顶层始终是固定的人工设计，循环从未真正闭合（图 1 (https://arxiv.org/html/2606.04465#S1.F1)b）。每次进化运行也是任务专属的，因为任务提示和变异提示耦合为一个单元，每个任务都需重新初始化。

MetaSPO与我们的问题框架最为契合，将提示优化formulate为跨任务元学习。然而，其元优化器本身仍由人工编写，处于元学习循环之外。

在上述所有方法中，驱动搜索的提示智能体本身由人工设计，无法随着更多任务的积累而改进。为解决这一问题，SePO将提示智能体视为特殊的任务智能体，使同一流程同时优化两者的提示。存档机制使早期提示能够作为后续改进的基础。预训练阶段在多样化的多任务池上运行搜索，微调阶段则将得到的提示智能体复用于各种任务。

#### 自进化智能体

自进化智能体可按其修改的内容和所处阶段分类\(Gao et al\.,2026a (https://arxiv.org/html/2606.04465#bib.bib2)\)。最早的自我改进方法仅修改智能体的输出。Self\-Refine\(Madaan et al\.,2023 (https://arxiv.org/html/2606.04465#bib.bib12)\)和Reflexion\(Shinn et al\.,2023 (https://arxiv.org/html/2606.04465#bib.bib13)\)让智能体对自身输出生成结构化的自然语言批评，并将其纳入后续尝试。

超越逐输出修订，Voyager\(Wang et al\.,2024 (https://arxiv.org/html/2606.04465#bib.bib11)\)在开放式Minecraft环境中积累可跨episode复用的技能库。最近，研究方向转向智能体的代码和架构，而非其输出。基于存档的编程智能体进化搜索\(Zhang et al\.,2026 (https://arxiv.org/html/2606.04465#bib.bib1)\)维护在固定基准上评估的智能体变体种群，实现开放式自我改进，建立在Schmidhuber\(2003 (https://arxiv.org/html/2606.04465#bib.bib23)\)最初的Gödel机器提案之上。ADAS\(Hu et al\.,2025 (https://arxiv.org/html/2606.04465#bib.bib20)\)类似地演化智能体系统代码，由固定的元智能体生成候选设计。

在这一研究脉络中，SePO仅作用于提示智能体的自然语言系统提示，不涉及代码、权重和工具。系统提示比智能体输出、积累的技能或智能体架构更具可解释性，且与模型无关。

#### 非智能体制品的进化搜索

另一平行研究方向对非智能体制品进行进化搜索。FunSearch\(Romera\-Paredes et al\.,2024 (https://arxiv.org/html/2606.04465#bib.bib19)\)演化生成数学对象的程序，取得了新的组合界。Eureka\(Ma et al\.,2024 (https://arxiv.org/html/2606.04465#bib.bib21)\)将该模板扩展到强化学习，通过智能体提出的代码改进奖励函数。AlphaEvolve\(Novikov et al\.,2025 (https://arxiv.org/html/2606.04465#bib.bib22)\)将同一思路扩展到科学和工程问题的算法设计。在这些系统中，驱动搜索的智能体是固定的外部算子，与被演化的制品相分离。相比之下，SePO将提示智能体本身置于其所搜索的种群内部，使算子本身也成为优化目标。

## 3 方法论

我们首先形式化任务和智能体的概念，然后阐述任务智能体系统提示优化的标准问题。接着，我们将提示智能体自身的系统提示映射到同一问题，并提出SePO——在两阶段训练中通过单一流程同时优化两类提示。

图2：SePO两阶段训练流程概览。**预训练**（左）通过开放式进化搜索演化提示智能体自身的系统提示$\tilde{p}$，维护候选提示存档作为进化基础。预训练任务池可以是单一任务（SePO\-Specialist）或多任务混合（SePO\-Generalist；见第3\.3节 (https://arxiv.org/html/2606.04465#S3.SS3.SSS0.Px2)）。**微调**（右）复用得到的$\tilde{p}^\star$，再次通过开放式进化搜索优化目标任务上任务智能体的系统提示$p$。

### 3\.1 预备知识

#### 任务与任务智能体

*任务* $T=(\mathcal{D},S)$ 是一个由输入-目标对 $(x,y)$ 构成的数据集 $\mathcal{D}$，以及一个确定性评分函数 $S(x,y,\hat{y})$。*任务智能体*接收任务输入 $x$ 并返回候选响应 $\hat{y}$。我们将其表示为元组 $A=A_{(p,M,W)}$，包含系统提示 $p$、底层语言模型 $M$ 和工作流 $W$（负责将 $x$ 封装为用户提示、查询 $M$ 并解析响应）。智能体调用简写为 $A(x)=W_M(x\mid p)$。智能体 $A$ 在任务 $T$ 上的准确率为 $\mathrm{acc}(A;T)=\mathbb{E}_{(x,y)\sim\mathcal{D}}[S(x,y,A(x))]$。

#### 提示智能体与标准系统提示优化

任务智能体 $A$ 在任务 $T$ 上的标准系统提示优化问题是求：

$$p^\star = \arg\max_p \; \mathbb{E}_{(x,y)\sim\mathcal{D}}\!\left[S\!\left(x,\;y,\;A_{(p,M,W)}(x)\right)\right]. \tag{1}$$

先前工作\(Zhou et al\.,2023 (https://arxiv.org/html/2606.04465#bib.bib5); Yang et al\.,2024a (https://arxiv.org/html/2606.04465#bib.bib6); Yuksekgonul et al\.,2025 (https://arxiv.org/html/2606.04465#bib.bib3); Choi et al\.,2025 (https://arxiv.org/html/2606.04465#bib.bib4)\)通过引入第二个智能体——*提示智能体* $\tilde{A}$——来求解该问题：提示智能体读取评估反馈并为任务智能体提出改进提示。提示智能体与任务智能体形式相同，拥有自身的系统提示 $\tilde{p}$、模型和工作流。其输入为元组 $\tilde{x}=(T,A,E)$，包含任务 $T$、被优化的任务智能体 $A$，以及在 $T$ 上运行 $A$ 所得的一批评估结果 $E$。调用后，提示智能体生成改进提示 $p'=\tilde{A}(\tilde{x})$，预期得分高于 $p$。当 $T$ 和 $A$ 的非提示组件在一次运行中固定时，$\tilde{A}$ 仅依赖于 $p$ 和 $E$，等价地写作 $p'=\tilde{A}(p,E)$。迭代产生序列 $p^{(0)},p^{(1)},\ldots$，取得分最高的提示作为

SePO：用于系统提示优化的自进化提示智能体

相似文章

自监督提示优化

SAGE：基于智能体引导的随机提示优化

基于环境的LLM游戏智能体自动提示优化

SPEAR：代码增强的智能体提示优化

PrompTessor

提交意见反馈