SAGE:基于智能体引导的随机提示优化
摘要
介绍了SPO,一种用于自动提示优化的随机搜索框架,包含三种策略,其中包括SAGE,一种智能体引导的多智能体流水线。在基准测试上进行了评估,并部署在心理健康聊天机器人上,通过持续优化显示出在留存率方面的改进。
arXiv:2606.18902v1 公告类型:新
摘要:上下文工程已成为在不更新参数的情况下改进AI系统的主要手段。最近的研究表明,文本梯度并不发挥真正的梯度作用,这促使我们将自动提示优化(APO)视为黑箱搜索。我们提出了SPO(随机提示优化),一个在提示空间上进行随机搜索的框架,并比较了三种复杂度递增的策略:基于错误信息的随机搜索、带有进化算子的遗传算法,以及SAGE(基于智能体引导的SPO探索),一种带有诊断代码执行的多智能体流水线。在三个基准测试中,没有哪种策略占主导地位;有效性取决于景观结构与错误类型的交互。我们进一步在持续优化范式下将SAGE部署在心理健康聊天机器人上,它将八个独立的噪声A/B测试周期累积成次日留存率的统计稳健提升。我们认为,将定性诊断与定量验证相结合,正是使智能体优化对开放式任务导向对话有效的原因。
查看缓存全文
缓存时间: 2026/06/18 05:46
# SAGE: 基于智能体引导探索的随机提示优化 来源:https://arxiv.org/abs/2606.18902 查看 PDF (https://arxiv.org/pdf/2606.18902) > **摘要:**上下文工程已成为无需参数更新即可改进 AI 系统的主要手段。近期研究表明,文本梯度并非真正的梯度,这促使我们将自动提示优化(APO)视为黑盒搜索问题。本文提出 SPO(随机提示优化),一种在提示空间中进行随机搜索的框架,并比较了三种复杂度递增的策略:基于错误信息的随机搜索、带有进化算子的遗传算法,以及 SAGE(基于智能体引导探索的 SPO)——一种带有诊断代码执行的多智能体管道。在三个基准测试中,没有一种策略占主导地位;有效性取决于景观结构与错误类型的交互作用。我们进一步在持续优化范式下,将 SAGE 部署于一个心理健康聊天机器人,通过八轮个体上存在噪声的 A/B 测试,累积出在次日留存率上具有统计学显著性的稳健提升。我们论证:将定性诊断与定量验证相结合,正是智能体优化对于开放式任务导向型对话行之有效的关键。 ## 提交历史 来自:Ziyi Zhu \[查看邮件 (https://arxiv.org/show-email/99e3891a/2606.18902)\] **\[v1\]**Wed, 17 Jun 2026 10:25:25 UTC \(739 KB\)
相似文章
SePO:用于系统提示优化的自进化提示智能体
SePO(自进化提示优化)提出了一种自指涉提示智能体,通过进化搜索同时优化任务智能体的系统提示和自身的系统提示。在包括 AIME'25、ARC-AGI-1 和 GPQA 在内的五个基准测试中,SePO 的表现优于 Manual-CoT、TextGrad 和 MetaSPO。
自监督提示优化
本文提出了一种名为自监督提示优化(SPO)的框架,该框架通过输出对比来优化大语言模型的提示词,无需外部参考,显著降低了成本和数据需求。
基于环境的LLM游戏智能体自动提示优化
介绍了一个针对LLM游戏智能体的自动提示优化框架,该框架将观察-行动流水线分解为两个智能体,并通过环境回报引导的进化循环迭代优化提示。在BabyAI任务上评估,显著提高了成功率(例如,在PutNext上从0%提升到72.5%),且无需更新模型权重。
SocraticPO:通过交互式指导的策略优化
SocraticPO通过苏格拉底式自然语言指导和奖励衰减增强强化学习(RL)的展开过程,以提升大语言模型(LLM)的科学推理能力,在SciKnowEval基准测试中超越强基线。
SPEAR:代码增强的智能体提示优化
SPEAR 是一个代码增强的智能体提示优化器,它利用 Python 沙箱进行结构错误分析,在包括工业裁判任务、BBH 和 GSM8K 在内的多个 LLM 评估套件上取得了最先进的性能。