SPEAR:代码增强的智能体提示优化
摘要
SPEAR 是一个代码增强的智能体提示优化器,它利用 Python 沙箱进行结构错误分析,在包括工业裁判任务、BBH 和 GSM8K 在内的多个 LLM 评估套件上取得了最先进的性能。
arXiv:2605.26275v1 公告类型:新
摘要:自动提示工程(APE)重写提示以提高下游任务性能,但现有的 APE 循环将优化器本身视为固定管道。我们将 CodeAct (Wang et al., 2024a) 的代码即行动范式移植到 APE,并提出了 SPEAR(带主动回滚的沙箱提示工程师),一个自由形式的智能体优化器,拥有四个工具——evaluate、python、set_prompt、finish——它自主决定如何使用以及何时使用它们。独特的工具是 Python 沙箱:优化器在当前评估 DataFrame 上编写并执行任意 Python 代码,进行结构错误分析(混淆矩阵、错误聚类、每组指标),这些分析由智能体自行编写。两个护栏将长期智能体转变为单调改进的优化器:指标回退时的自动回滚,以及可选的保护指标下限。我们在三个工业级 LLM 作为裁判套件(涵盖招聘筛选、对话记忆和查询优化系统等 13 个裁判任务)以及七个 BBH 任务和 GSM8K 上进行了评估。SPEAR 在主要指标上赢得了所有工业任务(工具选择上 $\kappa$ 0.857 vs 0.359;过滤相关性上 F1-macro 0.815 vs 0.763;最难提取维度上 $\kappa$ 0.254 vs 0.218)。在 BBH-7 上,SPEAR 平均准确率为 0.938,而 GEPA 为 0.628,TextGrad 为 0.484。消融实验表明,Python 工具是复杂裁判任务上最大的单一杠杆(在 5 类工具选择裁判上 $\Delta \approx +0.79\kappa$,在移除后最难提取维度上 $\Delta \approx +0.35\kappa$);其不可替代的贡献是类别对混淆聚合,这是长上下文 LLM 无法从原始评估 DataFrame 中可靠提取的。
查看缓存全文
缓存时间: 2026/05/27 09:02
# SPEAR: 基于代码增强的智能体提示优化 来源:https://arxiv.org/abs/2605.26275 查看 PDF (https://arxiv.org/pdf/2605.26275) > 摘要:自动提示工程(APE)通过改写提示来提升下游任务性能,但现有的 APE 循环将优化器本身视为固定流水线。我们将 CodeAct(Wang 等,2024a)的代码即动作范式移植到 APE,并提出 SPEAR(沙盒化主动回滚提示工程师),这是一个自由形式的智能体优化器,配备四个工具——evaluate、python、set_prompt、finish——可自主决定如何使用这些工具以及何时使用。其中独具特色的工具是 Python 沙盒:优化器可以在当前评估 DataFrame 上编写并执行任意 Python 代码,执行智能体自身编写的结构化错误分析(混淆矩阵、错误聚类、分组指标)。两个防护机制将长时域智能体转化为单调改进的优化器:指标回退时自动回滚,以及可选的守卫指标下限。我们在三个工业级 LLM-as-Judge 套件(涵盖招聘人员录入、对话记忆、查询优化系统中的 13 个 Judge 任务)以及七个 BBH 任务和 GSM8K 上进行了评估。SPEAR 在所有工业任务的主要指标上获胜(工具选择上 κ 0.857 对比 0.359;过滤相关性上 F1-macro 0.815 对比 0.763;最难提取维度上 κ 0.254 对比 0.218)。在 BBH-7 上,SPEAR 平均准确率为 0.938,而 GEPA 为 0.628,TextGrad 为 0.484。消融实验表明,在复杂 Judge 任务中,Python 工具是最大的单一杠杆(在五类工具选择 Judge 上 Δ ≈ +0.79κ;移除后在最难提取维度上 Δ ≈ +0.35κ);其不可替代的贡献在于类别配对混淆聚合,而长上下文 LLM 无法从原始评估 DataFrame 中可靠地提取这种信息。 ## 提交历史 来自:Huimin Han [查看邮件 (https://arxiv.org/show-email/73d3999a/2605.26275)] **\[v1\]**2026年5月25日星期一 19:01:10 UTC (327 KB)
相似文章
自监督提示优化
本文提出了一种名为自监督提示优化(SPO)的框架,该框架通过输出对比来优化大语言模型的提示词,无需外部参考,显著降低了成本和数据需求。
语言模型代理的自我编程执行
本文介绍了自我编程执行(SPE),这是一种代理架构,其中语言模型生成其自身的编排程序,而非依赖固定的外部框架。文章提出了“Spell”,一种基于 Lisp 的语言,支持自我编辑和重新求值,并展示了前沿模型能够利用该方法成功执行代理任务。
AgentSPEX:一种智能体规范与执行语言
AgentSPEX 提出了一种领域专用语言,用于构建模块化、可解释的大模型智能体工作流,具备显式控制流、状态管理与可视化编辑器,性能优于现有 Python 耦合框架。
提示优化为何有效,为何有时无效:基于因果启发的编辑级分析
本文对自动化提示优化进行了基于因果启发的分析,涵盖多种框架、大语言模型和任务,识别出特定编辑类型(如复杂度增加型、元指令型)根据任务特征具有系统的负面或正面效应,从而解释了泛化失败的原因。
@astrogu_: 最近的智能体系统(Claude Code、Codex、RLM 等)将上下文从提示中推入环境(例如,一个……
PEEK 引入了一种上下文地图作为面向 LLM 智能体的方向缓存,使它们能够对外部环境(如代码仓库)保持持久的知识。该系统相比 RAG 和 ACE 等基线方法,在更低成本下实现了 6.3–34.0% 的质量提升。