SPEAR:代码增强的智能体提示优化

arXiv cs.CL 论文

摘要

SPEAR 是一个代码增强的智能体提示优化器,它利用 Python 沙箱进行结构错误分析,在包括工业裁判任务、BBH 和 GSM8K 在内的多个 LLM 评估套件上取得了最先进的性能。

arXiv:2605.26275v1 公告类型:新 摘要:自动提示工程(APE)重写提示以提高下游任务性能,但现有的 APE 循环将优化器本身视为固定管道。我们将 CodeAct (Wang et al., 2024a) 的代码即行动范式移植到 APE,并提出了 SPEAR(带主动回滚的沙箱提示工程师),一个自由形式的智能体优化器,拥有四个工具——evaluate、python、set_prompt、finish——它自主决定如何使用以及何时使用它们。独特的工具是 Python 沙箱:优化器在当前评估 DataFrame 上编写并执行任意 Python 代码,进行结构错误分析(混淆矩阵、错误聚类、每组指标),这些分析由智能体自行编写。两个护栏将长期智能体转变为单调改进的优化器:指标回退时的自动回滚,以及可选的保护指标下限。我们在三个工业级 LLM 作为裁判套件(涵盖招聘筛选、对话记忆和查询优化系统等 13 个裁判任务)以及七个 BBH 任务和 GSM8K 上进行了评估。SPEAR 在主要指标上赢得了所有工业任务(工具选择上 $\kappa$ 0.857 vs 0.359;过滤相关性上 F1-macro 0.815 vs 0.763;最难提取维度上 $\kappa$ 0.254 vs 0.218)。在 BBH-7 上,SPEAR 平均准确率为 0.938,而 GEPA 为 0.628,TextGrad 为 0.484。消融实验表明,Python 工具是复杂裁判任务上最大的单一杠杆(在 5 类工具选择裁判上 $\Delta \approx +0.79\kappa$,在移除后最难提取维度上 $\Delta \approx +0.35\kappa$);其不可替代的贡献是类别对混淆聚合,这是长上下文 LLM 无法从原始评估 DataFrame 中可靠提取的。
查看原文
查看缓存全文

缓存时间: 2026/05/27 09:02

# SPEAR: 基于代码增强的智能体提示优化
来源:https://arxiv.org/abs/2605.26275
查看 PDF (https://arxiv.org/pdf/2605.26275)

> 摘要:自动提示工程(APE)通过改写提示来提升下游任务性能,但现有的 APE 循环将优化器本身视为固定流水线。我们将 CodeAct(Wang 等,2024a)的代码即动作范式移植到 APE,并提出 SPEAR(沙盒化主动回滚提示工程师),这是一个自由形式的智能体优化器,配备四个工具——evaluate、python、set_prompt、finish——可自主决定如何使用这些工具以及何时使用。其中独具特色的工具是 Python 沙盒:优化器可以在当前评估 DataFrame 上编写并执行任意 Python 代码,执行智能体自身编写的结构化错误分析(混淆矩阵、错误聚类、分组指标)。两个防护机制将长时域智能体转化为单调改进的优化器:指标回退时自动回滚,以及可选的守卫指标下限。我们在三个工业级 LLM-as-Judge 套件(涵盖招聘人员录入、对话记忆、查询优化系统中的 13 个 Judge 任务)以及七个 BBH 任务和 GSM8K 上进行了评估。SPEAR 在所有工业任务的主要指标上获胜(工具选择上 κ 0.857 对比 0.359;过滤相关性上 F1-macro 0.815 对比 0.763;最难提取维度上 κ 0.254 对比 0.218)。在 BBH-7 上,SPEAR 平均准确率为 0.938,而 GEPA 为 0.628,TextGrad 为 0.484。消融实验表明,在复杂 Judge 任务中,Python 工具是最大的单一杠杆(在五类工具选择 Judge 上 Δ ≈ +0.79κ;移除后在最难提取维度上 Δ ≈ +0.35κ);其不可替代的贡献在于类别配对混淆聚合,而长上下文 LLM 无法从原始评估 DataFrame 中可靠地提取这种信息。

## 提交历史

来自:Huimin Han [查看邮件 (https://arxiv.org/show-email/73d3999a/2605.26275)] **\[v1\]**2026年5月25日星期一 19:01:10 UTC (327 KB)

相似文章

自监督提示优化

Papers with Code Trending

本文提出了一种名为自监督提示优化(SPO)的框架,该框架通过输出对比来优化大语言模型的提示词,无需外部参考,显著降低了成本和数据需求。

语言模型代理的自我编程执行

arXiv cs.AI

本文介绍了自我编程执行(SPE),这是一种代理架构,其中语言模型生成其自身的编排程序,而非依赖固定的外部框架。文章提出了“Spell”,一种基于 Lisp 的语言,支持自我编辑和重新求值,并展示了前沿模型能够利用该方法成功执行代理任务。

AgentSPEX:一种智能体规范与执行语言

Hugging Face Daily Papers

AgentSPEX 提出了一种领域专用语言,用于构建模块化、可解释的大模型智能体工作流,具备显式控制流、状态管理与可视化编辑器,性能优于现有 Python 耦合框架。