SPEAR：代码增强的智能体提示优化

arXiv cs.CL 2026/05/27 04:00 论文

prompt-optimization agentic code-augmented prompt-engineering llm-evaluation bbh gsm8k

摘要

SPEAR 是一个代码增强的智能体提示优化器，它利用 Python 沙箱进行结构错误分析，在包括工业裁判任务、BBH 和 GSM8K 在内的多个 LLM 评估套件上取得了最先进的性能。

arXiv:2605.26275v1 公告类型：新摘要：自动提示工程（APE）重写提示以提高下游任务性能，但现有的 APE 循环将优化器本身视为固定管道。我们将 CodeAct (Wang et al., 2024a) 的代码即行动范式移植到 APE，并提出了 SPEAR（带主动回滚的沙箱提示工程师），一个自由形式的智能体优化器，拥有四个工具——evaluate、python、set_prompt、finish——它自主决定如何使用以及何时使用它们。独特的工具是 Python 沙箱：优化器在当前评估 DataFrame 上编写并执行任意 Python 代码，进行结构错误分析（混淆矩阵、错误聚类、每组指标），这些分析由智能体自行编写。两个护栏将长期智能体转变为单调改进的优化器：指标回退时的自动回滚，以及可选的保护指标下限。我们在三个工业级 LLM 作为裁判套件（涵盖招聘筛选、对话记忆和查询优化系统等 13 个裁判任务）以及七个 BBH 任务和 GSM8K 上进行了评估。SPEAR 在主要指标上赢得了所有工业任务（工具选择上 $\kappa$ 0.857 vs 0.359；过滤相关性上 F1-macro 0.815 vs 0.763；最难提取维度上 $\kappa$ 0.254 vs 0.218）。在 BBH-7 上，SPEAR 平均准确率为 0.938，而 GEPA 为 0.628，TextGrad 为 0.484。消融实验表明，Python 工具是复杂裁判任务上最大的单一杠杆（在 5 类工具选择裁判上 $\Delta \approx +0.79\kappa$，在移除后最难提取维度上 $\Delta \approx +0.35\kappa$）；其不可替代的贡献是类别对混淆聚合，这是长上下文 LLM 无法从原始评估 DataFrame 中可靠提取的。

查看原文

查看缓存全文

缓存时间: 2026/05/27 09:02

# SPEAR: 基于代码增强的智能体提示优化
来源：https://arxiv.org/abs/2605.26275
查看 PDF (https://arxiv.org/pdf/2605.26275)

> 摘要：自动提示工程（APE）通过改写提示来提升下游任务性能，但现有的 APE 循环将优化器本身视为固定流水线。我们将 CodeAct（Wang 等，2024a）的代码即动作范式移植到 APE，并提出 SPEAR（沙盒化主动回滚提示工程师），这是一个自由形式的智能体优化器，配备四个工具——evaluate、python、set_prompt、finish——可自主决定如何使用这些工具以及何时使用。其中独具特色的工具是 Python 沙盒：优化器可以在当前评估 DataFrame 上编写并执行任意 Python 代码，执行智能体自身编写的结构化错误分析（混淆矩阵、错误聚类、分组指标）。两个防护机制将长时域智能体转化为单调改进的优化器：指标回退时自动回滚，以及可选的守卫指标下限。我们在三个工业级 LLM-as-Judge 套件（涵盖招聘人员录入、对话记忆、查询优化系统中的 13 个 Judge 任务）以及七个 BBH 任务和 GSM8K 上进行了评估。SPEAR 在所有工业任务的主要指标上获胜（工具选择上 κ 0.857 对比 0.359；过滤相关性上 F1-macro 0.815 对比 0.763；最难提取维度上 κ 0.254 对比 0.218）。在 BBH-7 上，SPEAR 平均准确率为 0.938，而 GEPA 为 0.628，TextGrad 为 0.484。消融实验表明，在复杂 Judge 任务中，Python 工具是最大的单一杠杆（在五类工具选择 Judge 上 Δ ≈ +0.79κ；移除后在最难提取维度上 Δ ≈ +0.35κ）；其不可替代的贡献在于类别配对混淆聚合，而长上下文 LLM 无法从原始评估 DataFrame 中可靠地提取这种信息。

## 提交历史

来自：Huimin Han [查看邮件 (https://arxiv.org/show-email/73d3999a/2605.26275)] **\[v1\]**2026年5月25日星期一 19:01:10 UTC (327 KB)

SPEAR：代码增强的智能体提示优化

相似文章

SePO：用于系统提示优化的自进化提示智能体

自监督提示优化

SPEAR：用于逼真具身人工智能研究的模拟器

SAGE：基于智能体引导的随机提示优化

FAPO: 多步骤LLM流水线的全自动提示优化

提交意见反馈