@omarsar0: 苹果的一篇很棒的论文。大多数对工具调用智能体的评估都发生在轨迹结束之后。但那时错误的调用早已发出。这篇新论文将评估移入执行循环中。一个专门的审稿智能体在执行前检查每个临时工具调用。如果有问题,它注入反馈,主智能体进行修正。为了量化修正与新错误之间的权衡,他们提出了“有益性-有害性”指标。有益性衡量基础错误被修复的百分比;有害性衡量因审稿而降低正确调用质量的比例。在 BFCL 上的结果:无关检测准确率提升 5.5%(从 84.9% 到 90.4%),相关检测提升 1.6%,且无需重新训练基础智能体。在 τ²-Bench 多轮任务上提升 7.1%(从 48.7% 到 55.8%)。推理模型审稿者比 GPT-4o 获得 3:1 的收益风险比,而 GPT-4o 为 2.1:1。加入 GEPA 提示优化可再提升 1.5–2.8%。为什么这很重要?你可以保持基础工具调用智能体不变,仅通过改进审稿者即可实现显著的准确性提升。对审稿者的模型选择和提示优化成为独立的生产杠杆。论文链接:https://arxiv.org/abs/2604.27233 在我们的学院学习如何构建高效的 AI 智能体:https://academy.dair.ai

X AI KOLs Timeline 论文

摘要

这篇来自苹果的研究论文介绍了“强化智能体”(Reinforced Agent)方法,通过使用专门的审稿智能体在实时执行过程中修正工具调用错误,将评估纳入执行循环。它在 BFCL 和 τ²-Bench 等基准测试上展示了显著的准确性提升,而无需重新训练基础智能体。

苹果的一篇很棒的论文。大多数对工具调用智能体的评估都发生在轨迹结束之后。但那时错误的调用早已发出。这篇新论文将评估移入执行循环中。一个专门的审稿智能体在执行前检查每个临时工具调用。如果有问题,它注入反馈,主智能体进行修正。为了量化修正与新错误之间的权衡,他们提出了“有益性-有害性”指标。有益性衡量基础错误被修复的百分比;有害性衡量因审稿而降低正确调用质量的比例。在 BFCL 上的结果:无关检测准确率提升 5.5%(从 84.9% 到 90.4%),相关检测提升 1.6%,且无需重新训练基础智能体。在 τ²-Bench 多轮任务上提升 7.1%(从 48.7% 到 55.8%)。推理模型审稿者比 GPT-4o 获得 3:1 的收益风险比,而 GPT-4o 为 2.1:1。加入 GEPA 提示优化可再提升 1.5–2.8%。为什么这很重要?你可以保持基础工具调用智能体不变,仅通过改进审稿者即可实现显著的准确性提升。对审稿者的模型选择和提示优化成为独立的生产杠杆。论文链接:https://arxiv.org/abs/2604.27233 在我们的学院学习如何构建高效的 AI 智能体:https://academy.dair.ai
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/11 04:36

来自苹果的一篇很棒的论文。目前大多数对工具调用(tool-calling)智能体的评估都是在轨迹结束后进行的。到那时,错误的调用已经发出。这篇新论文将评估过程移入了执行循环中。一个专门的审查员智能体(reviewer agent)会在每个暂定工具调用执行前进行检查。如果发现问题,它会注入反馈,主智能体则进行修正。为了量化纠错与新错误之间的权衡,他们引入了“有益性-有害性”(Helpfulness-Harmfulness)指标。有益性衡量基础错误被修正的百分比;有害性衡量因审查员介入而变差的正确调用比例。在 BFCL 基准测试上的结果:无关性检测提升 5.5%(从 84.9% 到 90.4%),相关性任务提升 1.6%,且无需重新训练基础智能体。在 τ2-Bench 多轮对话任务中提升 7.1%(从 48.7% 到 55.8%)。使用推理模型作为审查员可获得 3:1 的收益风险比,而 GPT-4o 仅为 2.1:1。增加 GEPA 提示优化可再提升 1.5–2.8%。为什么这很重要?你可以保持基础工具调用智能体冻结不变,仅通过改进审查员就能实现可衡量的准确率提升。对审查员进行模型选择和提示优化成为了真实且独立的生产杠杆。论文:https://arxiv.org/abs/2604.27233 在我们的学院学习如何构建高效的 AI 智能体:https://academy.dair.ai


增强型智能体:用于工具调用智能体的推理时反馈

来源:https://arxiv.org/html/2604.27233

摘要

工具调用智能体通常根据工具选择、参数准确性和范围识别进行评估,但大语言模型(LLM)的轨迹评估本质上仍是事后(post-hoc)的。由于与活跃的执行循环脱节,此类评估所识别的错误通常需要通过提示调整或重新训练来解决,从根本上无法在实时过程中对智能体进行纠偏。为了缩小这一差距,我们将评估移至推理时的执行循环中:一个专门的审查员智能体在执行前评估暂定工具调用,从而将范式从事后恢复转变为主动评估和错误缓解。

在实践中,这种架构在主执行智能体和次级审查智能体之间建立了清晰的关注点分离。与任何多智能体系统一样,审查员在纠正错误的同时也可能引入新错误,但据我们所知,尚无先前工作系统地衡量过这种权衡。为了量化这种权衡,我们引入了有益性-有害性(Helpfulness-Harmfulness)指标:有益性衡量反馈修正基础智能体错误的百分比;有害性衡量反馈降低正确响应质量的百分比。这些指标通过揭示给定模型或提示是否提供净正值,直接指导审查员设计。

我们在 BFCL(单轮)和 τ²-Bench(多轮有状态场景)上评估了我们的方法,在无关性检测上提升了 5.5%,在多轮任务上提升了 7.1%。我们的指标表明,审查员模型的选择至关重要:推理模型 o3-mini 实现了 3:1 的收益风险比,而 GPT-4o 为 2.1:1。通过 GEPA 进行的自动提示优化提供了额外的 1.5–2.8% 的提升。综合来看,这些结果展示了分离执行和审查的核心优势:可以通过模型选择和提示优化系统性地改进审查员,而无需重新训练基础智能体。

增强型智能体:用于工具调用智能体的推理时反馈

Anh Ta Junjie Zhu Shahin Shayandeh Apple {atta, jason.zhu, shn}@apple.com

1 引言

“纽约市的天气如何?” 用户 get_weather(“NYC”, unit=“C”) 工具调用智能体 检测到错误:对于美国城市,温度默认应使用华氏度。此外,应使用城市全称而非缩写。 审查员智能体 审查循环 1 get_weather(“New York City”, unit=“F”) (已修正) 正确。工具调用格式正确且单位适当。城市全称使用正确。 审查循环 2 执行工具调用 查询已发送 暂定工具调用 注入反馈 暂定工具调用 注入反馈

图 1:带有推理时反馈的示例轨迹。反馈智能体(o3-mini)在执行前评估来自工具调用智能体(GPT-4o)的暂定工具调用。循环 1:提供反馈。循环 2:批准修正后的调用。大型语言模型越来越多地被部署为与外部工具和 API 交互的智能体。这些工具调用智能体面临系统性挑战:选择正确的工具、使用适当的参数构建调用,以及识别何时没有工具可以处理请求 Patil et al. (2023 (https://arxiv.org/html/2604.27233#bib.bib1), 2024 (https://arxiv.org/html/2604.27233#bib.bib3)); Kokane et al. (2025 (https://arxiv.org/html/2604.27233#bib.bib20))。

主要有两类策略来解决这些挑战。基于训练的方法(如 GRPO Tanget al. (2024 (https://arxiv.org/html/2604.27233#bib.bib9)))需要大量的计算资源且部署缓慢。推理时方法(如 Self-Refine Madaan et al. (2023 (https://arxiv.org/html/2604.27233#bib.bib5)) 和 Reflexion Shin et al. (2023 (https://arxiv.org/html/2604.27233#bib.bib6)))无需训练即可实现自我修正,但当智能体必须同时生成和反思工具调用时,需要复杂的基础设施和上下文管理。

这两种策略都面临一个根本性的状态恢复问题。当智能体执行错误操作(例如删除闹钟而不是更新它)时,自我修正需要在上下文中保持之前的状态。在复杂的执行环境和多轮场景中,替代轨迹的空间呈指数级增长,这使得状态恢复变得 prohibitively expensive(极其昂贵)。如果没有不合理的大上下文窗口(受限于模型容量和上下文预算),智能体无法可靠地从破坏性错误中恢复。

为了解决工具调用智能体的固有挑战以及状态恢复问题,我们提出了使用简单、可配置的双智能体架构进行推理时反馈:一个专门的审查员智能体在执行前评估暂定工具调用,并向工具调用智能体提供反馈,或使用选择策略在候选项中进行选择。图 1 (https://arxiv.org/html/2604.27233#S1.F1) 显示了带有审查员模型的示例轨迹。关键提案是简单的关注点分离,这带来了强大的好处。首先,它只需要一个额外的智能体(可通过模型和审查策略配置),而不是复杂的基础设施变更。其次,通过在执前审查调用,它有助于减轻破坏性错误,而不是试图恢复,从而减少了状态恢复问题。工具调用智能体无需重新训练或重构架构,并能无缝采用来自审查员的反馈。

然而,引入审查员会带来权衡:反馈可以减轻错误,但也可能破坏有效响应。为了量化这一点,我们引入了有益性-有害性指标,量化反馈修正错误的频率与引入新错误的频率。审查员质量可以通过模型能力或提示优化来提高。延迟开销可以通过蒸馏来减少。

为了找到最佳的反馈智能体配置,我们探索了多种审查策略(渐进式反馈、最佳-N 选择和最佳-N 评分),并通过自动提示优化(APO)解决审查员失败问题。APO 仅优化审查员的提示(主智能体的提示保持不变),通过观察审查员做出错误判断的案例来自动优化其提示。

对于审查员智能体,我们比较了非推理模型(GPT-4o)和推理模型,以评估推理对审查质量的影响。我们使用 o3-mini 进行初步实验,然后在 APO 实验中使用 GPT-5 mini(发布后采用以利用最新的推理能力)。我们选择 mini 变体以平衡推理能力和成本效益。主要的工具调用智能体全程保持为 GPT-4o。

主要结果

我们在两个基准测试上进行评估:BFCL(伯克利函数调用排行榜)Patil et al. (2024 (https://arxiv.org/html/2604.27233#bib.bib3)) 用于单轮函数调用,τ²-Bench Barset et al. (2025 (https://arxiv.org/html/2604.27233#bib.bib4)) 用于多轮有状态场景。我们的最佳配置在 BFCL 上的无关性检测方面提升了 5.5%(84.9%→90.4%),相关性套件提升了 1.6%(90.9%→92.5%)(表 5 (https://arxiv.org/html/2604.27233#S4.T5)),以及在 τ²-Bench 上提升了 7.1%(48.7%→55.8%;表 8 (https://arxiv.org/html/2604.27233#A1.T8))。使用我们的有益性-有害性指标,我们发现推理模型(o3-mini)作为审查员优于标准语言模型,实现了 3:1 的收益风险比(36.8% 有益性,11.7% 有害性;图 4 (https://arxiv.org/html/2604.27233#S4.F4))。

推理模型比较和 APO 仅在 BFCL 上评估;将其扩展到 τ²-Bench 是未来的工作。

这种方法为工具调用系统提供了实际好处:它不需要重新训练或基础设施修改,支持通过自动优化快速迭代审查策略,并为不同的应用需求提供可调整的准确率-延迟权衡。模块化架构使组织能够在不改变现有工具调用管道的情况下逐步增强智能体的可靠性。

主要贡献

总之,我们的工作做出了以下贡献:

  1. 推理时反馈机制:无需训练即可提高工具调用性能,在 BFCL 的无关性检测上提升了 5.5%,在多轮场景(τ²-Bench)上提升了 7.1%。
  2. 有益性-有害性指标:量化反馈干预的收益风险权衡,显示推理模型在 BFCL 上实现了 3:1 的比率,优于标准语言模型。
  3. 自动化审查员提示优化:通过 GEPA Agrawal et al. (2025 (https://arxiv.org/html/2604.27233#bib.bib8)) 系统地发现有效的审查策略,在 BFCL 上实现了 1.5%(相关性)和 2.8%(无关性)的提升(表 5 (https://arxiv.org/html/2604.27233#S4.T5))。

2 方法

工具调用智能体 审查员智能体 执行环境 查询 响应 暂定工具调用 反馈 执行工具调用 结果

图 2:反馈架构。审查员智能体在执行前审查暂定工具调用。如果检测到错误,则提供反馈以进行修正。此循环持续进行,直到批准或达到最大迭代次数(N)。

2.1 多智能体架构

我们评估了工具调用智能体和审查员智能体之间的三种协作机制:

渐进式反馈(Progressive Feedback):反馈智能体迭代地审查工具调用智能体的响应(图 2 (https://arxiv.org/html/2604.27233#S2.F2))。如果发现错误,反馈作为系统消息注入,工具调用智能体生成修正后的响应。此过程持续最多 N 次审查循环,或直到未检测到错误。我们将此表示为 r_N(例如,r_2 表示最多 2 次审查循环)。

最佳-N 选择(Best-of-N Selection, Selector):工具调用智能体以不同的温度(0.3 到 1.0)生成 N 个候选响应。选择器智能体评估所有候选项并选择最佳的一个。这种单次选择表示为 s_N(例如,s_5 表示 5 个候选项)。

最佳-N 评分(Best-of-N Grading, Grader):与选择类似,但评分器智能体为每个候选项分配明确的数值分数(0.0-1.0)并提供理由。选择得分最高的候选项。表示为 g_N(例如,g_5)。

在报告评估结果时,我们对所有机制使用系统命名约定。例如,4o-r2-5-mini-v3-gepa 表示 GPT-4o 基础模型,最多 2 次反馈循环的渐进式反馈(r2),GPT-5 mini 反馈模型(5-mini),GEPA 提示版本 3。参见附录 A.3 (https://arxiv.org/html/2604.27233#A1.SS3) 以了解每种机制操作的具体示例。

2.2 审查员提示优化

手动为审查员智能体设计提示是一项劳动密集型工作,且可能会遗漏细微的失败模式。受 GEPA Agrawal et al. (2025 (https://arxiv.org/html/2604.27233#bib.bib8)) 的启发,该方法根据执行反馈迭代改进提示,我们通过观察审查员做出错误判断的案例来自动优化审查员提示。我们从 BFCL 的手动优化 v2 提示开始,使用推理模型进行反思迭代改进。将此优化应用于 τ²-Bench 提示是未来的工作。细节和结果出现在第 4.4.3 节 (https://arxiv.org/html/2604.27233#S4.SS4.SSS3)。

3 实验设置

3.1 基准测试

我们在两个基准测试上进行评估:BFCL(伯克利函数调用排行榜)用于单轮工具调用,τ²-Bench 用于多轮有状态场景。

3.1.1 BFCL

单轮、无状态工具调用。我们在 Non-Live(BFCL V1,精选)和 Live(BFCL V2,社区贡献)类别上进行评估 Patil et al. (2024 (https://arxiv.org/html/2604.27233#bib.bib3))。类别包括 simple、multiple、parallel 和 parallel_multiple(组合并行和串行;最难),它们共同构成相关性套件。Irrelevance 类别测试检测何时没有工具相关。

3.1.2 τ²-Bench

多轮、有状态工具调用,涵盖三个领域(航空、零售、电信)的特定领域策略。智能体必须保持对话上下文,验证状态先决条件,并处理特定于基准的约束。

3.2 模型

所有实验均使用 GPT-4o(gpt-4o-2024-11-20 快照)作为基础工具调用智能体,temperature=0 且 seed=42 以确保可复现性。初步实验使用 o3-mini 作为推理模型审查员;APO 实验使用 GPT-5 mini(发布后采用以利用最新的推理能力)。两个推理模型均使用 reasoning_effort=medium。

4 结果与分析

我们将评估围绕三个研究问题组织:

  • RQ1(有效性与错误):推理时反馈对工具调用智能体的有效性如何,相关的错误修正权衡是什么?
  • RQ2(设计与优化):反馈机制设计、审查员模型选择和自动优化如何影响审查员智能体性能?
  • RQ3(延迟与部署):在不同应用场景中,推理时反馈的延迟开销和部署权衡是什么?

我们使用标准基准指标和量化错误修正与错误引入的额外指标来回答这些问题(第 4.1 节 (https://arxiv.org/html/2604.27233#S4.SS1))。然后,我们通过评估 BFCL 和 τ²-Bench 上的有效性来回答 RQ1(第 4.2 节 (https://arxiv.org/html/2604.27233#S4.SS2)),通过比较审查员模型、反馈机制和自动提示优化来回答 RQ2(第 4.4 节 (https://arxiv.org/html/2604.27233#S4.SS4)),并通过分析延迟开销和部署权衡来回答 RQ3(第 4.5 节 (https://arxiv.org/html/2604.27233#S4.SS5))。

4.1 评估指标

我们使用每个基准的默认指标进行评估:BFCL 的每类别准确率(simple、multiple、parallel、parallel_multiple、irrelevance)和相关性套件(前四者的未加权平均值),以及 τ²-Bench 的每领域通过率(航空、零售、电信)。为了补充这些标准指标,我们引入了三个量化审查员质量和错误修正权衡的指标:

  • 有益性(Helpfulness):基础智能体错误且审查员智能体修正它的测试用例百分比。
  • 有害性(Harmfulness):基础智能体正确且审查员引入错误的测试用例百分比。
  • 收益风险比(Benefit-to-Risk Ratio):Help

相似文章

自动化智能体评估的实证研究

arXiv cs.CL

本文介绍了 EvalAgent,这是一个通过编码领域专业知识来自动化 AI 智能体评估的系统,旨在解决标准编程助手在此任务中的局限性。此外,本文还提出了用于测试评估流程的基准 AgentEvalBench,并展示了在评估可靠性方面的显著提升。

@akshay_pachaar: https://x.com/akshay_pachaar/status/2053166970166772052

X AI KOLs Timeline

The article discusses a shift in AI agent tool usage from the 'MCP vs CLI' debate to 'Code Mode,' where agents write code to dynamically import tools, significantly reducing context window usage. It highlights Anthropic's approach and Cloudflare's implementation, demonstrating a 98.7% reduction in token consumption for specific tasks.