关于智能工具调用与强化学习训练的效果与效率

arXiv cs.LG 2026/06/02 04:00 论文

摘要

本文系统分析了工具调用评估对随机种子、多轮模板等微小实现选择的敏感性，揭示这些因素可能导致性能大幅变化。同时，识别了基于强化学习的工具调用训练中的计算浪费来源，并介绍了在不牺牲性能的情况下加速训练的技术。

arXiv:2606.00135v1 Announce Type: new 摘要：工具调用是现代大语言模型（LLM）智能体的核心组成部分，使其具备超越参数知识的能力。本文从两个互补维度研究工具调用：效果，即如何衡量该能力；效率，即如何学习该能力。在效果方面，我们系统分析了工具调用评估流程，并表明结果可能对看似微小且通常未文档化的实现选择（包括随机种子、系统提示、多轮模板构建以及先前交互/推理历史的传递方式）高度敏感。这些选择可能导致报告性能出现显著差异，尤其是在多轮场景中，如果没有严格的标准化，排行榜排名将不可靠。在效率方面，我们检查了用于工具调用的标准强化学习（RL），并识别出两个计算浪费来源：（i）在 rollout 过程中，许多 prompt 不产生学习信号；（ii）在策略更新过程中，优化带来高计算成本。基于这些发现，我们引入了两种加速基于 RL 的工具调用训练的技术，在不降低性能的情况下实现了显著的挂钟时间加速。

查看原文

查看缓存全文

缓存时间: 2026/06/02 15:39

# 关于智能体工具调用与RL训练的有效性与效率 来源：https://arxiv.org/html/2606.00135

Cheng Qian Matej Cief Yuan He Daniele Dan Nikolaos Aletras\* Gabriella Kazai

###### 摘要

工具调用是现代大型语言模型（LLM）智能体的核心组件，为其赋予超出参数知识范围的技能。本文从两个互补的维度研究工具调用：**有效性**，即如何衡量这一能力；以及**效率**，即如何学习这一能力。在有效性方面，我们系统性地分析了工具调用评估流程，并表明结果可能对看似微小且通常未文档化的实现选择高度敏感，包括随机种子、系统提示、多轮模板构建以及先前交互/推理历史的传递方式。这些选择可能导致报告性能出现显著差异，尤其是在多轮设置中，若缺乏严格的标准化，排行榜排名将不可靠。在效率方面，我们研究了用于工具调用的标准强化学习（RL），并识别出两个计算浪费的来源：(i) 在展开阶段，许多提示不产生学习信号；(ii) 在策略更新阶段，优化带来了高计算成本。基于这些发现，我们引入了两种加速基于RL的工具调用训练的技术，在不降低性能的情况下实现了显著的挂钟时间加速。

机器学习，ICML

## 1 引言

*工具调用*（或称函数调用）已成为LLM智能体近期进步的核心（OpenAI, 2025 (https://arxiv.org/html/2606.00135#bib.bib19); Anthropic, 2025b (https://arxiv.org/html/2606.00135#bib.bib15); Deepmind, 2025 (https://arxiv.org/html/2606.00135#bib.bib20); xAI, 2025 (https://arxiv.org/html/2606.00135#bib.bib21); Meta, 2025 (https://arxiv.org/html/2606.00135#bib.bib22)）。通过调用API等方式与外部资源交互，智能体可以执行那些仅依靠LLM参数化知识难以或无法解决的任务。因此，社区已采用标准化的工具调用基准，如BFCL（Patil et al., 2025 (https://arxiv.org/html/2606.00135#bib.bib5)）和Tau系列（Barres et al., 2025 (https://arxiv.org/html/2606.00135#bib.bib23); Shi et al., 2026 (https://arxiv.org/html/2606.00135#bib.bib60)），以及强化学习（RL）等后训练方法来提高工具调用的准确性和鲁棒性。

然而，智能体工具调用的**有效性**的可靠性取决于用于衡量它的评估方法，而评估质量仍然是一个关键但未被充分研究的问题。当基准结果不可靠时，该领域可能追逐表面上的提升，而忽略了真正有前景的方法（Dehghani et al., 2021 (https://arxiv.org/html/2606.00135#bib.bib24); Henderson et al., 2018 (https://arxiv.org/html/2606.00135#bib.bib25); Liao et al., 2021 (https://arxiv.org/html/2606.00135#bib.bib26)）。虽然可重复性和基准敏感性已在基础模型的其他领域得到研究（Reuel et al., 2024 (https://arxiv.org/html/2606.00135#bib.bib27); Biderman et al., 2024 (https://arxiv.org/html/2606.00135#bib.bib28); Hochlehnert et al., 2025 (https://arxiv.org/html/2606.00135#bib.bib29)），但对工具调用的此类分析尚属空白。因此，我们广泛审视了支撑智能体工具调用有效性的评估流程。以BFCL（Patil et al., 2025 (https://arxiv.org/html/2606.00135#bib.bib5)）基准为例，我们表明报告的工具调用性能可能会因看似微小且通常未文档化的选择而发生显著波动，包括随机种子、多轮模板、历史处理以及训练数据的影响。除非谨慎控制，否则这种敏感性会严重妨碍有意义的比较。

在审视了脆弱的评估如何扭曲衡量出的有效性之后，我们转向**效率**：获取工具调用能力的计算成本。特别是，我们识别出基于RL的工具调用训练中的主要效率瓶颈。对于常见的RL算法，如PPO（Schulman et al., 2017 (https://arxiv.org/html/2606.00135#bib.bib31)）和GRPO（Shao et al., 2024 (https://arxiv.org/html/2606.00135#bib.bib30)），训练通常交替进行 (i) **展开生成**，策略为每个提示采样工具调用轨迹，以及 (ii) **策略更新**，在收集的展开上优化模型。我们发现这两个阶段都异常低效：高达80%的提示产生的展开不会产生梯度信号，而更新阶段可能主导挂钟时间，其计算成本是展开生成的3–5倍。为了减少这两个阶段的开销，我们提出了两种简单但极其有效的加速方法。(1) **在线预展开过滤**：在生成展开之前，跳过那些在过去k个轮次中所有展开都完全正确的提示，避免冗余采样。虽然类似的想法已在数学推理中探索过（Zheng et al., 2025 (https://arxiv.org/html/2606.00135#bib.bib33)），但我们发现对于工具调用，仅排除连续正确一到两个轮次的提示就已经有效（图5 (https://arxiv.org/html/2606.00135#S4.F5)）。(2) **方差感知的展开降采样**：鉴于工具调用中更新成本高昂（图6 (https://arxiv.org/html/2606.00135#S4.F6)），我们采用了Xu等人（2025 (https://arxiv.org/html/2606.00135#bib.bib12)）的展开降采样策略：仅使用生成的展开子集更新策略，该子集通过最大化奖励方差来选择，从而大幅减少策略更新的计算量。

我们的贡献总结如下：

- **有效性**：我们以BFCL为例，系统性地研究了智能体工具调用评估。我们表明评估流程中的微小差异可能导致性能的巨大差异，使可重复性和跨论文比较复杂化。
- **效率**：我们识别出基于RL的工具调用训练中的两个主要低效环节，并提出了两种有效技术，在实现显著的整体挂钟时间加速的同时，不牺牲最终性能。

#### 利益冲突披露。作者受雇于亚马逊，该公司开发了本文评估的模型之一Nova-1。

## 2 预备知识

### 2.1 任务形式化

对于工具调用任务i，设x_{i,1}表示初始用户查询，T_i = {t_{i,1}, ..., t_{i,m}}表示相应的可用工具。我们将任务特定的系统提示定义为 sys_i := (sys, T_i)，其中sys是共享的系统提示，T_i编码工具模式。给定k轮的多轮对话，我们将轨迹前缀表示为一个有序序列：

 s_{i,k} = ⟨ sys_i, (x_{i,1}, y_{i,1}, o_{i,1}), ..., (x_{i,k}, y_{i,k}, o_{i,k}) ⟩, (1)

其中x_{i,h}、y_{i,h}和o_{i,h}分别是第h轮的用户查询、模型响应和环境观察（例如，工具输出）。响应y_{i,h}可能调用工具的子集T_{i,h} ⊆ T_i。根据对话内容，x_{i,h}和o_{i,h}可能不存在。工具调用的目标是生成合适的y_{i,h}，在需要时正确调用工具，并有效响应用户查询。

### 2.2 RL形式化

在GRPO下，给定s_{i,k}，策略π_θ采样n个展开{y_{i,k+1,1}, ..., y_{i,k+1,n}}，并接收验证后的奖励{r_{i,k+1,1}, ..., r_{i,k+1,n}}。经过组标准化后，展开j的优势函数为：

 A_{i,k+1,j} = (r_{i,k+1,j} - \bar{r}_{i,k+1}) / σ_{i,k+1}, (2)

其中\bar{r}_{i,k+1}和σ_{i,k+1}是组内的均值和标准差。A_{i,k+1,j}参与关于样本s_{i,k}的目标函数的梯度。目标函数可以写为：

 L_GRPO(θ) = E_{(s_{i,k}, y_{i,k+1,j}) ∼ (D, π_θ)} [ min( ρ_{i,k+1,j} A_{i,k+1,j}, clip(ρ_{i,k+1,j}, 1-ε, 1+ε) A_{i,k+1,j} ) ], (3)

其中ρ_{i,k+1,j} = π_θ(y_{i,k+1,j} | s_{i,k}) / π_old(y_{i,k+1,j} | s_{i,k})是当前策略与旧策略的概率比。关键的是，当组内所有展开获得相同的奖励时，对于所有j，A_{i,k+1,j} = 0，导致梯度贡献为零。我们将此类提示称为**零方差提示**。

### 2.3 实验设置

#### 模型、数据集和超参数。

在有效性方面，我们运行五个常用模型：三个Qwen系列模型（Qwen3-4B、Qwen3-8B、Qwen2.5-7B-Instruct）和两个Llama系列模型（Llama3.1-8B-Instruct、Llama3.2-3B-Instruct）。在训练部分，我们在两种代表性设置下进行训练：Qwen2.5-3B-Instruct用于单轮工具调用，Qwen3-4B（Yang et al., 2025 (https://arxiv.org/html/2606.00135#bib.bib32)）用于多轮工具调用。更多模型细节请参见附录C (https://arxiv.org/html/2606.00135#A3)。我们的单轮训练集来自xLAM（Zhang et al., 2025a (https://arxiv.org/html/2606.00135#bib.bib8)）和ToolACE（Liu et al., 2024 (https://arxiv.org/html/2606.00135#bib.bib6)）的一个子集，遵循Zhang等人（2025c (https://arxiv.org/html/2606.00135#bib.bib2)）的预处理步骤，并增加了基于策略的过滤器以移除过易或过难的提示。我们的多轮训练集来自Zhang等人（2025b (https://arxiv.org/html/2606.00135#bib.bib14)），并经过进一步的提取、清理和过滤。数据集统计信息见表1 (https://arxiv.org/html/2606.00135#S2.T1)，完整的预处理细节见附录D (https://arxiv.org/html/2606.00135#A4)。所有RL实验均在VERL框架（Sheng et al., 2024 (https://arxiv.org/html/2606.00135#bib.bib11)）中实现。训练的超参数参见附录F (https://arxiv.org/html/2606.00135#A6)。

表 1：单轮和多轮数据统计。

#### 基准和评估

我们在第3节 (https://arxiv.org/html/2606.00135#S3)中使用BFCL基准评估模型的工具调用性能。BFCL是一个广泛使用的基准，涵盖多种API。它主要包括单轮非实时（合成生成的单轮数据）、单轮实时（真实用户贡献的单轮数据）和多轮任务。在第4节 (https://arxiv.org/html/2606.00135#S4)中，我们还会报告在ACEBench（Chen et al., 2025 (https://arxiv.org/html/2606.00135#bib.bib55)）上的评估结果，重点关注所有类别中的英文数据。我们使用Claude 4作为评估过程中的用户模拟器。我们观察到偶尔的角色漂移（类似助手的回复），因此在模拟器指令中附加了一个约束句子：“你必须以用户身份回复，而不是以助手身份”。我们与闭源基线（Claude Sonnet 4 (Anthropic, 2025a (https://arxiv.org/html/2606.00135#bib.bib16))、Nova 1 Lite/Pro (Amazon Artificial General Intelligence, 2024 (https://arxiv.org/html/2606.00135#bib.bib17))）和开源模型（Gemma3-Instruct 27B (Team et al., 2025 (https://arxiv.org/html/2606.00135#bib.bib57))、Magistral-Small-2509 24B (MistralAI, 2025 (https://arxiv.org/html/2606.00135#bib.bib18))）进行比较。

## 3 显微镜下的有效性：工具调用评估有多脆弱？

工具调用基准被广泛用于量化智能体的**有效性**，然而评估流程本身引入了许多未经检验的自由度。我们以BFCL（Patil et al., 2025 (https://arxiv.org/html/2606.00135#bib.bib5)）为例，研究看似无害的实现选择是否会显著改变报告的性能，尤其是在多轮设置中，微小的偏差会随着轮次累积。这里的目的不是“优化”基准分数，而是识别出必须被控制（或至少报告）的**敏感点**，以便进行有意义的比较。在我们的研究中，我们考虑了随机种子、多轮模板构建、推理历史、系统提示以及训练数据的影响。

### 3.1 随机种子方差

先前的工作表明，深度RL算法对随机种子高度敏感（Henderson et al., 2018 (https://arxiv.org/html/2606.00135#bib.bib25); Chan et al., 2019 (https://arxiv.org/html/2606.00135#bib.bib52); Colas et al., 2018 (https://arxiv.org/html/2606.00135#bib.bib54)）。然而，在工具调用文献中，这一因素经常被忽视，通常只报告单次运行的结果（例如，xAI (2025 (https://arxiv.org/html/2606.00135#bib.bib21)); Yang et al. (2025 (https://arxiv.org/html/2606.00135#bib.bib32)); Qian et al. (2025 (https://arxiv.org/html/2606.00135#bib.bib3)); Zhang et al. (2025c (https://arxiv.org/html/2606.00135#bib.bib2))）。具体来说，我们通过在5个常用模型（即Qwen系列和Llama系列模型）上，在10个不同随机种子下运行BFCL（Patil et al., 2025 (https://arxiv.org/html/2606.00135#bib.bib5)）评估来进行研究。图1 (https://arxiv.org/html/2606.00135#S3.F1)总结了结果：单轮性能相对稳定，但多轮场景表现出明显更高的方差：早期的随机差异可能会改变后续的工具调用，并将交互推向分叉的轨迹。

**要点 3.1** 单轮BFCL在不同随机种子下基本稳定，但多轮评估对种子明显更敏感（偏差高达~3%），因为早期的小偏差会随着轮次累积。此后，除非另有说明，我们报告三个随机种子的BFCL结果平均值。

另见图示
另见图示
另见图示

图 1: 在BFCL上跨十个不同随机种子的工具调用性能。

### 3.2 多轮模板方差：原生 vs. 上下文

第二个经常未被充分记录的因素是多轮模板的构建。如图2 (https://arxiv.org/html/2606.00135#S3.F2)所示，“原生”方法将历史表示为角色-内容消息，随后由官方聊天模板格式化，而“上下文”方法则将整个对话历史（包括中间推理和工具输入输出）注入到单个用户轮次中，如一些先前工作所做的那样（例如，Qian et al. (2025 (https://arxiv.org/html/2606.00135#bib.bib3))）。尽管这两种选择表面上相似（因为它们传达了相同的信息），但它们引发了不同的格式化和分词，因此导致不同的行为。图3 (https://arxiv.org/html/2606.00135#S3.F3)左侧显示，在三个模型（Qwen3-8B、Qwen3-4B和Qwen2.5-7B-Instruct）上，使用原生多轮模板相比上下文模板一致地提升了~6–8%。这突出了一个关键含义：多轮工具调用准确性不仅是模型的性质，还取决于**交互历史的构造方式**。

相似文章

使用 Prime-RL 后训练构建快速准确的智能体（22 分钟阅读）

TLDR AI

Ramp 介绍了一项案例研究，利用强化学习后训练构建了 Fast Ask，这是一种专门的电子表格检索智能体，与通用模型相比，它提高了准确性并降低了延迟。

@omarsar0: 苹果的一篇很棒的论文。大多数对工具调用智能体的评估都发生在轨迹结束之后。但那时错误的调用早已发出。这篇新论文将评估移入执行循环中。一个专门的审稿智能体在执行前检查每个临时工具调用。如果有问题，它注入反馈，主智能体进行修正。为了量化修正与新错误之间的权衡，他们提出了“有益性-有害性”指标。有益性衡量基础错误被修复的百分比；有害性衡量因审稿而降低正确调用质量的比例。在 BFCL 上的结果：无关检测准确率提升 5.5%（从 84.9% 到 90.4%），相关检测提升 1.6%，且无需重新训练基础智能体。在 τ²-Bench 多轮任务上提升 7.1%（从 48.7% 到 55.8%）。推理模型审稿者比 GPT-4o 获得 3:1 的收益风险比，而 GPT-4o 为 2.1:1。加入 GEPA 提示优化可再提升 1.5–2.8%。为什么这很重要？你可以保持基础工具调用智能体不变，仅通过改进审稿者即可实现显著的准确性提升。对审稿者的模型选择和提示优化成为独立的生产杠杆。论文链接：https://arxiv.org/abs/2604.27233 在我们的学院学习如何构建高效的 AI 智能体：https://academy.dair.ai

X AI KOLs Timeline

这篇来自苹果的研究论文介绍了“强化智能体”（Reinforced Agent）方法，通过使用专门的审稿智能体在实时执行过程中修正工具调用错误，将评估纳入执行循环。它在 BFCL 和 τ²-Bench 等基准测试上展示了显著的准确性提升，而无需重新训练基础智能体。

关于智能工具调用与强化学习训练的效果与效率

相似文章

使用 Prime-RL 后训练构建快速准确的智能体（22 分钟阅读）

大多数 AI Agent 评估完全忽视了执行效率

关注工具故障：实现医疗代理的协同工具增益

当我最终对智能体的工具调用进行监控时，成本分解让我感到惊讶。几点经验教训。

提交意见反馈