MAVEN：提升智能体工具调用的泛化能力

arXiv cs.AI 2026/06/01 04:00 论文

摘要

MAVEN 是一种轻量级符号推理框架，通过模块化验证和自适应工具编排，提升了智能体工具调用的泛化能力。它在新的压力测试基准 MAVEN-Bench 上取得了显著的准确率提升，并且以极低的成本与专有模型保持竞争力。

arXiv:2605.30738v1 公告类型：新论文摘要：跨智能体工具调用环境的泛化仍然是可靠智能体推理系统的核心挑战。尽管大型语言模型在单个基准测试上取得了强劲结果，但它们在组合推理策略、保留中间状态以及跨域协调工具方面的能力仍未得到充分探索。我们提出了 MAVEN（模块化智能体验证与执行网络），这是一种轻量级符号推理框架，用于结构化分解、自适应工具编排和中间验证。我们在包括 BFCL v3、TauBench、Tau2Bench、AceBench 在内的已有工具调用基准上评估了 MAVEN，并引入了 MAVEN-Bench，这是一个针对多步骤数学和物理推理的压力测试基准，包含显式验证和对抗性任务组合。MAVEN-Bench 暴露了部分推理质量与端到端任务成功之间的显著差距；在直接运行 MAVEN-Bench 时，MAVEN 在无需额外训练的情况下，将其 GPT-OSS-120b 基础模型的准确率从 48% 提升至 71%。同时，它使用一个开放权重的骨干模型，估计成本约为十分之一，仍能与前沿专有基线模型保持竞争力，这表明以验证为中心的轻量级框架能够增强组合推理，并推动对实际智能体进行更多面向过程的评估。

查看原文

查看缓存全文

缓存时间: 2026/06/01 09:24

# MAVEN：提升智能体工具调用中的泛化能力
来源：https://arxiv.org/html/2605.30738

###### 摘要

在智能体工具调用环境中的泛化能力仍然是可靠智能体推理系统的核心挑战。尽管大型语言模型在个别基准测试上取得了强劲结果，但其在组合推理策略、保留中间状态以及跨域协调工具方面的能力仍有待探索。我们提出MAVEN（模块化智能体验证与执行网络），这是一种轻量级符号推理框架，用于结构化分解、自适应工具编排和中间验证。我们在多个已建立的工具调用基准上评估MAVEN，包括BFCL v3、TauBench、Tau2Bench、AceBench，并引入MAVEN-Bench，这是一个用于多步骤数学和物理推理的压力测试基准，具有显式验证和对抗性任务组合。MAVEN-Bench揭示了部分推理质量与端到端任务成功率之间的显著差距；在直接的MAVEN-Bench运行中，MAVEN将其GPT-OSS-120b基础模型从48%的准确率提升至71%，无需额外训练。此外，它在使用开源骨干网络（估计成本比例约为1/10）的同时，仍与前沿闭源基线保持竞争力，这表明轻量级以验证为中心的框架可以增强组合推理能力，并激励对现实世界中的智能体进行更注重过程的评估。

机器学习，ICML

1CoreThink AI, 美国 2斯坦福大学, 斯坦福, CA, 美国

见标题下方图1：系统通过三个阶段处理对话输入：上下文缓冲提取并结构化相关信息，动作合成生成原子、可测试的任务并处理提前终止和缺失前提，调用生成产生机器可解释且可审计的动作，保持推理与执行分离。

## 1 引言

大型语言模型（LLMs）越来越多地被用作自主“智能体”系统的基础，这些系统负责规划、推理并与外部工具交互。在模型必须将用户请求分解为中间步骤、选择合适的工具、按正确顺序执行这些工具以及在生成最终答案前验证部分结果的领域，这些系统非常有用。然而，许多当前的智能体系统在长程设定中仍然脆弱。这种设定可以理解为组合推理问题，其中智能体必须通过组合可复用工具和中间表示来构建解决方案。

评估这些行为需要衡量最终答案正确性之外的基准。现有数据集如BFCL v3、TauBench、Tau2Bench和AceBench评估了函数调用、交互式工具使用和智能体任务完成的重要方面（Patil et al., 2025 (https://arxiv.org/html/2605.30738#bib.bib1); Yao et al., 2024 (https://arxiv.org/html/2605.30738#bib.bib2); Barres et al., 2025 (https://arxiv.org/html/2605.30738#bib.bib3); Chen et al., 2025 (https://arxiv.org/html/2605.30738#bib.bib4)）。然而，在固定基准套件上的强劲性能并不一定意味着在新任务结构下的稳健推理。模型可能适应特定于数据集的格式、工具模式或交互模式，这与更广泛的基准鲁棒性问题相关（Lunardi et al., 2025 (https://arxiv.org/html/2605.30738#bib.bib15)）。这激励了强调过程保真度、中间状态管理和显式验证的评估设置。

为了研究这些问题，我们引入了MAVEN-Bench，这是一个用于多步骤科学推理与外部工具的基准。MAVEN-Bench专注于参数化数学和物理问题，需要符号、数值和面向验证的工具调用。每个实例旨在测试智能体是否能够保留中间状态、选择合适的工具、处理对抗性参数设置并验证自身计算。

我们还引入了MAVEN（模块化智能体验证与执行网络），一个框架化的推理层，鼓励结构化分解、显式中间验证和自适应工具编排。我们主要在GPT-OSS-120b之上实例化MAVEN，并将其与GPT-OSS-120b基础模型进行比较。

我们做出三项贡献。首先，我们引入MAVEN-Bench，一个面向过程的工具增强数学和物理推理基准。其次，我们提供记录工具轨迹、中间产物和验证行为的评估协议。第三，我们评估MAVEN，并展示推理框架相比基础模型提升了性能，特别是在需要长程分解和中间验证的任务上。

## 2 相关工作

伯克利函数调用排行榜（BFCL）v3评估大型语言模型（LLMs）在多轮、多步骤设定中调用外部函数的能力，并带有显式状态追踪（Patil et al., 2025 (https://arxiv.org/html/2605.30738#bib.bib1)）。该基准通过纳入长上下文推理和缺失函数场景来扩展先前版本。然而，其对基于抽象语法树（AST）评估的依赖可能无法完全捕捉真实世界工具使用中的语义正确性（Ma et al., 2023 (https://arxiv.org/html/2605.30738#bib.bib12); Rabinovich and Tavor, 2025 (https://arxiv.org/html/2605.30738#bib.bib14); Ni et al., 2025 (https://arxiv.org/html/2605.30738#bib.bib13)）。τ-Bench通过模拟用户-智能体对话在领域特定约束下建模交互式工具使用，评估零售和航空领域的任务完成和政策遵守（Yao et al., 2024 (https://arxiv.org/html/2605.30738#bib.bib2)）。虽然它捕捉了结构化交互模式，但对有限领域的依赖限制了其反映真实世界变异性的能力，并限制了对跨域泛化的评估（Ni et al., 2025 (https://arxiv.org/html/2605.30738#bib.bib13); Yao et al., 2022 (https://arxiv.org/html/2605.30738#bib.bib17)）。τ²-Bench通过引入双控制环境扩展了τ-Bench，其中智能体和用户都在共享状态内交互，从而能够在更现实的环境中评估协调和通信（Barres et al., 2025 (https://arxiv.org/html/2605.30738#bib.bib3)）。尽管交互保真度有所提高，但增加的复杂性引入了性能归因的模糊性并降低了评估一致性，特别是在异构任务设置中（Ni et al., 2025 (https://arxiv.org/html/2605.30738#bib.bib13); Shinn et al., 2023 (https://arxiv.org/html/2605.30738#bib.bib18)）。ACEBench通过将任务分类为正常、特殊和智能体设置来提供函数调用行为的细粒度评估，实现对参数级正确性和多步骤执行的详细分析（Chen et al., 2025 (https://arxiv.org/html/2605.30738#bib.bib4)）。然而，其对基于LLM评估或真实API执行的依赖引入了计算开销和可扩展性约束，并且其预定义类别可能无法完全捕捉真实世界工具使用场景的多样性（Ni et al., 2025 (https://arxiv.org/html/2605.30738#bib.bib13); Qin et al., 2023 (https://arxiv.org/html/2605.30738#bib.bib19)）。

## 3 方法

算法1 MAVEN结构化工具使用流程
1: 输入：查询q，工具T，环境E
2: 初始化缓冲区B ← Buffer(q)
3: while 未产生完成信号 do
4: 生成子任务 a_i ← Synthesize(B, q)
5: if a_i 为空或缺少前提条件 then
6: break
7: end if
8: 选择工具 t_i ∈ T 并构建调用 u_i
9: 在 E 中执行 u_i
10: 将输出、诊断信息、来源和验证结果存储到 B
11: if 验证失败 then
12: 使用 B 修正 a_i 或 u_i
13: end if
14: end while
15: 返回最终答案和审计轨迹

MAVEN（图1 (https://arxiv.org/html/2605.30738#S0.F1)；算法1 (https://arxiv.org/html/2605.30738#alg1)）将对话上下文转换为结构化、可验证的动作，同时可选地生成可执行调用，明确强调最小化不安全副作用并保持可审计性。该方法遵循三阶段流水线。首先，在上下文缓冲阶段，系统从输入对话中提取并组织相关信息，形成紧凑、短期的表示，保留重要事实和下游处理所需的任何中间推理。其次，在动作合成阶段，缓冲表示用于生成与用户目标一致的原子且可测试的任务描述；此阶段包含有界细化过程以确保正确性和清晰性，同时避免不必要的迭代，并在无需进一步操作时支持提前终止。最后，在调用生成阶段，一旦满足所有前提条件，系统生成与执行环境兼容的机器可解释动作；通过明确分离推理与执行，系统降低了意外副作用的可能性，同时保留紧凑的审计产物以支持验证、人工检查和事后分析。这种分阶段设计确保了可靠性与计算效率之间的平衡。

见标题下方图2：MAVEN-Bench评估设置的示意图。用户提供多步骤数学或物理问题；智能体编排对外部工具（例如solve_equation、integrate、matrix_determinant、linear_regression）的调用，在每个步骤验证中间结果，并汇总这些结果以产生最终解决方案。右侧：示例MAVEN-Bench轨迹，显示顺序逐步工具调用及中间验证和聚合。

## 4 基准

MAVEN-Bench（图2 (https://arxiv.org/html/2605.30738#S3.F2)）是一个评估生态系统，旨在衡量使用工具的智能体进行扩展、可验证的科学问题求解的能力。该基准聚焦于三个相互关联的能力：对多种专业计算工具的可靠编排、对中间状态的严谨保留与检查，以及对中间结果的显式验证，共同产生可重复的最终结果。与可能鼓励死记硬背模式匹配或单步检索的短问题语料库不同，MAVEN-Bench针对代表科学工作流程的持续推理链，其中诊断意识至关重要。MAVEN-Bench在仅凭最终答案正确性不足的压力测试条件下评估智能体的多步推理任务。它强调跨扩展解决方案轨迹的符号、数值和工具增强推理，不仅衡量智能体输出什么，还衡量其保留状态、处理边缘情况和验证结果的可靠性。

步骤1：工具调用与持久化
[⬇](data:text/plain;base64,UE9TVCAvbWNwL2NhbGwKQm9keTogewogICJwcm9ibGVtX2lkIjogIk1BVkVOLUJlbmNoLTAwMDEiLAogICJzdGVwX2lkIjogInN0ZXAtMDEiLAogICJ0b29sX2lkIjogInN5bWJvbGljX2RpZmYiLAogICJpbnB1dCI6IHsgImV4cHIiOiAiQSp0XjMgLSBCKnReMiArIEMqdCIsICJ3cnQiOiAidCIgfSwKICAicGVyc2lzdCI6IHRydWUKfQpSZXNwb25zZTogewogICJvayI6IHRydWUsCiAgInJlc3VsdF9pZCI6ICJNQVZFTi1CZW5jaC0wMDAxLXN0ZXAtMDEtcmVzdWx0IiwKICAib3V0cHV0IjogeyAiZXhwciI6ICIzKkEqdF4yIC0gMipCKnQgKyBDIiB9LAogICJkaWFnbm9zdGljcyI6IHsgInR5cGUiOiAic3ltYm9saWMiLCAic2ltcGxpZmllZCI6IHRydWUgfQp9)POST/mcp/call Body: {"problem_id":"MAVEN-Bench-0001","step_id":"step-01","tool_id":"symbolic_diff","input": {"expr":"A*t^3 - B*t^2 + C*t", "wrt":"t"}, "persist":true} Response: {"ok":true,"result_id":"MAVEN-Bench-0001-step-01-result","output": {"expr":"3*A*t^2 - 2*B*t + C"}, "diagnostics": {"type":"symbolic", "simplified":true}}

步骤2：查询持久化状态
[⬇](data:text/plain;base64,UE9TVCAvbWNwLXNlcnZlci9tY3AKQm9keTogewogICJwcm9ibGVtX2lkIjogIk1BVkVOLUJlbmNoLTAwMDEiLAogICJxdWVyeSI6IHsgImZyb21fc3RlcCI6ICJzdGVwLTAxIiwgImZpZWxkcyI6IFsib3V0cHV0LmV4cHIiXSB9Cn0KUmVzcG9uc2U6IHsKICAib2siOiB0cnVlLAogICJtYXRjaGVzIjogWwogICAgeyAicmVzdWx0X2lkIjogIk1BVkVOLUJlbmNoLTAwMDEtc3RlcC0wMS1yZXN1bHQiLAogICAgICAib3V0cHV0IjogeyAiZXhwciI6ICIzKkEqdF4yIC0gMipCKnQgKyBDIiB9IH0KICBdCn0=)POST/mcp-server/mcp Body: {"problem_id":"MAVEN-Bench-0001","query": {"from_step":"step-01","fields":["output.expr"]}} Response: {"ok":true,"matches":[{"result_id":"MAVEN-Bench-0001-step-01-result","output":{"expr":"3*A*t^2 - 2*B*t + C"}}]}

图3：最小MCP交互示例，说明工具调用、中间结果持久化及用于下游推理的检索。

### 4.1 数据集组成与参数化实例化

MAVEN-Bench的核心语料库包含一百个经典问题模板，来自微积分、代数、线性代数、经典力学、热力学、电磁学和应用数学。每个模板都经过参数化，使得具体实例在数值区间、代数形式和验证要求上有所不同；微小的参数变化可能导致病态问题、近乎退化的驻点或多个代数分支。这种设计通过要求健壮的工具选择、条件感知计算和跨实例的显式验证，提高了泛化的门槛。

### 4.2 模型上下文协议（MCP）与持久化状态

MAVEN-Bench的一个定义性组件（图3 (https://arxiv.org/html/2605.30738#S4.F3)）是模型上下文协议（MCP），这是一个协议和参考实现，形式化了智能体如何持久化、查询和推理中间结果。MCP将中间产物视为一等公民：符号表达式、带单位的数值、求解器诊断信息和来源元数据都存储在显式的步骤标识符下，并可供后续检索。这种持久化模型支持那些否则很难孤立研究的实验性问题：智能体应该多久重新计算一次与重用持久化结果相比？哪种形式的中间表示能改善下游稳定性？显式的来源信息如何辅助自动验证？基准产物、MCP服务器和客户端示例将在接受后发布，以支持可重复评估，同时保持审阅过程的匿名性。

### 4.3 构建与验证流水线

MAVEN-Bench中的问题通过一个结合了人类专业知识和自动验证的多阶段流水线生成。领域专家起草需要多概念推理的种子问题，并识别出代表安全解决策略的经典工具路径。然后通过注入干扰项、创建挑战数值稳定性的参数区间以及排列代数形式以产生替代但有效的解分支，对这些种子进行对抗性增强。经典轨迹——工具调用序列及预期的中间输出——在MCP沙盒中执行以生成地面真实产物。随后进行自动扰动测试，通过改变求解器容差、输入扰动和顺序排列来运行经典路径，确保参考答案和验证检查点在合理变化下保持稳定。最后，独立人类审阅者审计经典轨迹和验证框架，确保记录的轨迹捕捉到有意义、与领域相关的推理步骤，而非人工产物。

### 4.4 注释、诊断与失败模式披露

每个MAVEN-Bench实例都附带注释，包括带注释的经典轨迹、用于自动化验证的工具模式、明确的失败模式目录以及诊断元数据。注释捕获以下维度：步骤间的推理依赖性、替代但正确的工具选择、易被忽略的常见错误模式（例如，混淆积分与导数）、以及未能检测到中间结果不一致的情况。这种详细的失败模式目录允许研究人员对错误进行分类，区分由工具选择、状态管理或验证本身导致的故障。因此，MAVEN-Bench不仅提供了一个基准分数，还提供了一个诊断框架，用于理解智能体在还原条件下如何以及为何失败。

MAVEN：提升智能体工具调用的泛化能力

相似文章

MAI-Thinking-1

它是否具备足够的代理能力？使用你自己的工具对开放模型进行基准测试

AgentV-RL：用智能体验证器扩展奖励建模

VAKRA 深度解析：智能体的推理、工具使用与失效模式

面向ARC-AGI-1的抽象推理与泛化的经济型智能体框架

提交意见反馈