超越函数调用:在工具环境不可靠性下对工具使用代理进行基准测试
摘要
介绍ToolBench-X,这是一个基准测试,用于评估各种工具环境可靠性隐患下的大语言模型代理,揭示了与干净环境相比性能上的显著差距。
arXiv:2606.25819v1 公告类型:新
摘要:大语言模型越来越多地被部署为代理,通过与外部工具环境交互来解决问题。尽管最近的工具使用基准测试越来越多地涵盖复杂的任务设置,但它们仍然很大程度上假设干净、稳定且可信的工具环境,导致工具环境不可靠性未被充分研究。我们提出了ToolBench-X,一个用于在可恢复的可靠性隐患下评估代理的基准测试。ToolBench-X包含跨多个领域的可执行多步任务,以及顺序、并行和混合工作流,每个任务都配有确定性工具和用于自动评估的标准最终答案。从干净的工具环境开始,ToolBench-X注入了五种结构化的隐患类型:规范漂移、调用错误、执行失败、输出漂移和跨源冲突。关键在于,每个注入的实例都至少可以通过一种有效的恢复路径(例如重试、回退、验证或交叉检查)来解决。实验揭示了显著的可靠性差距:在可靠工具上表现良好的代理通常在可恢复的隐患下失败。进一步分析表明,失败更多是由于有限的隐患诊断和无效的恢复,而非工具使用量或推理预算。有针对性的恢复提示可以恢复许多失败的任务,而测试时扩展带来的收益有限。这些结果表明,工具使用评估应从函数调用准确性转向在不可靠工具环境下的任务完成。代码和数据可在 https://github.com/Foreverskyou/ToolBench-X 获取。
查看缓存全文
缓存时间: 2026/06/25 05:13
# 超越函数调用:在工具环境不可靠性下对使用工具的智能体进行基准测试 来源:https://arxiv.org/abs/2606.25819 查看PDF (https://arxiv.org/pdf/2606.25819) > 摘要:大语言模型越来越多地被部署为通过外部工具环境交互来执行任务的智能体。尽管近期工具使用基准测试越来越多地覆盖复杂任务场景,但它们大多仍假设工具环境是干净、稳定且可信的,导致工具环境不可靠性的测试严重不足。我们引入ToolBench-X,一个用于在可恢复的可靠性风险下评估智能体的基准测试。ToolBench-X包含跨多个领域的可执行多步任务,涵盖顺序、并行和混合工作流,每个任务都配有确定性工具和标准最终答案以实现自动评估。从干净工具环境出发,ToolBench-X注入了五种结构化风险类型:规范漂移、调用错误、执行失败、输出漂移和跨源冲突。关键在于,每个注入的实例仍至少有一条有效的恢复路径(如重试、回退、验证或交叉检查)可以解决。实验揭示了显著的可靠性差距:在可靠工具上表现良好的智能体在可恢复风险面前往往失败。进一步分析表明,失败更多地源于有限的风险诊断和无效恢复,而非工具使用量或推理预算。针对性的恢复提示可以挽救许多失败任务,而测试时缩放带来的收益则相对有限。这些结果表明,工具使用评估应从函数调用准确性转向在不可靠工具环境下的任务完成度。代码和数据可从此HTTPS链接获取(https://github.com/Foreverskyou/ToolBench-X)。 ## 提交历史 来自:杨天 [查看邮箱(https://arxiv.org/show-email/2e4e1311/2606.25819)] **【v1】** 2026年6月24日星期三 13:34:34 UTC(8,775 KB)
相似文章
当工具失灵:LLM智能体动态重新规划与异常恢复的基准测试
ToolMaze基准测试评估了LLM智能体处理真实世界工具故障的能力,揭示了隐式语义故障导致的性能下降最为显著,而动态重新规划仍是模型扩展或提示工程无法解决的关键瓶颈。
TOBench:面向真实世界工具使用智能体的任务导向全模态基准
TOBench是一个新的基准测试,用于评估AI智能体在真实世界、任务导向的工具使用中的表现,涉及多模态输入和闭环验证。实验表明,像Qwen 3.5 Plus这样的顶级模型仅达到41%的成功率,远低于94%的人类基准,凸显了显著的差距。
GTA-2:从原子工具使用到开放式工作流的通用工具Agent基准测试
GTA-2 引入了一个分层基准,用于评估通用工具Agent在原子工具使用和开放式工作流中的表现,揭示了显著的能力鸿沟:前沿模型在复杂任务上仅取得14.39%的成功率,尽管在原子任务上表现尚可。
Agent-ValueBench:一个评估智能体价值观的综合基准
本文提出了 Agent-ValueBench,这是一个旨在评估自主智能体价值观的综合基准,揭示了智能体的价值观与其底层语言模型存在分歧。
AJ-Bench:面向环境感知评估的 Agent-as-a-Judge 评测基准
AJ-Bench 提出一套评测基准,用于衡量 Agent-as-a-Judge 系统通过与环境交互来验证智能体行为的能力,覆盖搜索、数据系统与 GUI 领域的 155 项任务。