超越函数调用：在工具环境不可靠性下对工具使用代理进行基准测试

arXiv cs.CL 2026/06/25 04:00 论文

tool-use benchmarks agents reliability hazards llm-agents evaluation

摘要

介绍ToolBench-X，这是一个基准测试，用于评估各种工具环境可靠性隐患下的大语言模型代理，揭示了与干净环境相比性能上的显著差距。

arXiv:2606.25819v1 公告类型：新摘要：大语言模型越来越多地被部署为代理，通过与外部工具环境交互来解决问题。尽管最近的工具使用基准测试越来越多地涵盖复杂的任务设置，但它们仍然很大程度上假设干净、稳定且可信的工具环境，导致工具环境不可靠性未被充分研究。我们提出了ToolBench-X，一个用于在可恢复的可靠性隐患下评估代理的基准测试。ToolBench-X包含跨多个领域的可执行多步任务，以及顺序、并行和混合工作流，每个任务都配有确定性工具和用于自动评估的标准最终答案。从干净的工具环境开始，ToolBench-X注入了五种结构化的隐患类型：规范漂移、调用错误、执行失败、输出漂移和跨源冲突。关键在于，每个注入的实例都至少可以通过一种有效的恢复路径（例如重试、回退、验证或交叉检查）来解决。实验揭示了显著的可靠性差距：在可靠工具上表现良好的代理通常在可恢复的隐患下失败。进一步分析表明，失败更多是由于有限的隐患诊断和无效的恢复，而非工具使用量或推理预算。有针对性的恢复提示可以恢复许多失败的任务，而测试时扩展带来的收益有限。这些结果表明，工具使用评估应从函数调用准确性转向在不可靠工具环境下的任务完成。代码和数据可在 https://github.com/Foreverskyou/ToolBench-X 获取。

查看原文

查看缓存全文

缓存时间: 2026/06/25 05:13

# 超越函数调用：在工具环境不可靠性下对使用工具的智能体进行基准测试
来源：https://arxiv.org/abs/2606.25819
查看PDF (https://arxiv.org/pdf/2606.25819)

> 摘要：大语言模型越来越多地被部署为通过外部工具环境交互来执行任务的智能体。尽管近期工具使用基准测试越来越多地覆盖复杂任务场景，但它们大多仍假设工具环境是干净、稳定且可信的，导致工具环境不可靠性的测试严重不足。我们引入ToolBench-X，一个用于在可恢复的可靠性风险下评估智能体的基准测试。ToolBench-X包含跨多个领域的可执行多步任务，涵盖顺序、并行和混合工作流，每个任务都配有确定性工具和标准最终答案以实现自动评估。从干净工具环境出发，ToolBench-X注入了五种结构化风险类型：规范漂移、调用错误、执行失败、输出漂移和跨源冲突。关键在于，每个注入的实例仍至少有一条有效的恢复路径（如重试、回退、验证或交叉检查）可以解决。实验揭示了显著的可靠性差距：在可靠工具上表现良好的智能体在可恢复风险面前往往失败。进一步分析表明，失败更多地源于有限的风险诊断和无效恢复，而非工具使用量或推理预算。针对性的恢复提示可以挽救许多失败任务，而测试时缩放带来的收益则相对有限。这些结果表明，工具使用评估应从函数调用准确性转向在不可靠工具环境下的任务完成度。代码和数据可从此HTTPS链接获取（https://github.com/Foreverskyou/ToolBench-X）。

## 提交历史

来自：杨天 [查看邮箱（https://arxiv.org/show-email/2e4e1311/2606.25819）] **【v1】** 2026年6月24日星期三 13:34:34 UTC（8,775 KB）

超越函数调用：在工具环境不可靠性下对工具使用代理进行基准测试

相似文章

当工具失灵：LLM智能体动态重新规划与异常恢复的基准测试

TOBench：面向真实世界工具使用智能体的任务导向全模态基准

GTA-2：从原子工具使用到开放式工作流的通用工具Agent基准测试

Agent-ValueBench：一个评估智能体价值观的综合基准

AJ-Bench：面向环境感知评估的 Agent-as-a-Judge 评测基准

提交意见反馈