WeaveBench:混合界面计算机使用代理的长时域真实世界基准测试
摘要
WeaveBench是一个用于在长时域真实世界任务中跨多种界面(GUI、CLI、代码)评估计算机使用代理的新基准测试。它揭示了当前模型仅达到41.2%的通过率,且仅基于结果的评分高估了性能,凸显了评估中的重大差距。
查看缓存全文
缓存时间: 2026/06/12 02:52
论文页面 - WeaveBench:面向混合接口计算机使用智能体的长时程真实世界基准
来源:https://huggingface.co/papers/2606.09426
摘要
WeaveBench 提供了一个综合性基准,用于在多种接口上评估计算机使用智能体,揭示了长时程任务编排中的显著挑战,并凸显了传统性能评估方法的局限性。
计算机使用智能体(https://huggingface.co/papers?q=Computer-use%20agents,CUAs)越来越多地在结合可视化桌面控制、命令行执行、代码编辑、浏览器及外部工具的运行时环境中运行。然而,现有基准通常将这些接口作为可分离的能力进行评估,导致长时程跨接口编排测试不足。为此,我们提出了 WeaveBench——一个长时程混合接口基准(https://huggingface.co/papers?q=hybrid-interface%20benchmark),包含 8 个真实工作领域(https://huggingface.co/papers?q=real-world%20work%20domains)中的 114 项任务,所有任务均基于真实用户请求和可公开验证的产物。每项任务要求智能体在单条轨迹中结合图形用户界面观察(https://huggingface.co/papers?q=GUI%20observations)/操作与命令行/代码操作。我们在部署了 CLI 智能体运行时的真实 Ubuntu 桌面上评估这些任务,并辅以最小化的桌面控制插件。我们还提出了一种配套的轨迹感知裁判(https://huggingface.co/papers?q=trajectory-aware%20judge),用于检查交付物、文件、截图、日志和动作痕迹,同时检测快捷行为,例如伪造的视觉证据或硬编码指标。在前沿模型-运行时配对中,最佳通过率仅为 41.2%,表明该基准远未饱和。轨迹感知裁判进一步揭示,仅依据结果评分会(https://huggingface.co/papers?q=outcome-only%20grading)显著高估智能体性能。总体而言,WeaveBench 暴露了 CUA 评估中的关键差距,并提供了一个有效的测试平台,用于衡量智能体能否在长时程真实世界任务中协调 GUI、CLI 和代码操作。
查看 arXiv 页面(https://arxiv.org/abs/2606.09426)查看 PDF(https://arxiv.org/pdf/2606.09426)项目页面(https://weavebench.github.io/)GitHub(https://github.com/weavebench/WeaveBench)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.09426)
在您的智能体中获取此论文:
hf papers read 2606.09426
还没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型
0
没有模型链接此论文
在模型的 README.md 中引用 arxiv.org/abs/2606.09426 即可从本页链接。
引用此论文的数据集
1
wanlilll/WeaveBench 更新于3天前 • 1.13k • 5(https://huggingface.co/datasets/wanlilll/WeaveBench)
引用此论文的 Spaces
0
没有 Space 链接此论文
在 Space 的 README.md 中引用 arxiv.org/abs/2606.09426 即可从本页链接。
包含此论文的收藏
0
没有包含此论文的收藏
将此论文添加到收藏(https://huggingface.co/new-collection)即可从本页链接。
相似文章
WildClawBench:真实世界长周期智能体评估基准
WildClawBench 使用真实的命令行界面环境和实际工具,评估语言和视觉-语言模型在现实长周期任务上的表现。该基准测试显示,即使最佳模型也仅达到62.2%的准确率,表明长周期智能体评估仍具有挑战性。
TOBench:面向真实世界工具使用智能体的任务导向全模态基准
TOBench是一个新的基准测试,用于评估AI智能体在真实世界、任务导向的工具使用中的表现,涉及多模态输入和闭环验证。实验表明,像Qwen 3.5 Plus这样的顶级模型仅达到41%的成功率,远低于94%的人类基准,凸显了显著的差距。
JobBench:让智能体工作与人类意愿对齐
JobBench 是一个基于工人调查构建的基准,用于评估 AI 智能体在工人最希望自动化的任务上的表现,涵盖 35 个职业的 130 个任务,并配备详细的评分细则。
SaaS-Bench:计算机使用代理能否利用真实世界的SaaS解决专业工作流程?
SaaS-Bench是一个新的基准测试,基于23个可部署的SaaS系统,覆盖六个专业领域,包含106个长周期任务,用于评估计算机使用代理。实验表明,即使是最强的模型,端到端完成任务的比例也不足4%,凸显了当前代理能力的显著限制。
WorkBench再访:两年后的工作场所智能体
本文在WorkBench基准发布两年后再次对其进行评估,显示当前最佳智能体(Claude Opus 4.8)能完成89%的任务,且仅有2.5%的有害副作用,而2024年GPT-4的完成率为43%,有害率为26%。研究发现,能力与安全性同步提升,开放权重模型大幅降低了成本,但一些基本错误仍然存在。