WeaveBench:混合界面计算机使用代理的长时域真实世界基准测试

Hugging Face Daily Papers 论文

摘要

WeaveBench是一个用于在长时域真实世界任务中跨多种界面(GUI、CLI、代码)评估计算机使用代理的新基准测试。它揭示了当前模型仅达到41.2%的通过率,且仅基于结果的评分高估了性能,凸显了评估中的重大差距。

计算机使用代理(CUA)越来越多地在结合了可视化桌面控制、命令行执行、代码编辑、浏览器和外部工具的运行环境中运行。然而,现有基准测试通常将这些界面作为可分离的能力进行评估,导致长时域跨界面编排能力测试不足。为此,我们提出了WeaveBench,这是一个长时域混合界面基准测试,包含114个任务,涵盖8个真实世界工作领域,基于真实用户请求和可公开验证的产出物。每个任务要求代理在单一轨迹中结合图形用户界面的观察/动作与命令行/代码操作。我们在部署了CLI代理运行环境的真实Ubuntu桌面上评估这些任务,并配有一个极简的桌面控制插件。我们还提出了一个配套的轨迹感知评判器,用于检查交付物、文件、截图、日志和动作轨迹,同时检测如伪造视觉证据或硬编码指标等捷径行为。在前沿模型-运行环境组合中,最佳通过率仅为41.2%,表明该基准测试远未饱和。轨迹感知评判器进一步揭示,仅基于结果的评分大大高估了代理的性能。总体而言,WeaveBench暴露了CUA评估中的关键差距,并提供了一个有效的测试平台来衡量代理是否能够在长时域真实世界任务中编排GUI、CLI和代码操作。
查看原文
查看缓存全文

缓存时间: 2026/06/12 02:52

论文页面 - WeaveBench:面向混合接口计算机使用智能体的长时程真实世界基准

来源:https://huggingface.co/papers/2606.09426

摘要

WeaveBench 提供了一个综合性基准,用于在多种接口上评估计算机使用智能体,揭示了长时程任务编排中的显著挑战,并凸显了传统性能评估方法的局限性。

计算机使用智能体(https://huggingface.co/papers?q=Computer-use%20agents,CUAs)越来越多地在结合可视化桌面控制、命令行执行、代码编辑、浏览器及外部工具的运行时环境中运行。然而,现有基准通常将这些接口作为可分离的能力进行评估,导致长时程跨接口编排测试不足。为此,我们提出了 WeaveBench——一个长时程混合接口基准(https://huggingface.co/papers?q=hybrid-interface%20benchmark),包含 8 个真实工作领域(https://huggingface.co/papers?q=real-world%20work%20domains)中的 114 项任务,所有任务均基于真实用户请求和可公开验证的产物。每项任务要求智能体在单条轨迹中结合图形用户界面观察(https://huggingface.co/papers?q=GUI%20observations)/操作与命令行/代码操作。我们在部署了 CLI 智能体运行时的真实 Ubuntu 桌面上评估这些任务,并辅以最小化的桌面控制插件。我们还提出了一种配套的轨迹感知裁判(https://huggingface.co/papers?q=trajectory-aware%20judge),用于检查交付物、文件、截图、日志和动作痕迹,同时检测快捷行为,例如伪造的视觉证据或硬编码指标。在前沿模型-运行时配对中,最佳通过率仅为 41.2%,表明该基准远未饱和。轨迹感知裁判进一步揭示,仅依据结果评分会(https://huggingface.co/papers?q=outcome-only%20grading)显著高估智能体性能。总体而言,WeaveBench 暴露了 CUA 评估中的关键差距,并提供了一个有效的测试平台,用于衡量智能体能否在长时程真实世界任务中协调 GUI、CLI 和代码操作。

查看 arXiv 页面(https://arxiv.org/abs/2606.09426)查看 PDF(https://arxiv.org/pdf/2606.09426)项目页面(https://weavebench.github.io/)GitHub(https://github.com/weavebench/WeaveBench)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.09426)

在您的智能体中获取此论文:

hf papers read 2606.09426

还没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型

0
没有模型链接此论文
在模型的 README.md 中引用 arxiv.org/abs/2606.09426 即可从本页链接。

引用此论文的数据集

1

wanlilll/WeaveBench 更新于3天前 • 1.13k • 5(https://huggingface.co/datasets/wanlilll/WeaveBench)

引用此论文的 Spaces

0
没有 Space 链接此论文
在 Space 的 README.md 中引用 arxiv.org/abs/2606.09426 即可从本页链接。

包含此论文的收藏

0
没有包含此论文的收藏
将此论文添加到收藏(https://huggingface.co/new-collection)即可从本页链接。

相似文章

WildClawBench:真实世界长周期智能体评估基准

Hugging Face Daily Papers

WildClawBench 使用真实的命令行界面环境和实际工具,评估语言和视觉-语言模型在现实长周期任务上的表现。该基准测试显示,即使最佳模型也仅达到62.2%的准确率,表明长周期智能体评估仍具有挑战性。

JobBench:让智能体工作与人类意愿对齐

arXiv cs.AI

JobBench 是一个基于工人调查构建的基准,用于评估 AI 智能体在工人最希望自动化的任务上的表现,涵盖 35 个职业的 130 个任务,并配备详细的评分细则。

WorkBench再访:两年后的工作场所智能体

arXiv cs.CL

本文在WorkBench基准发布两年后再次对其进行评估,显示当前最佳智能体(Claude Opus 4.8)能完成89%的任务,且仅有2.5%的有害副作用,而2024年GPT-4的完成率为43%,有害率为26%。研究发现,能力与安全性同步提升,开放权重模型大幅降低了成本,但一些基本错误仍然存在。