MyPCBench:面向个人智能计算机使用代理的基准测试
摘要
MyPCBench 在模拟的 Linux 桌面环境中,通过真实世界的网络应用评估作为个人助手的计算机使用代理,结果显示 Claude Opus 4.6 的任务完成率最高,达到 55.4%,但在涉及多个应用和长时间操作的任务上仍存在困难。
查看缓存全文
缓存时间: 2026/06/18 15:58
论文页面 - MyPCBench:面向个人智能计算机使用代理的基准测试
来源:https://huggingface.co/papers/2606.16748
摘要
MyPCBench 在模拟的 Linux 桌面环境中,使用真实的 Web 应用评估计算机使用代理作为个人助手的效果。结果显示,Claude Opus 4.6 的任务完成率最高,达到 55.4%,但在多应用任务和长轨迹场景下表现不佳。
当前的计算机使用代理基准测试(https://huggingface.co/papers?q=computer-use%20agents)在非个性化环境中评估模型。这造成了评估与部署之间的鸿沟——个人助手(https://huggingface.co/papers?q=personal%20assistants)需要跨用户整个数字生活(https://huggingface.co/papers?q=digital%20life)工作,包括上下文、历史数据和已登录账户。这一差距在 Web 任务(https://huggingface.co/papers?q=web%20tasks)上最为明显,因为实时 Web 评估(https://huggingface.co/papers?q=live%20web%20evaluations)无法执行需要登录或个人信息的网站——而这正是真实个人助手必须操作的网站。我们推出了 MyPCBench,它在装有 17 个模拟真实 Web 应用(https://huggingface.co/papers?q=web%20applications)和完整桌面环境的 Linux 系统中测试计算机使用代理(https://huggingface.co/papers?q=computer-use%20agents)作为个人助手(https://huggingface.co/papers?q=personal%20assistants)的能力,所有环境均以《办公室》中的 Michael Scott 为统一原型。我们在该环境中定义了 184 个任务,每个任务均源自 OpenClaw 社区收集的真实请求,并通过统一的 computer+bash 工具接口对六款闭源和开源模型进行了基准测试。我们发现,表现最好的模型 Claude Opus 4.6 完全解决了 55.4% 的任务,是唯一超过 50% 的模型。模型失败主要集中在涉及多个应用的长轨迹任务上,这类任务对助手的个性化能力要求最高。我们已在 https://mypcbench.com 上开源环境、任务集和代理工具。
查看 arXiv 页面(https://arxiv.org/abs/2606.16748)查看 PDF(https://arxiv.org/pdf/2606.16748)项目页面(https://mypcbench.com/)GitHub3(https://github.com/ljang0/MyPCBench)添加至收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.16748)
在您的代理中获取本文:
hf papers read 2606.16748
没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用本文的模型0
无模型关联此论文
请在模型 README.md 中引用 arxiv.org/abs/2606.16748 以在此页面建立链接。
引用本文的数据集0
无数据集关联此论文
请在数据集 README.md 中引用 arxiv.org/abs/2606.16748 以在此页面建立链接。
引用本文的 Space0
无 Space 关联此论文
请在 Space README.md 中引用 arxiv.org/abs/2606.16748 以在此页面建立链接。
包含本文的收藏集1
相似文章
WorkBench再访:两年后的工作场所智能体
本文在WorkBench基准发布两年后再次对其进行评估,显示当前最佳智能体(Claude Opus 4.8)能完成89%的任务,且仅有2.5%的有害副作用,而2024年GPT-4的完成率为43%,有害率为26%。研究发现,能力与安全性同步提升,开放权重模型大幅降低了成本,但一些基本错误仍然存在。
WeaveBench:混合界面计算机使用代理的长时域真实世界基准测试
WeaveBench是一个用于在长时域真实世界任务中跨多种界面(GUI、CLI、代码)评估计算机使用代理的新基准测试。它揭示了当前模型仅达到41.2%的通过率,且仅基于结果的评分高估了性能,凸显了评估中的重大差距。
MCP-Persona:通过环境模拟对LLM智能体在实际个人应用中的基准测试
MCP-Persona是一种基准测试,用于评估LLM智能体在与个人账户和本地数据库交互的个性化工具上的表现。实验表明,最先进的智能体在个性化工具使用方面面临显著挑战。
Claw-Anything: 在更广泛的用户数字世界访问权限下,对始终在线个人助手进行基准测试
介绍了Claw-Anything,这是一个基准测试,用于评估始终在线的个人AI助手在涵盖长时间跨度、多种服务和多样化设备交互的综合用户活动上下文中的表现。实验表明,即使是GPT-5.5也仅达到34.5%的pass@1,突显了当前智能体能力与始终在线辅助需求之间的显著差距。
MacArena:在在线macOS环境中对计算机使用代理进行基准测试
介绍了MacArena,这是一个包含50个应用程序中421项任务的基准测试,用于评估macOS上的计算机使用代理,强调现有基准测试可能无法捕捉macOS特有的挑战。