MyPCBench:面向个人智能计算机使用代理的基准测试

Hugging Face Daily Papers 论文

摘要

MyPCBench 在模拟的 Linux 桌面环境中,通过真实世界的网络应用评估作为个人助手的计算机使用代理,结果显示 Claude Opus 4.6 的任务完成率最高,达到 55.4%,但在涉及多个应用和长时间操作的任务上仍存在困难。

当前的计算机使用代理基准测试在非个性化环境中评估模型,这导致了评估与部署之间的差距。然而,个人助手本应能在用户的整个数字生活中工作,包括其上下文、历史数据和已登录账户。这种差距在网络任务上最为明显,因为实时网络评估无法测试需要登录或个人信息(真正的个人助手必须操作的网站)的网站。我们推出了 MyPCBench,它在装有 17 个模拟真实世界网络应用和完整桌面堆栈的 Linux 桌面上测试作为个人助手的计算机使用代理,所有内容都针对一个标准角色(《办公室》中的迈克尔·斯科特)进行了设置。我们在此环境中定义了 184 个任务,每个任务都源自 OpenClaw 社区的真实请求,并使用统一的计算机和 bash 工具界面,对六个闭源和开源的模型进行了基准测试。我们发现,最好的模型 Claude Opus 4.6 完全解决了 55.4\% 的任务,是唯一一个超过 50\% 的模型。模型失败主要集中在涉及多个应用和长时间操作的任务上,个性化在这些任务中对助手的压力最大。我们在 https://mypcbench.com 上发布了环境、任务集和代理测试框架。
查看原文
查看缓存全文

缓存时间: 2026/06/18 15:58

论文页面 - MyPCBench:面向个人智能计算机使用代理的基准测试

来源:https://huggingface.co/papers/2606.16748

摘要

MyPCBench 在模拟的 Linux 桌面环境中,使用真实的 Web 应用评估计算机使用代理作为个人助手的效果。结果显示,Claude Opus 4.6 的任务完成率最高,达到 55.4%,但在多应用任务和长轨迹场景下表现不佳。

当前的计算机使用代理基准测试(https://huggingface.co/papers?q=computer-use%20agents)在非个性化环境中评估模型。这造成了评估与部署之间的鸿沟——个人助手(https://huggingface.co/papers?q=personal%20assistants)需要跨用户整个数字生活(https://huggingface.co/papers?q=digital%20life)工作,包括上下文、历史数据和已登录账户。这一差距在 Web 任务(https://huggingface.co/papers?q=web%20tasks)上最为明显,因为实时 Web 评估(https://huggingface.co/papers?q=live%20web%20evaluations)无法执行需要登录或个人信息的网站——而这正是真实个人助手必须操作的网站。我们推出了 MyPCBench,它在装有 17 个模拟真实 Web 应用(https://huggingface.co/papers?q=web%20applications)和完整桌面环境的 Linux 系统中测试计算机使用代理(https://huggingface.co/papers?q=computer-use%20agents)作为个人助手(https://huggingface.co/papers?q=personal%20assistants)的能力,所有环境均以《办公室》中的 Michael Scott 为统一原型。我们在该环境中定义了 184 个任务,每个任务均源自 OpenClaw 社区收集的真实请求,并通过统一的 computer+bash 工具接口对六款闭源和开源模型进行了基准测试。我们发现,表现最好的模型 Claude Opus 4.6 完全解决了 55.4% 的任务,是唯一超过 50% 的模型。模型失败主要集中在涉及多个应用的长轨迹任务上,这类任务对助手的个性化能力要求最高。我们已在 https://mypcbench.com 上开源环境、任务集和代理工具。

查看 arXiv 页面(https://arxiv.org/abs/2606.16748)查看 PDF(https://arxiv.org/pdf/2606.16748)项目页面(https://mypcbench.com/)GitHub3(https://github.com/ljang0/MyPCBench)添加至收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.16748)

在您的代理中获取本文:

hf papers read 2606.16748

没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用本文的模型0

无模型关联此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.16748 以在此页面建立链接。

引用本文的数据集0

无数据集关联此论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.16748 以在此页面建立链接。

引用本文的 Space0

无 Space 关联此论文

请在 Space README.md 中引用 arxiv.org/abs/2606.16748 以在此页面建立链接。

包含本文的收藏集1

相似文章

WorkBench再访:两年后的工作场所智能体

arXiv cs.CL

本文在WorkBench基准发布两年后再次对其进行评估,显示当前最佳智能体(Claude Opus 4.8)能完成89%的任务,且仅有2.5%的有害副作用,而2024年GPT-4的完成率为43%,有害率为26%。研究发现,能力与安全性同步提升,开放权重模型大幅降低了成本,但一些基本错误仍然存在。