MyPCBench：面向个人智能计算机使用代理的基准测试

Hugging Face Daily Papers 2026/06/15 00:00 论文

benchmark computer-use-agents personal-assistants linux-desktop web-applications evaluation

摘要

MyPCBench 在模拟的 Linux 桌面环境中，通过真实世界的网络应用评估作为个人助手的计算机使用代理，结果显示 Claude Opus 4.6 的任务完成率最高，达到 55.4%，但在涉及多个应用和长时间操作的任务上仍存在困难。

当前的计算机使用代理基准测试在非个性化环境中评估模型，这导致了评估与部署之间的差距。然而，个人助手本应能在用户的整个数字生活中工作，包括其上下文、历史数据和已登录账户。这种差距在网络任务上最为明显，因为实时网络评估无法测试需要登录或个人信息（真正的个人助手必须操作的网站）的网站。我们推出了 MyPCBench，它在装有 17 个模拟真实世界网络应用和完整桌面堆栈的 Linux 桌面上测试作为个人助手的计算机使用代理，所有内容都针对一个标准角色（《办公室》中的迈克尔·斯科特）进行了设置。我们在此环境中定义了 184 个任务，每个任务都源自 OpenClaw 社区的真实请求，并使用统一的计算机和 bash 工具界面，对六个闭源和开源的模型进行了基准测试。我们发现，最好的模型 Claude Opus 4.6 完全解决了 55.4\% 的任务，是唯一一个超过 50\% 的模型。模型失败主要集中在涉及多个应用和长时间操作的任务上，个性化在这些任务中对助手的压力最大。我们在 https://mypcbench.com 上发布了环境、任务集和代理测试框架。

查看原文

查看缓存全文

缓存时间: 2026/06/18 15:58

论文页面 - MyPCBench：面向个人智能计算机使用代理的基准测试

来源：https://huggingface.co/papers/2606.16748

摘要

MyPCBench 在模拟的 Linux 桌面环境中，使用真实的 Web 应用评估计算机使用代理作为个人助手的效果。结果显示，Claude Opus 4.6 的任务完成率最高，达到 55.4%，但在多应用任务和长轨迹场景下表现不佳。

当前的计算机使用代理基准测试（https://huggingface.co/papers?q=computer-use%20agents）在非个性化环境中评估模型。这造成了评估与部署之间的鸿沟——个人助手（https://huggingface.co/papers?q=personal%20assistants）需要跨用户整个数字生活（https://huggingface.co/papers?q=digital%20life）工作，包括上下文、历史数据和已登录账户。这一差距在 Web 任务（https://huggingface.co/papers?q=web%20tasks）上最为明显，因为实时 Web 评估（https://huggingface.co/papers?q=live%20web%20evaluations）无法执行需要登录或个人信息的网站——而这正是真实个人助手必须操作的网站。我们推出了 MyPCBench，它在装有 17 个模拟真实 Web 应用（https://huggingface.co/papers?q=web%20applications）和完整桌面环境的 Linux 系统中测试计算机使用代理（https://huggingface.co/papers?q=computer-use%20agents）作为个人助手（https://huggingface.co/papers?q=personal%20assistants）的能力，所有环境均以《办公室》中的 Michael Scott 为统一原型。我们在该环境中定义了 184 个任务，每个任务均源自 OpenClaw 社区收集的真实请求，并通过统一的 computer+bash 工具接口对六款闭源和开源模型进行了基准测试。我们发现，表现最好的模型 Claude Opus 4.6 完全解决了 55.4% 的任务，是唯一超过 50% 的模型。模型失败主要集中在涉及多个应用的长轨迹任务上，这类任务对助手的个性化能力要求最高。我们已在 https://mypcbench.com 上开源环境、任务集和代理工具。

查看 arXiv 页面（https://arxiv.org/abs/2606.16748）查看 PDF（https://arxiv.org/pdf/2606.16748）项目页面（https://mypcbench.com/）GitHub3（https://github.com/ljang0/MyPCBench）添加至收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.16748）

在您的代理中获取本文：

hf papers read 2606.16748

没有最新 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用本文的模型0

无模型关联此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.16748 以在此页面建立链接。

引用本文的数据集0

无数据集关联此论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.16748 以在此页面建立链接。

引用本文的 Space0

无 Space 关联此论文

请在 Space README.md 中引用 arxiv.org/abs/2606.16748 以在此页面建立链接。

MyPCBench：面向个人智能计算机使用代理的基准测试

论文页面 - MyPCBench：面向个人智能计算机使用代理的基准测试

摘要

引用本文的模型0

引用本文的数据集0

引用本文的 Space0

包含本文的收藏集1

相似文章

WorkBench再访：两年后的工作场所智能体

WeaveBench：混合界面计算机使用代理的长时域真实世界基准测试

MCP-Persona：通过环境模拟对LLM智能体在实际个人应用中的基准测试

Claw-Anything: 在更广泛的用户数字世界访问权限下，对始终在线个人助手进行基准测试

MacArena：在在线macOS环境中对计算机使用代理进行基准测试

提交意见反馈