MacArena:在在线macOS环境中对计算机使用代理进行基准测试

arXiv cs.LG 论文

摘要

介绍了MacArena,这是一个包含50个应用程序中421项任务的基准测试,用于评估macOS上的计算机使用代理,强调现有基准测试可能无法捕捉macOS特有的挑战。

arXiv:2606.06560v1 公告类型:新 摘要:计算机使用代理(CUA)通过视觉和控制原语操作图形用户界面(GUI),其能力在部分由标准化在线评估基准(如OSWorld)推动下迅速发展,这些基准既作为评估工具,也作为强化学习的训练环境。然而,macOS在此领域中仍未被充分覆盖:唯一的现有基准macOSWorld仅涵盖范围狭窄的第一方应用程序,任务较为简单,且运行在与Apple Silicon不兼容的x86虚拟机上。我们推出了MacArena,这是一个包含50个应用程序中421个手动验证任务的基准测试,它结合了OSWorld任务的精选移植、来自macOSWorld的内容以及49个新的macOS原生任务,全部在Apple Silicon上运行于Apple原生的虚拟化框架。我们认为macOS提出了Linux基准测试无法捕捉的独特GUI挑战,我们的评估支持这一论断:现有基准上的强模型表现可能反映的是对任务分布的熟悉程度,而非真正的跨平台GUI能力。值得注意的是,模型排名在移植任务和macOS原生任务之间发生反转,一个领先模型在MacArena子集上的表现落后超过26%,这表明macOS对当前的GUI代理来说确实是一个更具挑战性的环境。
查看原文
查看缓存全文

缓存时间: 2026/06/08 09:16

# 在在线 macOS 环境中对计算机使用代理进行基准测试
来源: https://arxiv.org/html/2606.06560

###### 摘要

计算机使用代理 (CUA) 通过视觉和控制原语操作图形用户界面 (GUI),其能力发展迅速,部分得益于标准化的在线评估基准,例如 OSWorld,它既充当评估工具,也充当强化学习的训练环境。然而,macOS 在这一领域中仍然服务不足:唯一的现有基准 macOSWorld 仅覆盖了少数第一方应用程序,任务较为简单,并且在 x86 虚拟机上运行,与 Apple Silicon 不兼容。我们推出了 MacArena,这是一个包含 50 个应用程序的 421 个手动验证任务的基准,它结合了 OSWorld 任务的精选移植、来自 macOSWorld 的内容以及 49 个新的 macOS 原生任务,所有这些都在 Apple Silicon 上的 Apple 原生虚拟化框架上运行。我们认为 macOS 提出了现有 Linux 基准所无法捕捉的独特 GUI 挑战,我们的评估支持这一说法:现有基准上强大的模型性能可能反映的是对任务分布的熟悉程度,而非真正的跨平台 GUI 能力。值得注意的是,在移植任务和 macOS 原生任务之间,模型排名发生了反转,一个领先模型在 MacArena 子集上落后超过 26%,这表明 macOS 为当前的 GUI 代理提供了一个真正更困难的环境¹¹¹代码在线可用https://github.com/MacPaw/MacArena。

基准测试, 计算机使用代理, macOS, 可验证奖励, ICML

## 1 引言

参见说明图1:MacArena 概述。任务来源于三个来源:OSWorld(移植到 macOS)、macOSWorld 和 49 个新收集的 macOS 原生任务,总共 421 个人工验证任务,涵盖 50 个应用程序。在每个时间步,代理接收截图和可访问性树作为观察,并生成在运行于 Apple 虚拟化框架的 Apple Silicon 虚拟机中执行的动作。基于执行的评估器检查最终环境状态以分配评分 `r∈[0,1]`

计算机使用代理 (CUA) 是能够通过直接操作(点击、拖拽和在可见屏幕元素上打字)与图形用户界面 (GUI) 交互的系统 (Sager等人, 2026; Nguyen等人, 2025)。CUA 直接操作用户看到的像素级表示,使其能够导航应用程序、完成多步骤任务并响应动态界面状态 (Zheng等人, 2024)。它们能够泛化到不同软件环境而无需对底层系统进行程序化访问的能力,使其成为有前景的通用数字助手方向,能够代表用户执行真实的计算机任务。

对 CUA 能力进行基准测试一直是一个活跃的研究领域,近年来提出了多个交互式评估环境。OSWorld (Xie等人, 2024) 建立了领先的跨平台基准,涵盖 Linux 和 Windows,使用真实应用程序和可执行任务。然而,macOS 作为评估目标仍然服务不足。唯一的现有 macOS 基准 macOSWorld (Yang等人, 2025) 仅覆盖了该平台任务空间的一小部分:UI 导航序列更简单,任务规范也比跨平台基准中的更不模糊。覆盖范围也几乎仅限于内置应用程序,留下了大量常用的第三方软件未评估——考虑到这类软件在真实 macOS 使用中的核心地位,这是一个显著的空白。此外,macOSWorld 依赖于基于 x86 的虚拟机,使其与整个现代 Apple Silicon 系列不兼容,并且无法反映当前硬件的性能特征。这引发了一个更广泛的问题:macOS 是否为 GUI 代理提出了超出现有 Linux 基准所能捕捉的独特挑战。

为了弥补这些空白,我们推出了 MacArena,这是一个用于在 macOS 上评估计算机使用代理的基准 (图1)。MacArena 由三个来源构建:从 OSWorld 移植到 macOS 的精选任务、来自 macOSWorld 的任务集,以及 49 个新的 macOS 特定任务,这些任务增加了任务复杂性并将覆盖范围扩展到非标准应用程序。

我们的主要贡献是:

- •一个大规模 macOS CUA 基准,包含 421 个高质量任务,结合了手动移植的 OSWorld 任务、经过验证的 macOSWorld 任务以及 49 个新的 macOS 特定任务,形成一个统一的评估套件。
- •所有任务的人工验证,确保每个任务可执行、无歧义且正确指定,提供比自动任务生成或部分审查更高质量的信号。
- •完全可重现性,所有代码公开发布,使社区能够扩展基准。
- •模型评估,建立基线结果并揭示现有 CUA 在 macOS 上的优势与局限。

我们的评估为当前 CUA 在 macOS 上建立了基线结果,并揭示了一个一致的模式:所有评估模型在 macOS 上的性能相对于 Linux 都有所下降,这表明 macOS 为当前的 GUI 代理提供了一个真正更困难的环境。

## 2 相关工作

表1:CUA 基准的比较。✓ 表示存在该属性,✗ 表示不存在,— 表示不适用或未报告。基准平台# 任务# 应用程序第三方应用程序手动验证离线基准Mind2Web (Deng等人, 2023)Web2,350137—✗AITW (Rawles等人, 2023)Android30k159—✗ScreenSpot (Cheng等人, 2024)多平台1,200—✓✓ScreenSpot-V2 (Wu等人, 2024)多平台1,272—✓✓ScreenSpot-Pro (Li等人, 2025)多平台1,58123✓✓GUIrilla-Gold (Garkot等人, 2026)macOS1,283219✓✓在线基准OSWorld (Xie等人, 2024)Linux, Win3699✓✓WAA (Bonatti等人, 2024)Windows15415✓✗macOSWorld (Yang等人, 2025)macOS20230✗✗WebArena (Zhou等人, 2024)Web812——✗VisualWebArena (Koh等人, 2024)Web910——✗WorkArena (Drouin等人, 2024)Web331—✗AndroidWorld (Rawles等人, 2024)Android11620✓✗B-MoCA (Lee等人, 2025)Android13110✓✗MacArena (我们的)macOS42150✓✓### 2.1 GUI 代理与计算机使用系统

早期的 GUI 代理基于提示管道构建,结合了前沿的视觉-语言模型与模块化规划和记忆组件。诸如 UFO (Zhang等人, 2025) 和 SeeAct (Zheng等人, 2024) 等系统展示了 GPT-4V 能够通过推理截图完成桌面和网页任务,而多代理框架则将任务分解为由专门子代理处理的子任务。尽管在受限环境中有效,但这些系统受限于底层模型的能力以及多步骤编排的开销。

第二条工作线专注于改进视觉接地能力,即根据自然语言描述精确定位 UI 元素的能力。CogAgent (Hong等人, 2024) 引入了一个专门在 GUI 布局上训练的双编码器架构,后续模型开发了专用的接地模块,使代理能够以更高的空间精度进行点击和交互。这种接地能力成为在复杂桌面任务上可靠性能的先决条件。

最近,端到端训练的代理在很大程度上取代了基于提示的管道。诸如 UI-TARS (Qin等人, 2025) 和 Aguvis (Xu等人, 2024) 等模型原生地在大量跨桌面、网页和移动平台的 GUI 交互轨迹上训练,实现了强大的泛化能力,无需依赖外部编排。这些单模型代理更易于部署,并已成为 GUI 代理开发的主导范式。

强化学习已成为提升代理性能的进一步手段。DigiRL (Bai等人, 2024) 展示了在 Android 任务上的离线到在线 RL 微调,而 ComputerRL (Lai等人, 2025) 使用数千个并行虚拟机将在线 RL 扩展到桌面环境。UI-TARS-2 (Wang等人, 2025) 通过一个多轮 RL 框架扩展了这一点,该框架可以大规模生成训练轨迹。在所有这些工作中,OSWorld 和 AndroidWorld 一直是主要的训练和评估环境,凸显了桌面 GUI 研究中缺乏可比的 macOS 基准。

### 2.2 计算机使用基准

在交互式基准出现之前,研究人员开发了离线数据集来评估代理在静态截图上的表现。Mind2Web (Deng等人, 2023) 和 AITW (Rawles等人, 2023) 收集了大量人类演示的网页和移动端导航数据,使得 GUI 策略的监督训练成为可能。ScreenSpot (Cheng等人, 2024)、ScreenSpot-V2 (Wu等人, 2024) 和 ScreenSpot-Pro (Li等人, 2025) 建立了专门针对元素定位的基准,即将自然语言指令映射到屏幕上正确位置的能力。GUIrilla (Garkot等人, 2026) 将其扩展到 macOS,在广泛的第三方应用中提供了定位标注。虽然这些离线基准对模型开发仍然有用,但它们没有捕捉到定义真实代理行为的顺序决策、错误恢复和动态环境反馈,因此无法衡量代理是否能在实时环境中完成任务。

OSWorld (Xie等人, 2024) 是现有最全面的交互式基准,涵盖 Linux 和 Windows,包含真实应用程序、多步骤任务以及基于功能结果的自动评分。任务从虚拟机器快照初始化。OSWorld 已成为训练和评估桌面 GUI 代理的标准环境。对于 macOS 而言,macOSWorld (Yang等人, 2025) 引入了一个针对 Apple 内置应用程序(如 Finder、Safari 和 Calendar)的基准。然而,其任务往往比 OSWorld 中的更简单、更狭隘,覆盖范围几乎完全限于第一方软件。

硬件兼容性加剧了这一限制。在 Apple 2020 年从 Intel 处理器过渡之后,基于 x86 的 macOS 环境越来越与现实使用脱节:Apple Silicon 现在为整个 Mac 产品线提供动力,Intel 机器已停止生产。然而 macOSWorld 是围绕 x86 虚拟机设计的,没有原生 Apple Silicon 支持。虽然在 Apple Silicon 硬件上(例如通过 EC2 Mac 实例)进行基于云的评估在技术上是可行的,但这会带来显著的成本开销,使得大规模基准测试和 RL 训练管道不切实际。

MacArena 直接解决了这些差距。macOS 为 GUI 代理提出了独特的挑战:从其应用程序惯例和复杂的窗口管理,到第三方软件的广泛使用,这些都是现有基准在很大程度上未加审视的。如表1 所示,MacArena 是唯一一个结合了第三方应用覆盖范围和完整人工验证的 macOS 在线基准。

## 3 MacArena 环境

### 3.1 问题形式化

表2:支持的动作及其参数。类别动作参数描述鼠标MOVE_TOx,y将光标移动到位置CLICKx,y,按钮(l/r/m)在位置点击RIGHT_CLICKx,y在位置右键单击DOUBLE_CLICKx,y在位置双击DRAG_TOx,y拖拽到目标位置SCROLLdx,dy按增量滚动MOUSE_DOWN按钮按下并保持鼠标按钮MOUSE_UP按钮释放鼠标按钮键盘TYPING文本输入一串字符PRESS键按下单个按键KEY_DOWN键保持按下按键KEY_UP键释放按下的按键HOTKEY[按键]按下组合键终端WAIT—休眠直到下一个动作FAIL—信号表示任务无法完成DONE—信号表示任务成功完成我们将 MacArena 中的自主代理交互形式化为一个部分可观测马尔可夫决策过程 (POMDP) (Xie等人, 2024; Bonatti等人, 2024; Yang等人, 2025),由元组 `(S,O,A,T,Ω,r,γ,μ0,G,pg,φ)` 定义,其中 `S` 是 macOS 环境的完整状态空间(包括隐藏的系统状态,如后台进程和文件系统内容),`O` 是代理可访问的观察空间(例如截图和可访问性树),`A` 是鼠标和键盘交互的动作空间(完整动作空间列于表2)。`T: S×A→S` 是确定性转移函数,`Ω` 是将状态映射到观察的观察函数,`r: S×A×G→R` 是奖励函数,`γ` 是折扣因子,`μ0` 是初始状态分布,`G` 是任务目标空间(表示为自然语言指令),`pg` 是目标的分布,`φ: O→G` 是从观察到目标的映射。

在每个时间步 `t`,代理接收一个观察 `ot∈O`,包含当前 macOS 桌面的截图,可选地附带可访问性树。可访问性 (a11y) 是 macOS 通过 Accessibility API 公开的 UI 元素(按钮、文本字段、菜单)的结构化、分层表示,提供元素标签、角色和边界框,无需视觉解析。基于此观察,代理产生一个可执行的动作 `at∈A`,例如点击。该动作在虚拟机内执行,将环境转移到新状态 `s(t+1)∈S`,并产生一个新的观察 `o(t+1)∈O`。此循环持续直到代理发出终端动作(`DONE` 或 `FAIL`)或达到最大步数。

MacArena 实现了一个基于执行的奖励函数 `r: S×A×G→[0,1]`,其中 `r`

相似文章

MyPCBench:面向个人智能计算机使用代理的基准测试

Hugging Face Daily Papers

MyPCBench 在模拟的 Linux 桌面环境中,通过真实世界的网络应用评估作为个人助手的计算机使用代理,结果显示 Claude Opus 4.6 的任务完成率最高,达到 55.4%,但在涉及多个应用和长时间操作的任务上仍存在困难。

MedCUA-Bench:面向临床计算机操作智能体的截图型基准测试

arXiv cs.AI

MedCUA-Bench是一个新的基准测试,用于评估计算机操作智能体在临床软件任务上的表现,涵盖10个医学领域的18个场景,并包含安全维度。结果显示,当前智能体表现不佳,尤其在真实OpenEMR上,凸显了可靠性方面的显著差距。