GUI vs. CLI:仅屏幕和技能中介的计算机使用代理的执行瓶颈
摘要
本文研究了计算机使用代理中的执行瓶颈,比较了仅屏幕的基于GUI的方法与基于技能中介的CLI方法,识别了关键性能差异。
arXiv:2606.24551v1 公告类型:新
摘要:计算机使用代理可以通过图形界面或程序化命令界面执行软件任务,但现有的评估将交互模态与任务、初始状态、验证器和允许操作的差异混淆在一起。我们引入了一个匹配的执行层基准测试,涵盖18个应用程序和12个工作流程类别中的440个桌面任务,其中仅屏幕的GUI代理和技能中介的CLI代理接收相同的目标、状态和最终状态验证器,同时仅限于模态原生操作。在这种受控环境下,最强的GUI代理达到了59.1%的完全通过率,优于最强的原始技能CLI代理的48.2%;然而,验证器引导的技能增强将CLI的成功率提高到69.3%,这表明CLI的不足很大程度上来自技能覆盖不完整,而不仅仅是模型能力问题。这些结果表明,GUI和CLI暴露了不同的执行瓶颈:GUI代理受限于长周期工作流程中的可靠接地交互,而CLI代理则受限于其技能接口的覆盖范围和可扩展性。
查看缓存全文
缓存时间: 2026/06/24 07:48
# 纯屏幕交互与技能中介型计算机使用代理的执行瓶颈 来源: https://arxiv.org/html/2606.24551 Xiao ZhouYN\\hskip 1\.00006pt\{\}^\{\{\\color\[rgb\]\{0\.33984375,0\.0234375,0\.55078125\}\\definecolor\[named\]\{pgfstrokecolor\}\{rgb\}\{0\.33984375,0\.0234375,0\.55078125\}\\bm\{N\}\}\}\\hskip 1\.00006pt\{\}^\{\{\\color\[rgb\]\{0,0\.20703125,0\.41796875\}\\definecolor\[named\]\{pgfstrokecolor\}\{rgb\}\{0,0\.20703125,0\.41796875\}\\bm\{Y\}\}\}Siyue ZhangT\\hskip 1\.00006pt\{\}^\{\{\\color\[rgb\]\{0,0\.58984375,0\.22265625\}\\definecolor\[named\]\{pgfstrokecolor\}\{rgb\}\{0,0\.58984375,0\.22265625\}\\bm\{T\}\}\}11footnotemark:1Yilun ZhaoY\\hskip 1\.00006pt\{\}^\{\{\\color\[rgb\]\{0,0\.20703125,0\.41796875\}\\definecolor\[named\]\{pgfstrokecolor\}\{rgb\}\{0,0\.20703125,0\.41796875\}\\bm\{Y\}\}\}Jinbiao WeiY\\hskip 1\.00006pt\{\}^\{\{\\color\[rgb\]\{0,0\.20703125,0\.41796875\}\\definecolor\[named\]\{pgfstrokecolor\}\{rgb\}\{0,0\.20703125,0\.41796875\}\\bm\{Y\}\}\} Tingyu SongY\\hskip 1\.00006pt\{\}^\{\{\\color\[rgb\]\{0,0\.20703125,0\.41796875\}\\definecolor\[named\]\{pgfstrokecolor\}\{rgb\}\{0,0\.20703125,0\.41796875\}\\bm\{Y\}\}\}Arman CohanY\\hskip 1\.00006pt\{\}^\{\{\\color\[rgb\]\{0,0\.20703125,0\.41796875\}\\definecolor\[named\]\{pgfstrokecolor\}\{rgb\}\{0,0\.20703125,0\.41796875\}\\bm\{Y\}\}\}Chen ZhaoN\\hskip 1\.00006pt\{\}^\{\{\\color\[rgb\]\{0\.33984375,0\.0234375,0\.55078125\}\\definecolor\[named\]\{pgfstrokecolor\}\{rgb\}\{0\.33984375,0\.0234375,0\.55078125\}\\bm\{N\}\}\} N\\hskip 1\.00006pt\{\}^\{\{\\color\[rgb\]\{0\.33984375,0\.0234375,0\.55078125\}\\definecolor\[named\]\{pgfstrokecolor\}\{rgb\}\{0\.33984375,0\.0234375,0\.55078125\}\\bm\{N\}\}\}NYU ShanghaiY\\hskip 1\.00006pt\{\}^\{\{\\color\[rgb\]\{0,0\.20703125,0\.41796875\}\\definecolor\[named\]\{pgfstrokecolor\}\{rgb\}\{0,0\.20703125,0\.41796875\}\\bm\{Y\}\}\}Yale NLP LabT\\hskip 1\.00006pt\{\}^\{\{\\color\[rgb\]\{0,0\.58984375,0\.22265625\}\\definecolor\[named\]\{pgfstrokecolor\}\{rgb\}\{0,0\.58984375,0\.22265625\}\\bm\{T\}\}\}南洋理工大学 ![[无标题图片]](https://arxiv.org/html/2606.24551v1/x1.png)数据与模型 (https://huggingface.co/datasets/rebeccazzzz/gui-vs-cli)![[无标题图片]](https://arxiv.org/html/2606.24551v1/x2.png)代码 (https://github.com/rebeccaz4/gui-vs-cli.git)同等贡献。通讯作者:Yilun Zhao ([email protected]), Chen Zhao ([email protected])。 GUI vs. CLI:纯屏幕交互与技能中介型计算机使用代理的执行瓶颈 Xiao ZhouYN\\hskip 1\.00006pt\{\}^\{\{\\color\[rgb\]\{0\.33984375,0\.0234375,0\.55078125\}\\definecolor\[named\]\{pgfstrokecolor\}\{rgb\}\{0\.33984375,0\.0234375,0\.55078125\}\\bm\{N\}\}\}\\hskip 1\.00006pt\{\}^\{\{\\color\[rgb\]\{0,0\.20703125,0\.41796875\}\\definecolor\[named\]\{pgfstrokecolor\}\{rgb\}\{0,0\.20703125,0\.41796875\}\\bm\{Y\}\}\}††thanks:同等贡献。通讯作者:Yilun Zhao ([email protected]), Chen Zhao ([email protected])。Siyue ZhangT\\hskip 1\.00006pt\{\}^\{\{\\color\[rgb\]\{0,0\.58984375,0\.22265625\}\\definecolor\[named\]\{pgfstrokecolor\}\{rgb\}\{0,0\.58984375,0\.22265625\}\\bm\{T\}\}\}11footnotemark:1Yilun ZhaoY\\hskip 1\.00006pt\{\}^\{\{\\color\[rgb\]\{0,0\.20703125,0\.41796875\}\\definecolor\[named\]\{pgfstrokecolor\}\{rgb\}\{0,0\.20703125,0\.41796875\}\\bm\{Y\}\}\}Jinbiao WeiY\\hskip 1\.00006pt\{\}^\{\{\\color\[rgb\]\{0,0\.20703125,0\.41796875\}\\definecolor\[named\]\{pgfstrokecolor\}\{rgb\}\{0,0\.20703125,0\.41796875\}\\bm\{Y\}\}\}Tingyu SongY\\hskip 1\.00006pt\{\}^\{\{\\color\[rgb\]\{0,0\.20703125,0\.41796875\}\\definecolor\[named\]\{pgfstrokecolor\}\{rgb\}\{0,0\.20703125,0\.41796875\}\\bm\{Y\}\}\}Arman CohanY\\hskip 1\.00006pt\{\}^\{\{\\color\[rgb\]\{0,0\.20703125,0\.41796875\}\\definecolor\[named\]\{pgfstrokecolor\}\{rgb\}\{0,0\.20703125,0\.41796875\}\\bm\{Y\}\}\}Chen ZhaoN\\hskip 1\.00006pt\{\}^\{\{\\color\[rgb\]\{0\.33984375,0\.0234375,0\.55078125\}\\definecolor\[named\]\{pgfstrokecolor\}\{rgb\}\{0\.33984375,0\.0234375,0\.55078125\}\\bm\{N\}\}\}N\\hskip 1\.00006pt\{\}^\{\{\\color\[rgb\]\{0\.33984375,0\.0234375,0\.55078125\}\\definecolor\[named\]\{pgfstrokecolor\}\{rgb\}\{0\.33984375,0\.0234375,0\.55078125\}\\bm\{N\}\}\}NYU ShanghaiY\\hskip 1\.00006pt\{\}^\{\{\\color\[rgb\]\{0,0\.20703125,0\.41796875\}\\definecolor\[named\]\{pgfstrokecolor\}\{rgb\}\{0,0\.20703125,0\.41796875\}\\bm\{Y\}\}\}Yale NLP LabT\\hskip 1\.00006pt\{\}^\{\{\\color\[rgb\]\{0,0\.58984375,0\.22265625\}\\definecolor\[named\]\{pgfstrokecolor\}\{rgb\}\{0,0\.58984375,0\.22265625\}\\bm\{T\}\}\}南洋理工大学 ## 1 引言 参见说明 图 1:概述。一个包含 440 项桌面任务的匹配执行层基准测试,在相同目标、状态和验证器下比较了 GUI 与技能中介型 CLI 代理。结果表明,观察到的 CLI 差距受技能覆盖率的强烈影响,而 GUI 则将程序执行嵌入到界面中。
如重命名 Audacity 中的三个音轨、编辑幻灯片或绘制多页图表等桌面任务,可以通过两种截然不同的方式执行:像人类一样操作可见的应用程序界面(Xie 等人,2024 (https://arxiv.org/html/2606.24551#bib.bib26);Nguyen 等人,2025 (https://arxiv.org/html/2606.24551#bib.bib15);Wei 等人,2026a (https://arxiv.org/html/2606.24551#bib.bib24)),或是调用操作应用程序状态的程序化技能(Anthropic,2026b (https://arxiv.org/html/2606.24551#bib.bib3);OpenAI,2026a (https://arxiv.org/html/2606.24551#bib.bib16);HKUDS,2026 (https://arxiv.org/html/2606.24551#bib.bib9);Li 等人,2026 (https://arxiv.org/html/2606.24551#bib.bib11))。具体来说,GUI 代理观察可见应用控件的截图,并通过在沙盒桌面上的点击、拖拽、输入、滚动和键盘快捷键来操作(Xie 等人,2024 (https://arxiv.org/html/2606.24551#bib.bib26)),而技能中介型 CLI 代理则将应用程序视为由精心策划的技能层暴露的一组可组合操作(HKUDS,2026 (https://arxiv.org/html/2606.24551#bib.bib9);Han 等人,2026 (https://arxiv.org/html/2606.24551#bib.bib8)),并通过调用这些操作来执行任务。为确保公平比较,GUI 代理仅限于通过图形界面与应用程序交互,而 CLI 代理则要求使用特定于应用的命令和技能来完成任务,不得依赖直接修改输出文件等捷径。因此,两种设置不仅在表面机制上不同,而且在应用程序能力如何被表示并为代理所用方面也存在差异。然而,现有的评估无法隔离交互模态的影响,因为以 GUI 为重点(Zhou 等人,2024 (https://arxiv.org/html/2606.24551#bib.bib29);Drouin 等人,2024 (https://arxiv.org/html/2606.24551#bib.bib6);Rawles 等人,2024 (https://arxiv.org/html/2606.24551#bib.bib20);Xie 等人,2024 (https://arxiv.org/html/2606.24551#bib.bib26))和以程序化代理为重点(Trivedi 等人,2024 (https://arxiv.org/html/2606.24551#bib.bib22);Bechard 等人,2026 (https://arxiv.org/html/2606.24551#bib.bib4))的基准测试同时混淆了三个因素:它们针对的应用程序、使用的初始状态和最终状态验证器,以及允许的动作空间。当三个因素同时变化时,结果成功与否无法揭示性能差异来自于模型、任务设置还是交互模态本身。因此,一个有控制的比较必须固定任务目标、初始状态和最终状态验证器,同时强制实施模态本地的动作空间。为解决这些混淆因素,我们实例化了一个针对 GUI 和技能中介型 CLI 代理的匹配执行层基准测试。该基准测试包含 440 项桌面任务,涵盖 18 个应用程序和 12 个工作流类别,其中两种模态都接收相同的用户目标、初始状态和可执行的最终状态验证器。每项任务都被重写为仅描述期望结果的模态中立指令,并且每个代理都被限制在其模态本地的动作空间内(GUI 为纯屏幕操作,CLI 为技能层),从而在系统性地跨设置改变本地动作接口的同时,控制任务内容、初始状态和验证环节。
在该基准测试中,最强的 GUI 代理(GPT-5.4)达到了 59.1% 的完全通过率,而最强的 CLI 代理(Codex GPT-5.5)在原始 CLI-Anything 技能层下达到了 48.2%。每种模态偏好不同的工作流:GUI 在应用程序界面直接呈现预期工作流的任务中占优,而 CLI 在目标状态可表示为结构化工件(structured artifacts)的任务中具有竞争力或更优。我们进一步诊断了 CLI 差距中有多少是由不完整的技能覆盖所解释的。原始技能接口仅能满足 37.6% 的验证器检查点。在一种验证器引导的补丁技能设置中,针对验证器观察到缺失的技能路径进行修复,CLI 成功率上升至 69.3%。由于此修复过程使用了验证器信息,我们将该结果解释为一个受覆盖控制的上限诊断,而非开箱即用的 CLI 基线。电子表格和网页工作流中剩余的差距表明,在缺失技能操作之外,模态特定的挑战依然存在。两种模态还表现出互补的故障模式:GUI 代理受限于视觉定位和长工作流执行,而 CLI 代理受限于技能覆盖缺口和隐式默认值重构。这些结果将 GUI 与 CLI 的比较重新定义为执行逻辑被工程化在哪里的问题:是体现在应用程序的可见界面中,还是体现在定义了代理可用操作的人工构建技能层中。
我们的贡献包括:
- • 一种受控的执行层协议,在 GUI 和技能中介型 CLI 代理之间固定任务目标、初始状态和最终状态验证器,同时强制实施模态本地的动作空间。
- • 一个包含 440 项桌面任务的基准测试,涵盖 18 个应用程序和 12 个工作流类别,附带模态中立的指令和针对最终状态的可执行检查。
- • 一项将技能覆盖作为 CLI 瓶颈的诊断分析:原始技能满足 37.6% 的验证器检查点,而验证器引导的补丁技能设置将 CLI 成功率从 48.2% 提升至 69.3%,估计了因技能接口不完整而丢失的可恢复性能。
- • 一个互补故障模式的分类:GUI 方面为视觉定位和长工作流执行;CLI 方面为技能覆盖缺口、隐式默认值重构和不可观察的应用程序语义。
## 2 相关工作
#### GUI 代理。
近期工作迅速扩展了通过图形界面操作的代理的训练方法(Qin 等人,2025 (https://arxiv.org/html/2606.24551#bib.bib18);Wang 等人,2025 (https://arxiv.org/html/2606.24551#bib.bib23);Wei 等人,2026b (https://arxiv.org/html/2606.24551#bib.bib25);Gan 等人,2026 (https://arxiv.org/html/2606.24551#bib.bib7))和基准测试(Zhou 等人,2024 (https://arxiv.org/html/2606.24551#bib.bib29);Drouin 等人,2024 (https://arxiv.org/html/2606.24551#bib.bib6);Xie 等人,2024 (https://arxiv.org/html/2606.24551#bib.bib26)),涵盖网页和企业环境以及完整的桌面操作系统。在这些设置中,感知定位、长动作链和从布局变化中恢复反复成为主要的故障模式,而 oracle 或手动定位的动作则弥补了大部分性能差距(Deng 等人,2023 (https://arxiv.org/html/2606.24551#bib.bib5);Zheng 等人,2024 (https://arxiv.org/html/2606.24551#bib.bib28);Aghzal 等人,2026 (https://arxiv.org/html/2606.24551#bib.bib1))。由于这些评估完全是视觉性的,它们混淆了任务、模型和 GUI 模态的影响。
#### CLI 代理与技能。
另一条研究线路关注通过程序化接口而非视觉控制进行操作的代理。早期的基准测试评估通过 API、命令行环境或直接文件系统访问的执行(Liu 等人,2023 (https://arxiv.org/html/2606.24551#bib.bib12);Trivedi 等人,2024 (https://arxiv.org/html/2606.24551#bib.bib22);Li 等人,2023 (https://arxiv.org/html/2606.24551#bib.bib10);Bechard 等人,2026 (https://arxiv.org/html/2606.24551#bib.bib4);Merrill 等人,2026 (https://arxiv.org/html/2606.24551#bib.bib13);Song 等人,2024 (https://arxiv.org/html/2606.24551#bib.bib21)),但这些设置在所暴露的内容上有所不同:不受限制的 shell 允许任意代码,而精心策划的技能层则将代理限制在一组固定的应用程序级操作上。近期基于技能的系统明确表达了后一种观点:CLI-Anything 将应用程序打包为可复用的命令行工具(HKUDS,2026 (https://arxiv.org/html/2606.24551#bib.bib9)),而对精心策划技能的评估(Li 等人,2026 (https://arxiv.org/html/2606.24551#bib.bib11);Han 等人,2026 (https://arxiv.org/html/2606.24551#bib.bib8))发现,技能层的覆盖范围和质量在很大程度上决定了下游的成功。我们的 CLI 设置遵循这种技能中介的观点,而非将 CLI 访问视为不受限制的编码,从而将模态效果与通用代码执行能力分离开来。
## 3 基准测试
我们的统一基准测试在匹配的任务目标、初始状态和最终状态验证下,通过比较 GUI 和 CLI 交互模态,在执行层评估代理。
### 3.1 基准测试范围与组成
如图 2 (https://arxiv.org/html/2606.24551#S3.F2) 所示,该基准测试包含 440 个任务,涵盖 18 个真实世界的应用程序和 12 个工作流类别。我们按工作流而非仅按应用程序组织任务,因为模态效果通常取决于所需的状态转换类型:某些任务依赖于视觉布局和界面导航,而其他任务则暴露结构化工件或应用程序级操作。这种组成支持聚合比较以及逐个工作流分析 GUI 和 CLI 执行成功或失败的位置。
参见说明
图 2:440 个任务基准测试中跨工作流和应用程序的组成,涵盖 18 个应用程序和 12 个工作流类别。
### 3.2 基准测试构建
我们通过一个三阶段流程构建基准测试,如图 3 (https://arxiv.org/html/2606.24551#S3.F3) 所示,该流程将现有的可验证桌面任务调整为匹配的 GUI–CLI 评估套件。
参见说明
图 3:基准测试构建流程。我们选择具有 CLI-Anything 技能支持的应用程序,将面向 GUI 的任务重写为与模态无关的任务描述,策划任务集以减少界面偏差,并手动验证生成的任务。
#### 阶段 I:应用程序与任务选择。
我们从 OpenComputer(Wei 等人,2026a (https://arxiv.org/html/2606.24551#bib.bib24))中的任务开始,选择具有相应 CLI-Anything(HKUDS,2026 (https://arxiv.org/html/2606.24551#bib.bib9))技能支持的应用程序。这确保了每个选定的应用程序都可以通过视觉交互和程序化执行两种方式进行操作。
#### 阶段 II:任务重写与策划。
我们将原始的逐步、面向 GUI 的指令重写为与模态无关的任务描述,指定目标结果而非 GUI 特定的过程,并策划生成的任务集以平衡 GUI–CLI 执行分布。具体来说,每一条重写的指令都相同地提供给两种模态,并尽可能避免模态特定的动作序列。我们移除那些结果依赖于一种界面或在另一种模态中缺乏有意义对应物的任务。W相似文章
VISUALSKILL:面向计算机使用智能体的多模态技能
VisualSkill 提出了一种层级化的多模态技能库,用于计算机使用智能体,结合文本与图像,通过在 GUI 交互中保留视觉信息,在 CUA 基准测试上相较于纯文本基线实现了 15.3 个百分点的绝对提升。
@dair_ai: 关于计算机使用智能体的杰出论文。(收藏)计算机使用智能体通过屏幕操控真实软件,……
PreAct 将成功的智能体运行编译成小型状态机程序,在重复任务上实现 8.5-13 倍更快的重放,无需逐步骤的语言模型调用,并通过运行时屏幕检查确保正确性。
OmniGUI:在全方位模态智能手机环境中对GUI智能体进行基准测试
OmniGUI引入了一个针对GUI智能体的步骤级基准测试,该测试整合了静态图像、同步音频和视频片段,以模拟真实的智能手机交互。评估显示,当前模型在处理时序和听觉输入方面存在困难,凸显了对全方位模态能力的需求。
你需要理解的关键点:计算机使用代理与浏览器使用代理的区别
本文解释了计算机使用代理(通过像素截图操作完整桌面界面)与浏览器使用代理(可利用DOM隐藏结构)之间的关键区别,前者是更难的技术问题。
MobileGym: 一个可验证且高度并行的移动GUI代理研究仿真平台
MobileGym是一个基于浏览器的移动GUI代理研究仿真平台,具有确定性状态评估和可扩展的并行执行功能。它包含一个包含416个任务的基准测试,并展示了在Qwen3-VL-4B上使用GRPO带来的提升。