VISUALSKILL:面向计算机使用智能体的多模态技能

arXiv cs.CL 论文

摘要

VisualSkill 提出了一种层级化的多模态技能库,用于计算机使用智能体,结合文本与图像,通过在 GUI 交互中保留视觉信息,在 CUA 基准测试上相较于纯文本基线实现了 15.3 个百分点的绝对提升。

arXiv:2606.18448v1 公告类型:新论文 摘要:计算机使用智能体(CUA)在标准化基准测试上已接近人类水平,但在长周期任务和未见过的软件上仍存在困难。现有技能库通过可复用的技能解决了这一问题,但仅将技能制品表示为文本,尽管 GUI 交互本质上是视觉性的。我们提出 VISUALSKILL:一种层级化的多模态技能,针对每个目标应用定制,组织为按主题文件归档的中央索引,智能体通过 load_topic MCP 工具按需获取相关主题的文本和图像。我们使用两阶段流水线构建每个技能,该流水线结合了编写文档和现场应用程序 UI 探索。在两个 CUA 基准测试(CUA-World 和 OSExpert-Eval)上,由 Claude Opus 4.6 驱动的 Claude Code CLI 智能体在使用 VISUALSKILL 时达到平均得分 0.456,较无技能基线(0.303)提升了 15.3 个百分点。与基于同一源内容生成、仅模态与 VISUALSKILL 不同的匹配纯文本技能相比,VISUALSKILL 进一步取得了 8.3 个百分点的绝对增益(0.373 vs. 0.456),这直接证明了在技能制品中保留视觉图像(而非将其用语言描述掉)有助于智能体识别 UI 元素并在每次操作后验证工作流状态。我们的代码可在 https://github.com/XMHZZ2018/VisualSkills 获取。
查看原文
查看缓存全文

缓存时间: 2026/06/18 05:45

# VisualSkill:面向计算机使用代理的多模态技能  
来源:https://arxiv.org/html/2606.18448  

Ziyan Jiang¹,\*, Li An¹,\*, Yujian Liu¹, Jiabao Ji¹, Qiucheng Wu¹, Jacob Andreas²,†, Yang Zhang³,†, Shiyu Chang¹,†  

¹加州大学圣塔芭芭拉分校,²MIT CSAIL,³MIT-IBM Watson AI Lab  
*同等贡献。†同等指导。  
通讯邮箱:{ziyanjiang, li\_an}@ucsb.edu  

###### 摘要  

计算机使用代理(CUA)在标准化基准测试上已达到接近人类水平的性能,但在长周期任务和未知软件上仍表现挣扎。现有技能库通过可复用技能解决这一问题,但仅将技能表示为文本工件,忽略了图形用户界面交互的视觉本质。我们提出**VisualSkill**:一种分层多模态技能,为每个目标应用定制,组织为按主题文件索引的中央索引,代理通过`load_topic` MCP工具按需获取相关主题的文本和图片。我们通过一个两阶段流水线构建每个技能,该流水线结合编写文档和实时应用界面探索。在两个CUA基准测试(CUA-World和OSExpert-Eval)上,基于Claude Opus 4.6的Claude Code CLI代理在配备VisualSkill时平均得分为**0.456**,比无技能基线(0.303)绝对提升**+15.3**个百分点。与从相同源内容生成、仅在模态上与VisualSkill不同的纯文本技能相比,VisualSkill进一步获得**+8.3**个百分点的绝对提升(0.373 vs. 0.456),这直接证明:在技能工件中保留视觉图片而非将其文本化,有助于代理识别UI元素以及验证每次操作后的工作流状态。我们的代码可在 https://github.com/XMHZZ2018/VisualSkills 获取。  

---

# VisualSkill:面向计算机使用代理的多模态技能  

## 1 引言  

代理技能近期引入了一种基于文件系统的模块化抽象,使代理能够按需获得领域特定专业知识。技能对于计算机使用代理(CUA)尤为有价值,后者通过截图和键盘/鼠标操作与图形用户界面交互。CUA发展迅速 (Wang et al., 2026; Agashe et al., 2025),目前在标准化桌面基准测试(如OSWorld (Xie et al., 2024; Anthropic, 2026; Simular AI, 2026))上已接近人类水平,但在复杂、长周期任务上仍表现挣扎,泛化能力差,且难以应对未知的UI和软件 (Aggarwal et al., 2026; Liu et al., 2026),主要原因在于它们缺乏持久的、应用特定的程序性知识(哪个菜单隐藏了某命令、点击后出现什么对话框、多步工作流如何展开),这些是预训练无法提供的。技能可以在决策时恰好提供此类知识。  

然而,现有的CUA技能库大多为纯文本形式,将技能工件表示为自然语言意图配对文本动作规范,没有为图片或截图留出位置 (Chen et al., 2026; Liu et al., 2026),这在两方面与计算机使用环境不匹配。  

首先,许多代理必须操作的UI元素(图标、布局、界面状态及控件间的空间关系)用文本描述冗长或模糊,因此进入技能的文本替代品会丢失原始截图直接承载的信息。  

其次,多步工作流要求代理在每个动作后验证是否已到达预期的中间UI状态。参考截图作为目标UI状态的直接视觉接地信号,可以与代理当前观察进行匹配。而文本描述仅间接指定状态,使得验证代理是否到达正确状态(或视觉相似但不正确的状态)更加困难。  

这两个局限性激发了**多模态技能**,即保留视觉内容作为图片,与文本过程并存。如图1所示,纯文本技能难以描述精确的操作和需关注的图标,造成歧义,而多模态技能可以避免。  

我们提出**VisualSkill**,构建多模态技能,其中视觉内容保留为图片。VisualSkill为每个目标应用生成**一个技能**,将技能范围限定为代理端到端操作该应用所需的所有UI知识。每个这样的技能以**分层**方式组织:一个中央索引文件列出每个主题及其简短“何时使用”描述,并指向每个主题的文件,该文件包含该主题的文本正文和图片。在推理时,代理仅读取紧凑的索引,并调用`load_topic` MCP工具按需获取文本和图片。  

> 图1:纯文本技能难以描述精确的操作和需关注的图标,造成歧义,而多模态技能可以避免。  

为构建此类技能,VisualSkill运行一个两阶段流水线,每个阶段针对上述两个挑战之一。阶段1将编写文档(PDF指南、HTML手册)挖掘成此层次结构,保留源文档中的图片原样。阶段2通过探索实时应用来丰富技能,包括两种模式:**自由探索**(LLM规划器将应用的起始页分区覆盖)和**定向探索**(训练任务轨迹定位当前技能表现欠佳的UI区域)。两种模式收集的截图在经过可选后处理后,插入到相应的主题技能文件中。  

总之,我们做出三项贡献。第一,我们将VisualSkill设计为分层多模态工件,每个目标应用一个技能,并有一个按主题文件索引的中央索引,代理通过`load_topic` MCP工具按需获取相关主题的文本和图片。第二,我们通过一个两阶段流水线构建此类技能,该流水线结合编写文档(阶段1)和实时应用UI探索(阶段2)。第三,我们评估VisualSkill与一个纯文本对照技能,后者联合从相同源内容生成,仅在模态上不同,因此任何性能差距可归因于视觉呈现的效应:在来自CUA-World和OSExpert-Eval的177个任务上,使用Claude Opus 4.6 Claude Code CLI代理,VisualSkill将非加权平均分从0.303(无技能)提升至0.456(绝对提升+15.3%),并比纯文本对照高出绝对+8.3%,而定性分析显示,多模态优势集中在纯文本技能的两个失败模式上:识别UI元素(图标、布局、空间关系)和验证每次操作后的中间工作流状态。  

---

## 2 方法  

本节定义什么是VisualSkill,代理在推理时如何使用它,以及我们如何为目标桌面应用构建一个VisualSkill。第2.1节给出VisualSkill的形式化定义。第2.2节描述代理在决策时导航技能的加载机制。第2.3节描述从编写文档(阶段1)和与实时应用交互(阶段2)生成任何应用技能的两阶段流水线。  

### 2.1 技能定义  

VisualSkill中的技能是关于单个目标应用的结构化参考:每个应用一个技能,由该应用的所有任务共享。每个技能组织为一个中央化的`skill.md`索引,加上按主题指南的列表 \(\{g_t\}_{t \in \mathcal{T}}\),排列成两层层次结构。`skill.md`索引指向每个主题指南,并用一句“何时使用”描述标记,代理在加载指南前将其与当前任务匹配。每个主题指南 \(g_t = (p_t, F_t)\) 将文本正文 \(p_t\) 与一组UI图片 \(F_t\) 配对。在推理时,代理仅预先读取`skill.md`索引,并按需加载各个 \(g_t\)(第2.2节)。完整结构和`skill.md`摘录见附录A.1。  

对于每个应用,我们交付的工件是VisualSkill \(\mathcal{S}^{\mathrm{mm}}\),其保留UI图片。为了在评估时隔离视觉模态的贡献,我们额外从相同源材料构建一个**纯文本对照** \(\mathcal{S}^{\mathrm{txt}}\):它与 \(\mathcal{S}^{\mathrm{mm}}\) 共享相同层次结构(相同`skill.md`索引、相同主题集 \(\mathcal{T}\)、每个主题相同的过程内容),仅在主题指南上不同——\(\mathcal{S}^{\mathrm{mm}}\) 使用 \(g_t^{\mathrm{mm}} = (p_t^{\mathrm{mm}}, F_t)\),UI图片与文本正文并存;而 \(\mathcal{S}^{\mathrm{txt}}\) 使用 \(g_t^{\mathrm{txt}} = (p_t^{\mathrm{txt}}, \emptyset)\),无图片,文本正文直接用文字描述相同的视觉信息。两个文本正文并非逐字相同,因为每个都以自身模态最自然的形式编写。为保证过程内容共享,流水线中每个主题生成步骤(第2.3节)是一个单独的LLM调用,它读取主题的源文本和图片,并同步输出 \(p_t^{\mathrm{mm}}\) 和 \(p_t^{\mathrm{txt}}\)。在此构建下,\(\mathcal{S}^{\mathrm{mm}}\) 和 \(\mathcal{S}^{\mathrm{txt}}\) 之间代理性能的任何差距可归因于模态本身,而非底层内容的差异。附录A.2给出了一个主题上 \(\mathcal{S}^{\mathrm{mm}}\) 和对应 \(\mathcal{S}^{\mathrm{txt}}\) 的摘录。  

### 2.2 推理时的技能加载  

在推理时,代理不会预先加载整个技能。其系统提示仅包含`SKILL.md`索引,该索引列出每个主题及其一句“何时使用”描述。为检索主题指南,代理调用一个MCP工具 `load_topic(t)`,它接受主题标识符 \(t \in \mathcal{T}\) 并返回指南 \(g_t\)。在每个步骤,代理将其下一个预期动作与“何时使用”描述匹配,如果匹配则先调用 `load_topic` 再执行操作。随着任务在UI界面间移动,该工具可在轨迹中被多次调用。对于多模态变体,返回的内容将文本和图像块交错排列,顺序为 \(p_t\) 中引用图片的顺序,因此每个 \(F_t\) 中的图像紧随命名它的句子之后交付。对于纯文本对照,同一调用返回单个文本块,其措辞已吸收视觉信息。完整的系统提示、`load_topic` 模式以及实际工具调用记录见附录B。  

我们通过MCP工具而非直接读取(Read)暴露技能加载,原因有二。首先,MCP工具在单个工具结果中内联交付每个图片及其周围文本,而直接读取下每个图片需要单独调用并在实践中被跳过。其次,MCP接口使技能内容在整个轨迹中可访问,而直接读取倾向于在开始时调用一次后便不再使用。第4.2节通过实验验证了这些效应:在直接读取下,代理每个任务加载约10倍更少的图片,并在滚动的头约2%后停止咨询技能,从而丢失多模态增益。  

### 2.3 两阶段技能构建  

> 图2:两阶段VisualSkill构建流水线。阶段1将编写文档解析为主题层次结构,提取每个主题的文本正文以及手册附带的供应商绘制图片。阶段2用LLM控制的探索器驱动实时应用,包括两个子阶段——**自由探索器**将空闲窗口分区并为每个区域派遣工作者,以及**轨迹定向探索器**重新读取失败滚动并修补代理误读的UI区域——并将捕获的截图和笔记合并到主题指南中。匹配的纯文本技能从相同源联合生成,仅在模态上不同。  

我们的流水线(图2)为应用 \(\mathcal{A}\) 分两个阶段构建VisualSkill \(\mathcal{S}^{\mathrm{mm}}\),并从相同源同时生成纯文本对照 \(\mathcal{S}^{\mathrm{txt}}\)。阶段1从编写文档中挖掘初始版本技能,利用成熟应用通常配备结构化手册的事实,其目录可重用为主题集 \(\mathcal{T}\)。阶段2通过用LLM控制的探索器驱动实时应用来增强技能,捕获仅存在于运行程序中的UI知识。在每个阶段,第2.1节的相同单次调用协议从相同输入同时输出 \(\mathcal{S}^{\mathrm{mm}}\) 和 \(\mathcal{S}^{\mathrm{txt}}\),因此 \(\mathcal{T}\) 和每个主题的过程内容通过构建共享;仅 \(F_t\) 和 \(p_t\) 围绕每个图片槽的措辞不同。  

#### 阶段1:从编写文档  

阶段1获取应用的官方用户指南 \(D\)(在我们的实验中为PDF或HTML手册),并通过几个LLM驱动步骤产生阶段1 VisualSkill \(\mathcal{S}^{\mathrm{mm}}_1\);纯文本对照 \(\mathcal{S}^{\mathrm{txt}}_1\) 在同一调用中输出。我们首先解析 \(D\) 的目录并重用为 \(\mathcal{T}\):应用维护者已为我们组织了界面,继承其结构比强制使用新结构更便宜且更忠实。对于每个主题 \(t\),我们随后构建主题指南 \(g_t = (p_t, F_t)\),方法是定位 \(D\) 中覆盖 \(t\) 的页面,提取这些页面上的所有图片作为 \(F_t\),并调用联合生成调用编写 \(p_t^{\mathrm{mm}}\) 和 \(p_t^{\mathrm{txt}}\)。由于图片直接来自官方手册,\(F_t\) 包含供应商绘制的应用UI截图,而非代理捕获的截图。由此产生的技能是分层组织的,其覆盖范围与文档覆盖范围一致。附录C.1完整演示了一个阶段1主题的端到端过程。  

#### 阶段2:从UI探索  

阶段1的技能不可避免地不完整:文档通常相对于已发布的UI过时,遗漏低频对话框,并且很少捕获代理在点击时必须区分的视觉供能。阶段2通过用规划器驱动实时应用来弥补这一差距。

相似文章

代理技能应超越纯文本:视觉技能的必要性

Hugging Face Daily Papers

本文认为代理技能应包含视觉信息,而不仅仅是文本,并提出了一种多模态技能范式,将文本逻辑与视觉支持相结合。实验表明,在视觉中心任务中,视觉技能优于纯文本方法。

MMSkills:面向通用视觉智能体的多模态技能

arXiv cs.AI

本文介绍了MMSkills,这是一个用于表示、生成和使用视觉智能体多模态程序性知识的框架,结合了文本程序与视觉状态卡和关键帧,并在GUI和游戏类视觉智能体基准测试中展示了改进效果。

AgentViSS:多模态仿真中的视觉社交智能基准测试

arXiv cs.CL

本文介绍了AgentViSS基准,用于评估多模态社交模拟中的视觉社交智能,包含240个场景及对齐的视觉文本证据。评估七个近期MLLM发现局部角色扮演与基于视觉的交互管理之间存在差距。