VISUALSKILL：面向计算机使用智能体的多模态技能

arXiv cs.CL 2026/06/18 04:00 论文

computer-use-agents multimodal-skills gui-agents skill-library reinforcement-learning arxiv uc-santa-barbara

摘要

VisualSkill 提出了一种层级化的多模态技能库，用于计算机使用智能体，结合文本与图像，通过在 GUI 交互中保留视觉信息，在 CUA 基准测试上相较于纯文本基线实现了 15.3 个百分点的绝对提升。

arXiv:2606.18448v1 公告类型：新论文摘要：计算机使用智能体（CUA）在标准化基准测试上已接近人类水平，但在长周期任务和未见过的软件上仍存在困难。现有技能库通过可复用的技能解决了这一问题，但仅将技能制品表示为文本，尽管 GUI 交互本质上是视觉性的。我们提出 VISUALSKILL：一种层级化的多模态技能，针对每个目标应用定制，组织为按主题文件归档的中央索引，智能体通过 load_topic MCP 工具按需获取相关主题的文本和图像。我们使用两阶段流水线构建每个技能，该流水线结合了编写文档和现场应用程序 UI 探索。在两个 CUA 基准测试（CUA-World 和 OSExpert-Eval）上，由 Claude Opus 4.6 驱动的 Claude Code CLI 智能体在使用 VISUALSKILL 时达到平均得分 0.456，较无技能基线（0.303）提升了 15.3 个百分点。与基于同一源内容生成、仅模态与 VISUALSKILL 不同的匹配纯文本技能相比，VISUALSKILL 进一步取得了 8.3 个百分点的绝对增益（0.373 vs. 0.456），这直接证明了在技能制品中保留视觉图像（而非将其用语言描述掉）有助于智能体识别 UI 元素并在每次操作后验证工作流状态。我们的代码可在 https://github.com/XMHZZ2018/VisualSkills 获取。

查看原文

查看缓存全文

缓存时间: 2026/06/18 05:45

# VisualSkill：面向计算机使用代理的多模态技能  
来源：https://arxiv.org/html/2606.18448  

Ziyan Jiang¹,\*, Li An¹,\*, Yujian Liu¹, Jiabao Ji¹, Qiucheng Wu¹, Jacob Andreas²,†, Yang Zhang³,†, Shiyu Chang¹,†  

¹加州大学圣塔芭芭拉分校，²MIT CSAIL，³MIT-IBM Watson AI Lab  
*同等贡献。†同等指导。  
通讯邮箱：{ziyanjiang, li\_an}@ucsb.edu  

###### 摘要  

计算机使用代理（CUA）在标准化基准测试上已达到接近人类水平的性能，但在长周期任务和未知软件上仍表现挣扎。现有技能库通过可复用技能解决这一问题，但仅将技能表示为文本工件，忽略了图形用户界面交互的视觉本质。我们提出**VisualSkill**：一种分层多模态技能，为每个目标应用定制，组织为按主题文件索引的中央索引，代理通过`load_topic` MCP工具按需获取相关主题的文本和图片。我们通过一个两阶段流水线构建每个技能，该流水线结合编写文档和实时应用界面探索。在两个CUA基准测试（CUA-World和OSExpert-Eval）上，基于Claude Opus 4.6的Claude Code CLI代理在配备VisualSkill时平均得分为**0.456**，比无技能基线（0.303）绝对提升**+15.3**个百分点。与从相同源内容生成、仅在模态上与VisualSkill不同的纯文本技能相比，VisualSkill进一步获得**+8.3**个百分点的绝对提升（0.373 vs. 0.456），这直接证明：在技能工件中保留视觉图片而非将其文本化，有助于代理识别UI元素以及验证每次操作后的工作流状态。我们的代码可在 https://github.com/XMHZZ2018/VisualSkills 获取。  

---

# VisualSkill：面向计算机使用代理的多模态技能  

## 1 引言  

代理技能近期引入了一种基于文件系统的模块化抽象，使代理能够按需获得领域特定专业知识。技能对于计算机使用代理（CUA）尤为有价值，后者通过截图和键盘/鼠标操作与图形用户界面交互。CUA发展迅速 (Wang et al., 2026; Agashe et al., 2025)，目前在标准化桌面基准测试（如OSWorld (Xie et al., 2024; Anthropic, 2026; Simular AI, 2026)）上已接近人类水平，但在复杂、长周期任务上仍表现挣扎，泛化能力差，且难以应对未知的UI和软件 (Aggarwal et al., 2026; Liu et al., 2026)，主要原因在于它们缺乏持久的、应用特定的程序性知识（哪个菜单隐藏了某命令、点击后出现什么对话框、多步工作流如何展开），这些是预训练无法提供的。技能可以在决策时恰好提供此类知识。  

然而，现有的CUA技能库大多为纯文本形式，将技能工件表示为自然语言意图配对文本动作规范，没有为图片或截图留出位置 (Chen et al., 2026; Liu et al., 2026)，这在两方面与计算机使用环境不匹配。  

首先，许多代理必须操作的UI元素（图标、布局、界面状态及控件间的空间关系）用文本描述冗长或模糊，因此进入技能的文本替代品会丢失原始截图直接承载的信息。  

其次，多步工作流要求代理在每个动作后验证是否已到达预期的中间UI状态。参考截图作为目标UI状态的直接视觉接地信号，可以与代理当前观察进行匹配。而文本描述仅间接指定状态，使得验证代理是否到达正确状态（或视觉相似但不正确的状态）更加困难。  

这两个局限性激发了**多模态技能**，即保留视觉内容作为图片，与文本过程并存。如图1所示，纯文本技能难以描述精确的操作和需关注的图标，造成歧义，而多模态技能可以避免。  

我们提出**VisualSkill**，构建多模态技能，其中视觉内容保留为图片。VisualSkill为每个目标应用生成**一个技能**，将技能范围限定为代理端到端操作该应用所需的所有UI知识。每个这样的技能以**分层**方式组织：一个中央索引文件列出每个主题及其简短“何时使用”描述，并指向每个主题的文件，该文件包含该主题的文本正文和图片。在推理时，代理仅读取紧凑的索引，并调用`load_topic` MCP工具按需获取文本和图片。  

> 图1：纯文本技能难以描述精确的操作和需关注的图标，造成歧义，而多模态技能可以避免。  

为构建此类技能，VisualSkill运行一个两阶段流水线，每个阶段针对上述两个挑战之一。阶段1将编写文档（PDF指南、HTML手册）挖掘成此层次结构，保留源文档中的图片原样。阶段2通过探索实时应用来丰富技能，包括两种模式：**自由探索**（LLM规划器将应用的起始页分区覆盖）和**定向探索**（训练任务轨迹定位当前技能表现欠佳的UI区域）。两种模式收集的截图在经过可选后处理后，插入到相应的主题技能文件中。  

总之，我们做出三项贡献。第一，我们将VisualSkill设计为分层多模态工件，每个目标应用一个技能，并有一个按主题文件索引的中央索引，代理通过`load_topic` MCP工具按需获取相关主题的文本和图片。第二，我们通过一个两阶段流水线构建此类技能，该流水线结合编写文档（阶段1）和实时应用UI探索（阶段2）。第三，我们评估VisualSkill与一个纯文本对照技能，后者联合从相同源内容生成，仅在模态上不同，因此任何性能差距可归因于视觉呈现的效应：在来自CUA-World和OSExpert-Eval的177个任务上，使用Claude Opus 4.6 Claude Code CLI代理，VisualSkill将非加权平均分从0.303（无技能）提升至0.456（绝对提升+15.3%），并比纯文本对照高出绝对+8.3%，而定性分析显示，多模态优势集中在纯文本技能的两个失败模式上：识别UI元素（图标、布局、空间关系）和验证每次操作后的中间工作流状态。  

---

## 2 方法  

本节定义什么是VisualSkill，代理在推理时如何使用它，以及我们如何为目标桌面应用构建一个VisualSkill。第2.1节给出VisualSkill的形式化定义。第2.2节描述代理在决策时导航技能的加载机制。第2.3节描述从编写文档（阶段1）和与实时应用交互（阶段2）生成任何应用技能的两阶段流水线。  

### 2.1 技能定义  

VisualSkill中的技能是关于单个目标应用的结构化参考：每个应用一个技能，由该应用的所有任务共享。每个技能组织为一个中央化的`skill.md`索引，加上按主题指南的列表 \(\{g_t\}_{t \in \mathcal{T}}\)，排列成两层层次结构。`skill.md`索引指向每个主题指南，并用一句“何时使用”描述标记，代理在加载指南前将其与当前任务匹配。每个主题指南 \(g_t = (p_t, F_t)\) 将文本正文 \(p_t\) 与一组UI图片 \(F_t\) 配对。在推理时，代理仅预先读取`skill.md`索引，并按需加载各个 \(g_t\)（第2.2节）。完整结构和`skill.md`摘录见附录A.1。  

对于每个应用，我们交付的工件是VisualSkill \(\mathcal{S}^{\mathrm{mm}}\)，其保留UI图片。为了在评估时隔离视觉模态的贡献，我们额外从相同源材料构建一个**纯文本对照** \(\mathcal{S}^{\mathrm{txt}}\)：它与 \(\mathcal{S}^{\mathrm{mm}}\) 共享相同层次结构（相同`skill.md`索引、相同主题集 \(\mathcal{T}\)、每个主题相同的过程内容），仅在主题指南上不同——\(\mathcal{S}^{\mathrm{mm}}\) 使用 \(g_t^{\mathrm{mm}} = (p_t^{\mathrm{mm}}, F_t)\)，UI图片与文本正文并存；而 \(\mathcal{S}^{\mathrm{txt}}\) 使用 \(g_t^{\mathrm{txt}} = (p_t^{\mathrm{txt}}, \emptyset)\)，无图片，文本正文直接用文字描述相同的视觉信息。两个文本正文并非逐字相同，因为每个都以自身模态最自然的形式编写。为保证过程内容共享，流水线中每个主题生成步骤（第2.3节）是一个单独的LLM调用，它读取主题的源文本和图片，并同步输出 \(p_t^{\mathrm{mm}}\) 和 \(p_t^{\mathrm{txt}}\)。在此构建下，\(\mathcal{S}^{\mathrm{mm}}\) 和 \(\mathcal{S}^{\mathrm{txt}}\) 之间代理性能的任何差距可归因于模态本身，而非底层内容的差异。附录A.2给出了一个主题上 \(\mathcal{S}^{\mathrm{mm}}\) 和对应 \(\mathcal{S}^{\mathrm{txt}}\) 的摘录。  

### 2.2 推理时的技能加载  

在推理时，代理不会预先加载整个技能。其系统提示仅包含`SKILL.md`索引，该索引列出每个主题及其一句“何时使用”描述。为检索主题指南，代理调用一个MCP工具 `load_topic(t)`，它接受主题标识符 \(t \in \mathcal{T}\) 并返回指南 \(g_t\)。在每个步骤，代理将其下一个预期动作与“何时使用”描述匹配，如果匹配则先调用 `load_topic` 再执行操作。随着任务在UI界面间移动，该工具可在轨迹中被多次调用。对于多模态变体，返回的内容将文本和图像块交错排列，顺序为 \(p_t\) 中引用图片的顺序，因此每个 \(F_t\) 中的图像紧随命名它的句子之后交付。对于纯文本对照，同一调用返回单个文本块，其措辞已吸收视觉信息。完整的系统提示、`load_topic` 模式以及实际工具调用记录见附录B。  

我们通过MCP工具而非直接读取（Read）暴露技能加载，原因有二。首先，MCP工具在单个工具结果中内联交付每个图片及其周围文本，而直接读取下每个图片需要单独调用并在实践中被跳过。其次，MCP接口使技能内容在整个轨迹中可访问，而直接读取倾向于在开始时调用一次后便不再使用。第4.2节通过实验验证了这些效应：在直接读取下，代理每个任务加载约10倍更少的图片，并在滚动的头约2%后停止咨询技能，从而丢失多模态增益。  

### 2.3 两阶段技能构建  

> 图2：两阶段VisualSkill构建流水线。阶段1将编写文档解析为主题层次结构，提取每个主题的文本正文以及手册附带的供应商绘制图片。阶段2用LLM控制的探索器驱动实时应用，包括两个子阶段——**自由探索器**将空闲窗口分区并为每个区域派遣工作者，以及**轨迹定向探索器**重新读取失败滚动并修补代理误读的UI区域——并将捕获的截图和笔记合并到主题指南中。匹配的纯文本技能从相同源联合生成，仅在模态上不同。  

我们的流水线（图2）为应用 \(\mathcal{A}\) 分两个阶段构建VisualSkill \(\mathcal{S}^{\mathrm{mm}}\)，并从相同源同时生成纯文本对照 \(\mathcal{S}^{\mathrm{txt}}\)。阶段1从编写文档中挖掘初始版本技能，利用成熟应用通常配备结构化手册的事实，其目录可重用为主题集 \(\mathcal{T}\)。阶段2通过用LLM控制的探索器驱动实时应用来增强技能，捕获仅存在于运行程序中的UI知识。在每个阶段，第2.1节的相同单次调用协议从相同输入同时输出 \(\mathcal{S}^{\mathrm{mm}}\) 和 \(\mathcal{S}^{\mathrm{txt}}\)，因此 \(\mathcal{T}\) 和每个主题的过程内容通过构建共享；仅 \(F_t\) 和 \(p_t\) 围绕每个图片槽的措辞不同。  

#### 阶段1：从编写文档  

阶段1获取应用的官方用户指南 \(D\)（在我们的实验中为PDF或HTML手册），并通过几个LLM驱动步骤产生阶段1 VisualSkill \(\mathcal{S}^{\mathrm{mm}}_1\)；纯文本对照 \(\mathcal{S}^{\mathrm{txt}}_1\) 在同一调用中输出。我们首先解析 \(D\) 的目录并重用为 \(\mathcal{T}\)：应用维护者已为我们组织了界面，继承其结构比强制使用新结构更便宜且更忠实。对于每个主题 \(t\)，我们随后构建主题指南 \(g_t = (p_t, F_t)\)，方法是定位 \(D\) 中覆盖 \(t\) 的页面，提取这些页面上的所有图片作为 \(F_t\)，并调用联合生成调用编写 \(p_t^{\mathrm{mm}}\) 和 \(p_t^{\mathrm{txt}}\)。由于图片直接来自官方手册，\(F_t\) 包含供应商绘制的应用UI截图，而非代理捕获的截图。由此产生的技能是分层组织的，其覆盖范围与文档覆盖范围一致。附录C.1完整演示了一个阶段1主题的端到端过程。  

#### 阶段2：从UI探索  

阶段1的技能不可避免地不完整：文档通常相对于已发布的UI过时，遗漏低频对话框，并且很少捕获代理在点击时必须区分的视觉供能。阶段2通过用规划器驱动实时应用来弥补这一差距。

VISUALSKILL：面向计算机使用智能体的多模态技能

相似文章

代理技能应超越纯文本：视觉技能的必要性

MMSkills：面向通用视觉智能体的多模态技能

VisualClaw: 面向物理世界的实时个性化智能体

AgentViSS：多模态仿真中的视觉社交智能基准测试

Skill-3D：面向智能体3D空间推理的进化式场景感知技能

提交意见反馈