MMSkills:面向通用视觉智能体的多模态技能

arXiv cs.AI 论文

摘要

本文介绍了MMSkills,这是一个用于表示、生成和使用视觉智能体多模态程序性知识的框架,结合了文本程序与视觉状态卡和关键帧,并在GUI和游戏类视觉智能体基准测试中展示了改进效果。

arXiv:2605.13527v1 Announce Type: new 摘要:可复用技能已成为提升智能体能力的核心支柱,但现有大多数技能包主要将可复用行为编码为文本提示、可执行代码或学习到的例程。然而,对于视觉智能体而言,程序性知识本质上是多模态的:复用不仅取决于执行什么操作,还取决于识别相关状态、解读进展或失败的视觉证据,以及决定下一步行动。我们将这一需求形式化为多模态程序性知识,并解决三个实际挑战:(I)多模态技能包应包含什么;(II)这些包可以从公共交互经验中派生自何处;(III)智能体如何在推理时参考多模态证据,而无需过多的图像上下文或过度锚定到参考截图。我们引入MMSkills,一个用于表示、生成和使用可复用多模态程序以支持运行时视觉决策的框架。每个MMSkill是一个紧凑的、状态条件化的包,将文本程序与运行时状态卡和多视角关键帧相结合。为了构建这些包,我们开发了一个智能体轨迹到技能的生成器,通过工作流分组、程序归纳、视觉定位和元技能引导审核,将公共非评估轨迹转换为可复用的多模态技能。为了使用这些技能,我们引入了一个分支加载的多模态技能智能体:在临时分支中检查选定的状态卡和关键帧,与实时环境对齐,并提炼为结构化指导传递给主智能体。在GUI和游戏类视觉智能体基准上的实验表明,MMSkills consistently improves both frontier and smaller multimodal agents, suggesting that external multimodal procedural knowledge complements model-internal priors.
查看原文
查看缓存全文

缓存时间: 2026/05/14 06:16

# MMSkills:迈向通用视觉智能体的多模态技能
来源:https://arxiv.org/html/2605.13527

Shuai ShaoQingyao LiJianghao LinLingyue FuShijian Wang Wenxiang JiaoYuan LuWeiwen LiuWeinan ZhangYong Yu\\[\\[

###### 摘要

可复用技能已成为提升智能体能力的核心基础,然而现有大多数技能包主要将可复用行为编码为文本提示、可执行代码或学习到的例程。但对于视觉智能体而言,程序性知识本质上是多模态的:复用不仅取决于执行何种操作,还取决于识别相关状态、解读体现进展或失败的视觉证据,以及决定下一步行动。我们将此需求形式化为*多模态程序性知识*,并解决三个实际挑战:(I)多模态技能包应包含*什么内容*;(II)此类包*从何处*可从公开交互经验中导出;(III)智能体在推理时*如何*在不引入过多图像上下文或过度锚定于参考截图的情况下,查阅多模态证据。我们提出*MMSkills*,一个用于表示、生成和利用可复用多模态程序进行运行时视觉决策的框架。每个 MMSkill 是一个紧凑的、状态条件化的包,它结合了文本程序、运行时状态卡和 Multi-View 关键帧。为了构建这些包,我们开发了一个智能体式的轨迹到技能生成器,通过工作流分组、程序归纳、视觉锚定和元技能引导审计,将公开的非评估轨迹转换为可复用的多模态技能。为了使用它们,我们引入了分支加载多模态技能智能体:在临时分支中检查选定的状态卡和关键帧,与实时环境对齐,并提炼出结构化的指导信息提供给主智能体。在基于 GUI 和游戏的视觉智能体基准测试中的实验表明,MMSkills 能够持续改进前沿和较小规模的多模态智能体,表明外部多模态程序性知识能够补充模型内部先验。

## 1 引言

技能已成为构建有用智能体的核心抽象之一:最近的系统将可复用行为存储为提示、代码、执行图或学习到的例程,以便后续检索和组合 (Wang et al., [2023a](https://arxiv.org/html/2605.13527#bib.bib40); Zheng et al., [2025](https://arxiv.org/html/2605.13527#bib.bib61); Chen et al., [2026](https://arxiv.org/html/2605.13527#bib.bib6); Wang et al., [2026a](https://arxiv.org/html/2605.13527#bib.bib39))。尽管实现方式各异,但这些技能大多共享一个共同的表示假设:可复用知识可以表示为文本或代码级别的动作规范。这种设计在相关状态能够充分抽象为语言时是有效的,但对于决策依赖于视觉证据的多模态智能体来说则不足够。对于此类智能体,可复用经验不仅要指定执行什么操作,还要指明如何识别相关状态,以及视觉证据应如何指导下一步决策。一个桌面智能体可能知道正确的操作,但无法识别对话框尚未就绪;一个游戏智能体可能知道目标是什么,但仍需要视觉线索来区分进展与完成。这一观察与人类的程序性学习一致,其中视觉信息可以补充言语解释 (Mayer, [2009](https://arxiv.org/html/2605.13527#bib.bib27))。因此,纯文本技能变得冗长却不明确,而演示虽然保留了视觉上下文,但冗长、特定于实例且难以适应。这一差距表明需要*多模态程序性知识*:一种可复用的指导,它结合了动作程序及其应用所需的视觉证据和状态依赖的决策。这种知识并非简单地附上截图的文本技能。为了具备可复用性,它必须指明正在复用的程序是什么、应何时使用(或不应使用)该程序、哪些可见线索是重要的,以及哪些证据能验证进展、失败或完成。将此需求转化为实用的多模态技能库提出了三个核心挑战:

- • **表示。** 多模态技能包应包含什么内容?如何将程序、可见线索和验证线索绑定成一个连贯的可复用单元?
- • **生成。** 如果必须使用公开的非评估交互经验,而非手写示例或原始演示回放,那么此类包从何处获取?
- • **利用。** 智能体在推理时如何查阅多模态技能证据,同时避免过多的图像上下文、分散注意力的状态描述以及过度锚定于参考截图?

我们提出 MMSkills,一个用于表示、生成和利用可复用多模态程序进行运行时视觉决策的框架。每个 MMSkill 结合了一个*文本程序*(描述可复用的动作模式)、*运行时状态卡*(编码何时使用、何时不使用的条件、可见线索、验证线索以及可用视图)和*Multi-View 关键帧*(通过全帧、聚焦和可选的之前/之后视图来锚定关键状态)。最终得到的包并非带有说明性附图的文本指令,而是一个状态条件化的程序,其视觉证据帮助智能体决定是遵循、跳过还是验证该程序。

参考图注
图1:一个具体的 MMSkills 示例。一个多模态技能包结合了文本程序、运行时状态卡和 Multi-View 视觉证据。对于相同的图表创建任务,纯文本指导可能遗漏活动工作表状态,而分支加载的 MMSkills 将技能证据与实时屏幕对齐,并返回针对主智能体的状态感知指导。

为了*生成*多模态技能包,我们引入了一个*自动化的轨迹到技能生成器*,它基于智能体式的、元技能引导的流水线。这个生成问题比文本技能提取要困难得多:虽然先前的流水线通常可以将成功的展开轨迹、失败分析或积累的轨迹压缩为可复用的指令或动作抽象 (Zheng et al., [2025](https://arxiv.org/html/2605.13527#bib.bib61); Wang et al., [2026a](https://arxiv.org/html/2605.13527#bib.bib39); Alzubi et al., [2026](https://arxiv.org/html/2605.13527#bib.bib3); Ma et al., [2026](https://arxiv.org/html/2605.13527#bib.bib26); Xia et al., [2026](https://arxiv.org/html/2605.13527#bib.bib48); Li et al., [2026b](https://arxiv.org/html/2605.13527#bib.bib19)),但生成 MMSkills 还必须识别可复用的视觉状态、选择诊断性帧,并将每个视觉线索绑定到其所支持的决策规则。我们的生成器在公开轨迹上运行,这些轨迹*与评估任务分离*:它对相关工作流进行分组,归纳候选程序,合并重叠的候选程序,将其锚定在真实的非测试轨迹帧中,并使用可复用的多模态技能工厂元技能对结果包进行审计。此过程将公开的交互数据转换为紧凑的视觉程序性知识,而不将原始演示作为技能存储。

为了有效*利用*,我们引入了*分支加载*来查阅多模态技能,而无需将整个包注入主轨迹。现有的技能智能体通常将检索到的技能直接插入主交互上下文。这种加载模式对于 MMSkills 来说会带来问题:单个包可能包含多个状态卡以及 Multi-View 截图,因此直接插入会造成显著的上下文压力,并使参考图像与实时观察竞争。更重要的是,主智能体可能会在视觉上锚定于表面相似的参考截图,围绕技能示例而非当前环境进行规划。分支加载以多模态渐进式展示的方式解决了此问题 (Xu and Yan, [2026](https://arxiv.org/html/2605.13527#bib.bib51))。当主智能体考虑一个技能时,它会打开一个临时分支,选择所需的状态卡和关键帧视图,将其与实时屏幕或场景对齐,并返回紧凑的结构化指导,包括适用性判断、子目标和下一步计划。主轨迹接收的是提炼后的决策支持,而非完整的技能包,如图1中的示例所示。

我们评估了 MMSkills 在基于 GUI 和游戏的视觉智能体任务上的表现,包括 OSWorld (Xie et al., [2024](https://arxiv.org/html/2605.13527#bib.bib49)), macOSWorld (Yang et al., [2025b](https://arxiv.org/html/2605.13527#bib.bib54)), VisualAgentBench 中的 VAB-Minecraft (Liu et al., [2024a](https://arxiv.org/html/2605.13527#bib.bib22)), 以及 LMGame-Bench 中的 Super-Mario (Hu et al., [2025](https://arxiv.org/html/2605.13527#bib.bib12))。在顶尖和较小规模的多模态模型上,MMSkills 相比无技能和纯文本技能条件均提升了性能,表明外部视觉程序性知识能够补充模型内部先验。我们的主要贡献总结如下:

- • 据我们所知,我们首次引入*多模态技能包*,将通用视觉智能体的可复用技能形式化为多模态程序性知识:紧凑的、状态条件化的单元,组织文本程序、运行时状态卡和 Multi-View 关键帧以支持视觉决策。
- • 我们开发了一个智能体式的轨迹到技能*生成器*,通过工作流分组、程序归纳、视觉锚定和元技能引导审计,将公开的非评估轨迹转换为多模态技能包。
- • 我们提出了*分支加载*,一种运行时机制,在临时分支中选择并对齐多模态技能证据,然后返回结构化的决策支持给主智能体。
- • 我们在基于 GUI 和游戏的视觉智能体基准测试以及多个模型家族上展示了显著的性能提升,表明外部多模态程序性知识能够补充模型内部先验。

## 2 方法

### 2.1 概述

MMSkills 围绕三个组件设计:一个*多模态技能包*,存储可复用的视觉程序性知识;一个*技能生成流水线*,从公开轨迹构建此类包;以及一个*分支加载的多模态技能智能体*,在临时分支中隔离技能-环境对齐,并在推理时将提炼后的决策支持返回给主轨迹。图2给出了系统概览。

参考图注
图2:MMSkills 框架概述。多模态技能包存储可复用的文本程序、运行时状态卡和 Multi-View 关键帧。元技能引导的生成器将公开的非测试轨迹转换为可复用的多模态技能库。推理时,主视觉智能体使用分支加载在临时分支中检查选定的技能证据,并在行动前接收紧凑的结构化指导。

在高层,生成器将非评估轨迹集 \mathcal{T}=\{\tau_i\} 映射到一个多模态技能库 \mathcal{M}=\{M_i\}_{i=1}^N。在回合开始之前,运行时智能体根据指令 I 和紧凑的技能描述符,预召回一个任务级别的候选集合 \mathcal{C}_I \subset \mathcal{M}。执行过程中,主智能体观察当前视觉观察 O_t,维护一个短期历史 H_t,并直接行动或为某个 M_t \in \mathcal{C}_I 咨询临时技能分支:

直接:
\displaystyle A_t = \pi_{\text{main}}(O_t, H_t, \mathcal{C}_I), \tag{1}

分支:
\displaystyle G_t = \text{Branch}(O_t, H_t, M_t), \quad A_t = \pi_{\text{main}}(O_t, H_t, \mathcal{C}_I, G_t). \tag{2}

分支输出是结构化指导元组:
G_t = (\text{applicable}_t, \text{subgoal}_t, \text{plan}_t, \text{do\_not\_do}_t, \text{verify}_t), \tag{3}

各字段分别表示适用性判断、局部子目标、技能条件化计划、负面约束和视觉验证检查。主智能体将 G_t 用作决策支持,而可执行动作的锚定仍基于实时观察。

### 2.2 多模态技能包

我们将每个 MMSkill 表示为一个状态条件化的程序包:
M = (D, P, S, K), \tag{4}

其中 D 是紧凑的描述符,P 是可复用的文本程序,S = \{S_j\}_{j=1}^m 是一组运行时状态卡,K = \{K_j\}_{j=1}^m 是一组与这些状态卡对齐的关键帧包。每对 (S_j, K_j) 对应一个决策相关的程序性状态。程序指明了可复用的工作流;状态卡指明了工作流何时有效或无效;关键帧使状态在运行时视觉可识别。

运行时状态卡是面向智能体的状态节点,而非图像标注。它将程序中的一个点关联到何时使用条件、何时不使用条件、可见线索、验证线索和可用视图:
S_j = (\text{何时\_使用}_j, \text{何时\_不\_使用}_j, \text{可见\_线索}_j, \text{验证\_线索}_j, \mathcal{V}_j), \quad \mathcal{V}_j = \text{可用\_视图}_j. \tag{5}

前两个字段定义何时应遵循或跳过该状态;\text{可见\_线索}_j 说明需要检查哪些证据;\text{验证\_线索}_j 定义进展或完成检查;\mathcal{V}_j 列出哪些视图可以被加载。此模式使技能对决策有用:智能体可以决定是遵循、跳过还是验证该程序。

每个关键状态由一个小型的 Multi-View 包进行锚定。设 \mathcal{V} = \{\text{全帧}, \text{聚焦裁剪}, \text{之前}, \text{之后}\}。则:
K_j = \{K_j^v : v \in \mathcal{V}_j, v \in \mathcal{V}\}. \tag{6}

全帧视图保留全局上下文,聚焦裁剪定位视觉线索,可选的之前/之后视图展示有用的转换。这些图像是参考证据,而非要复制的坐标。

在此表示下,纯文本技能是退化包 (D, P, \emptyset, \emptyset);MMSkills 通过将程序、决策条件和视觉证据绑定为一个可复用单元来扩展它。

### 2.3 从公开轨迹生成技能

我们从与评估任务分离的公开交互轨迹构建 MMSkills。一条轨迹是:
\tau_i = (I_i, O_{i,1:T_i}, A_{i,1:T_i}), \tag{7}

其中 I_i 是任务指令,O_{i,t} 是视觉观察,A_{i,t} 是执行的动作。生成器由一个可复用的多模态技能工厂元技能 \mathcal{F} 控制:
\mathcal{G}_{\mathcal{F}}: \mathcal{T}_d \mapsto \mathcal{M}_d, \tag{8}

其中 \mathcal{T}_d 是领域 d 的公开轨迹池,\mathcal{M}_d 是生成的领域技能库。流水线包括以下步骤:

相似文章

代理技能应超越纯文本:视觉技能的必要性

Hugging Face Daily Papers

本文认为代理技能应包含视觉信息,而不仅仅是文本,并提出了一种多模态技能范式,将文本逻辑与视觉支持相结合。实验表明,在视觉中心任务中,视觉技能优于纯文本方法。

从多模态经验中学会学习

arXiv cs.AI

本文介绍了AutoMMemo,一个使多模态智能体能够自动设计记忆机制(可表达为可执行的备忘录程序)以从多模态交互轨迹中学习的框架,在GUI/Web导航和视觉推理基准上优于无记忆和固定记忆基线。

MM-WebAgent: 一种用于网页生成的分层多模态Web智能体

Hugging Face Daily Papers

MM-WebAgent是一种分层智能体框架,通过联合优化布局和多模态内容来协调基于AIGC的元素生成,从而生成连贯且视觉一致的网页。本文引入了一个基准测试和多级评估协议,展示了该框架相比代码生成和基于智能体的基线方法的改进。