Teach-and-Repeat: 从移动屏幕演示中准确提取操作知识以赋能GUI代理

arXiv cs.AI 2026/06/12 04:00 论文

摘要

介绍了Teach VLM，一种从移动屏幕演示中提取逐步操作知识的模型，以及Teach-and-Repeat范式，该范式利用这些知识指导GUI代理，在新基准上实现了最先进的性能。

arXiv:2606.12817v1 Announce Type: new 摘要：理解移动设备上的数字世界正在从静态UI感知转向动态动作理解。这种能力使模型能够将视觉状态转换转化为操作知识，定义为描述动作类型、目标UI元素、文本参数和执行顺序的简短自然语言句子。然而，由于不同应用程序中UI设计的高度多样性和异质性，现有的视觉语言模型（VLM）难以准确推断这些底层操作。为弥补这一差距，我们引入了Teach VLM，这是一个核心模型，通过从演示视频中提取和分析与操作相关的关键帧，将移动屏幕轨迹转化为逐步操作知识。为解决对齐训练数据稀缺的问题，我们开发了一个系统的数据飞轮以实现可扩展的数据采集。我们还引入了一个新颖的中文移动屏幕教学基准（Chinese Mobile Screen Teach Benchmark）用于细粒度评估。基于Teach VLM，我们提出了Teach-and-Repeat范式，其中生成的操作知识作为可解释的程序性参考，指导下游基于屏幕的执行代理。广泛的评估表明，Teach VLM显著优于强大的VLM基线，在操作语义预测中达到了最先进的性能。此外，在Android World中的实验显示，我们的范式为下游代理带来了持续的任务成功率提升。总之，Teach VLM和Teach-and-Repeat范式提供了一条从原始演示到可复用任务自动化的实用路径。

查看原文

查看缓存全文

缓存时间: 2026/06/12 08:53

# 教学与复现：从移动屏幕演示中精确提取操作知识以赋能GUI智能体  
来源：https://arxiv.org/html/2606.12817  

Yudong Zhang\*，1， Lei Hu\*，1， Daoyang Liu2， Jiawei Liu1， Yangfan Luo1  
Xingyu Liu†，1， Zuojian Wang†，1， Zhilin Gao†，1  

1荣耀终端有限公司  
2香港中文大学，香港，中国  

###### 摘要  

理解移动设备上的数字世界正从静态界面感知转向动态操作理解。这种能力使模型能够将视觉状态转换转化为操作知识，定义为描述操作类型、目标UI元素、文本参数和执行顺序的简短自然语言句子。然而，由于不同应用程序之间高度多样化和异构的UI设计，现有的视觉语言模型难以准确推断这些底层操作。为弥补这一差距，我们引入了Teach VLM，一个核心模型，旨在通过从演示视频中提取和分析与操作相关的关键帧，将移动屏幕轨迹转化为逐步操作知识。为了解决对齐训练数据稀缺的问题，我们开发了一种系统的数据飞轮机制，用于可扩展的数据采集。我们还引入了一个新颖的中文移动屏幕教学基准，用于细粒度评估。在Teach VLM的基础上，我们提出了教学与复现范式，其中生成的操作知识作为可解释的程序性参考，指导下游基于屏幕的执行智能体。大量评估表明，Teach VLM显著优于强大的VLM基线，在操作语义预测方面达到了最先进的性能。此外，在Android World中的实验表明，我们的范式为下游智能体带来了持续的任务成功率提升。综上所述，Teach VLM和教学与复现范式提供了一条从原始演示到可复用任务自动化的实用路径。

教学与复现：从移动屏幕演示中精确提取操作知识以赋能GUI智能体  

†\*这些作者对本文贡献相同。  
†††通讯作者。

## 1 引言  

近期的多模态大语言模型在数字世界感知方面取得了显著进展，包括移动屏幕理解和自主GUI智能体 Bai et al. (2025); Cheng et al. (2024); Wu et al. (2024); Rawles et al. (2024); Lu et al. (2025)。然而，实用的屏幕理解需要的不仅仅是识别静态截图；模型还必须解释由人类操作引起的动态屏幕变化，并将其转化为操作知识（即描述操作类型、目标UI元素、文本参数和执行顺序的简短自然语言句子）。现有方法从几个相关但不完整的角度来处理这个问题。静态屏幕理解和基础模型专注于定位或描述可见元素 Cheng et al. (2024); Wu et al. (2024)，但它们并不直接解释连接两个屏幕状态的操作。GUI智能体学习在给定当前屏幕状态和任务指令时预测下一个可执行动作 Zhang et al. (2023); Qin et al. (2025); Rawles et al. (2024)，然而它们的输出与特定的运行时状态绑定，缺乏可解释性。同时，现代的视觉语言模型已展现出强大的多帧理解能力 OpenAI et al. (2024); Bai et al. (2025)，但它们从移动屏幕转换中识别操作语义的表现仍然较差（如图1所示）。这种差距源于两个挑战：演示视频包含密集的帧，其中夹杂着与任务无关的视觉噪声（例如加载动画和过渡效果），并且移动应用程序的交互设计在不同应用和平台上高度异构，使得视觉语言模型无法跨屏幕上下文泛化操作识别。

参照标题图1：操作知识提取性能和下游任务执行效果的比较。左图：Teach VLM在操作知识预测方面优于代表性的VLM基线，包括单步操作语义准确率和多步序列/视频F1分数。右图：由Teach生成的嵌入作为外部程序性参考时，在不同执行模型和任务难度下，能够提升Android World的任务成功率。

为弥补这一差距，我们提出了Teach VLM，这是一个核心模型，直接将移动屏幕转换映射为操作知识。给定一个用户演示视频，我们首先过滤掉无关的过渡帧，提取与操作相关的关键帧。然后，Teach VLM根据操作前后的视觉状态变化，推断出独立于特定应用或任务的、逐步的自然语言操作描述。由于高质量的对齐训练数据极其稀缺，我们设计了一种数据飞轮机制（如图3所示），形成模型预标注、人工修正和迭代再训练的闭环，从而以较低成本构建大规模、多领域的训练语料库。为了实现对生成的操作知识进行细粒度评估，我们进一步引入了具有帧级别语义标注的中文移动屏幕教学基准。

参照标题图2：所提出的教学与复现范式概览。与指令驱动的执行（直接从任务指令和当前屏幕预测动作）相比，我们的框架将用户演示转化为关键帧截图，并使用Teach VLM生成可编辑的操作知识。生成的知识可以作为外部程序性参考注入，以指导下游任务执行。

基于Teach VLM提取操作知识的能力，我们进一步提出了教学与复现范式，以解决下游基于屏幕的执行智能体所面临的痛点，例如频繁的应用界面更新和模糊的用户指令。该范式将一次性教学与重复执行解耦（如图2所示）。在“教学”阶段，Teach VLM将单个用户演示转化为明确的、可编辑的操作知识。在“复现”阶段，这种自然语言知识作为外部程序性参考被注入执行智能体。通过摆脱低层次的像素坐标，执行主干可以将操作重新定位到当前屏幕状态，在不同应用版本和设备状态下展现出强大的鲁棒性。大量评估表明，Teach VLM在操作语义预测方面达到了最先进的性能。此外，将生成的知识作为外部参考注入，在Android World中为下游执行智能体带来了持续的任务成功率提升（见图1）。综上所述，我们的工作做出了以下关键贡献：

- • **Teach VLM与数据飞轮**。我们开发了一个核心模型，用于从移动屏幕转换中精确提取操作知识，并辅以系统的数据飞轮机制实现可扩展的训练数据获取。
- • **教学与复现范式**。我们提出了一种范式，通过使用自然语言操作知识作为可解释的程序性桥梁，将知识提取与任务执行解耦，实现了跨应用版本和模型的“一次性教学，多次执行”。
- • **中文移动屏幕教学基准**。我们发布了一个新颖的基准，包含帧级别语义标注，为该领域的细粒度评估提供了坚实基础。

## 2 相关工作  

##### 多模态大语言模型。  
强大的多模态大语言模型能力对于感知和解释数字世界中的屏幕状态至关重要 Yin et al. (2024)。最近的系统如 Gemini 1.5 Reid et al. (2024)， DeepSeek-V3 DeepSeek-AI et al. (2025)， InternVL 3.5 Wang et al. (2025a)， 和 LLaVA Liu et al. (2023) 在视觉感知、指令遵循和长上下文多模态推理方面展示了快速进展。在开源多模态大语言模型中，Qwen-VL系列因其具有竞争力的视觉感知、多语言能力和长上下文建模能力，已成为视觉语言应用的强大基础。Qwen3-VL Bai et al. (2025); Qwen Team (2025) 进一步改进了通用视觉理解，并提供了易获取的指令微调模型系列。我们的 Teach VLM 基于 Qwen3-VL-8B-Instruct 构建，并将这一通用主干模型适配到更具体的屏幕转换目标上。虽然通用多模态大语言模型能够识别视觉内容并回答有关屏幕截图的问题，但它们并未经过专门训练来恢复连接两个移动屏幕状态的操作语义。因此，本工作专注于将前后屏幕转换转化为自然语言操作描述，并可从动作、目标元素和文本参数维度进行分析。

##### 屏幕基础的数字交互。  
屏幕基础的数字交互研究模型如何感知屏幕状态、识别目标元素、规划中间步骤，并为数字任务生成结构化操作。这个方向包括工具使用推理系统、移动屏幕交互模型和计算机使用基础设施。通用的工具使用工作如 ReAct Yao et al. (2023)， Toolformer Schick et al. (2023)， 和 GPT-4 函数调用 OpenAI et al. (2024) 为推理、行动和外部API调用提供了结构化接口。多智能体和面向规划的系统如 AutoGPT Yang et al. (2023)， MetaGPT Hong et al. (2024)， 以及相关的智能体综述 Masterman et al. (2024) 进一步探索了在线决策和程序分解。这些研究显示了结构化操作的重要性，但它们通常操作的是文本工具或抽象API，而非从视觉演示中提取程序性屏幕知识。

另一条工作方向直接关注基于屏幕的交互。AppAgent Zhang et al. (2023) 使多模态模型能够通过简化的动作空间与智能手机界面交互。SeeClick 和 OS-ATLAS Cheng et al. (2024); Wu et al. (2024) 改进了屏幕任务的视觉基础和动作建模。UI-TARS Qin et al. (2025)， MobileAgent V3 Ye et al. (2025)， 和 OpenCUA Wang et al. (2025b) 进一步推进了端到端屏幕交互、长时域规划和计算机使用研究的开放基础设施。相关的数据集和环境如 Android World Rawles et al. (2024) 和 GUIOdyssey Lu et al. (2025) 提供了动态任务和跨应用导航基准。尽管取得了这些进展，大多数方法旨在运行时执行动作。它们必须同时感知当前屏幕、推断下一个动作，并从意外状态中恢复。相比之下，我们的工作将屏幕转换理解与执行分离：Teach VLM 从演示中提取操作知识，这些知识随后可以被检查、编辑、评估或作为外部程序性参考提供。

##### 来自交互经验的程序性知识。  
近期研究探索了如何将交互经验抽象为可重复使用的程序性指导，而不是作为原始轨迹重放。SkillRL Xia et al. (2026) 将外部程序性模块与策略优化共同演进，而 SKILL0 和 Skill-SD Lu et al. (2026); Wang et al. (2026) 研究了此类指导如何充当训练时的脚手架并内化到模型行为中。这些工作表明，交互经验可以被压缩成更高级别的程序，从而提高复用性和长时域稳定性。我们的工作与此想法相关，但在粒度和输入模态上都有所不同。Teach VLM 不是为一系列任务学习一个可复用的模块，而是从单个移动屏幕演示中提取步骤级的操作知识。输入是一系列屏幕状态变化，输出是基于具体前后截图的可解释自然语言描述。这使得知识更具可解释性和可编辑性，并为评估模型是否理解每次转换背后的操作类型、目标屏幕元素和文本参数提供了直接监督。

## 3 方法  

参照标题图3：用于迭代改进 Teach VLM 的数据飞轮。该流程收集移动演示，提取与操作相关的关键帧，使用 Teach VLM 生成草稿操作描述，通过自动评估和人工修正精炼标注，并使用接受和修正后的训练数据更新模型以进行下一轮迭代。

为了从嘈杂的移动演示中提取准确的操作知识，我们开发了一个数据飞轮，迭代构建高质量训练数据，将通用视觉语言模型微调为 Teach VLM。如图3所示，飞轮循环经历五个阶段：(1) 移动演示收集，(2) 操作相关关键帧提取，(3) Teach VLM 预标注，(4) 带人工反馈的自动评估，以及 (5) 使用精炼数据进行模型再训练。每一次迭代都同时改进了模型和训练语料库，逐步减少了对人工标注的需求。该数据飞轮构成了我们教学阶段的核心，使 Teach VLM 能够生成高质量的程序性参考，进而指导下游的复现执行。以下小节按顺序描述这些阶段。

### 3.1 数据收集与关键帧提取  

获取与用户操作相关的关键帧数据是后续推断操作知识的基础。无关的页面加载动画会带来不必要的计算开销……

Teach-and-Repeat: 从移动屏幕演示中准确提取操作知识以赋能GUI代理

相似文章

Video2GUI：合成大规模交互轨迹以进行通用GUI智能体预训练

UI-KOBE：面向知识的轻量级图引导GUI代理行为探索

UI-TARS-2 技术报告：通过多轮强化学习推进图形用户界面代理

AtlasVA：面向无教师VLM Agent的自进化视觉技能记忆

面向GUI代理的技能引导连续蒸馏

提交意见反馈