面向GUI代理的技能引导连续蒸馏
摘要
该论文提出了技能引导连续蒸馏(SGCD),这是一个迭代式自我改进框架,利用技能引导策略在闭环执行过程中为偏离轨迹的状态生成监督信号,将OSWorld-Verified上GUI代理的成功率从约30%提升至超过50%。
arXiv:2606.18890v1 公告类型:新
摘要:改进GUI代理通常依赖于对专家轨迹进行行为克隆。然而,当前策略偏离专家策略时,在闭环执行过程中不可避免地会遇到策略引发的偏离轨迹状态,即超出专家轨迹覆盖的状态。由于专家轨迹未对这些未见状态提供演示,此类状态缺乏有效监督,导致代理无法选择正确动作。为填补这一监督缺口,我们提出了技能引导连续蒸馏(SGCD),一种迭代式自我改进框架。SGCD首先在无技能引导的情况下运行简单策略若干步,以到达真实的偏离轨迹状态。从这些状态出发,技能引导策略随后完成任务并生成成功的延续轨迹,这些轨迹与专家轨迹混合,为策略引发的偏离轨迹状态提供监督。技能从成功和失败的滚动中提取,包括延续计划、关键目标、失败陷阱和成功标准。在OSWorld-Verified上,SGCD将三种基础模型的成功率从30%左右提升至超过50%,证明了其有效性和通用性。
查看缓存全文
缓存时间: 2026/06/18 05:41
# 技能引导的延续蒸馏方法用于图形用户界面智能体 来源: https://arxiv.org/html/2606.18890 范志敏¹,∗ 于宏伟¹,²,∗ 沈叶青¹,† 闫浩龙¹ 彭国振¹ 彭天浩⁴ 张玉东³ 张晓文²,‡ 谭凯军¹ 葛政¹ 张翔宇¹ 蒋大兴¹ ¹StepFun ²北京科技大学 ³清华大学 ⁴南洋理工大学 ∗共同第一作者。†项目负责人。‡通讯作者 ###### 摘要 提升图形用户界面(GUI)智能体通常依赖于对专家轨迹的行为克隆。然而,当当前策略偏离专家策略时,在闭环执行过程中必然会遇到策略导致的非轨迹状态(即超出专家轨迹范围的状态)。由于专家轨迹未对这些未见状态提供示范,这些状态无法获得有效的监督,导致策略无法选择正确的动作。为弥补这一监督缺口,我们提出技能引导的延续蒸馏(SGCD),一种迭代式的自我改进框架。SGCD首先让普通策略在没有技能引导的情况下执行若干步,以到达真实的非轨迹状态。随后,从这些状态出发,由技能引导的策略完成任务并生成成功的延续轨迹,这些轨迹与专家轨迹混合使用,为策略导致的非轨迹状态提供监督。这些技能从成功和失败的轨迹中提取,包括延续计划、关键目标、失败陷阱和成功标准。在OSWorld-Verified基准上,SGCD将三种基础模型的成功率从30%左右提升至超过50%,展示了其有效性和通用性。 ![[无标题图片]](https://arxiv.org/html/2606.18890v1/images/robot_title_icon.png)技能引导的延续蒸馏方法用于图形用户界面智能体 ## 1 引言 基于近期视觉-语言基础模型(Google (2025) [https://arxiv.org/html/2606.18890#bib.bib26](https://arxiv.org/html/2606.18890#bib.bib26);Bai 等 (2025) [https://arxiv.org/html/2606.18890#bib.bib24](https://arxiv.org/html/2606.18890#bib.bib24);Yan 等 (2025) [https://arxiv.org/html/2606.18890#bib.bib30](https://arxiv.org/html/2606.18890#bib.bib30);OpenAI (2026) [https://arxiv.org/html/2606.18890#bib.bib27](https://arxiv.org/html/2606.18890#bib.bib27);Anthropic (2026) [https://arxiv.org/html/2606.18890#bib.bib39](https://arxiv.org/html/2606.18890#bib.bib39);Hurst 等 (2024) [https://arxiv.org/html/2606.18890#bib.bib40](https://arxiv.org/html/2606.18890#bib.bib40)),GUI智能体通过感知屏幕观察并预测动作,在闭环中操作桌面、网页和移动界面,支持开放式计算机任务,如文档编辑、软件操作和网页导航。这类智能体通常通过在轨迹数据上进行监督微调(SFT)来训练,使底层视觉-语言模型适应GUI特定的观察、动作空间和交互协议。现有的端到端GUI智能体在人类或合成的专家轨迹上进行训练(Qin 等 (2025) [https://arxiv.org/html/2606.18890#bib.bib28](https://arxiv.org/html/2606.18890#bib.bib28);Wang 等 (2026b) [https://arxiv.org/html/2606.18890#bib.bib29](https://arxiv.org/html/2606.18890#bib.bib29);Yan 等 (2025) [https://arxiv.org/html/2606.18890#bib.bib30](https://arxiv.org/html/2606.18890#bib.bib30);Xu 等 (2026) [https://arxiv.org/html/2606.18890#bib.bib16](https://arxiv.org/html/2606.18890#bib.bib16);Xue 等 (2026) [https://arxiv.org/html/2606.18890#bib.bib31](https://arxiv.org/html/2606.18890#bib.bib31)),学习任务特定的行为、动作格式和程序知识。自我改进方法则通过将模型生成的轨迹转换为监督信号来扩大训练池,方法包括过滤后的自训练、沙盒强化学习或基于经验的知识精炼(Yan 等 (2025) [https://arxiv.org/html/2606.18890#bib.bib30](https://arxiv.org/html/2606.18890#bib.bib30);Wu 等 (2026) [https://arxiv.org/html/2606.18890#bib.bib32](https://arxiv.org/html/2606.18890#bib.bib32);Lai 等 (2025) [https://arxiv.org/html/2606.18890#bib.bib43](https://arxiv.org/html/2606.18890#bib.bib43);Zhang 等 (2025) [https://arxiv.org/html/2606.18890#bib.bib68](https://arxiv.org/html/2606.18890#bib.bib68);Lin 等 (2026) [https://arxiv.org/html/2606.18890#bib.bib59](https://arxiv.org/html/2606.18890#bib.bib59);Wang 等 (2026c) [https://arxiv.org/html/2606.18890#bib.bib69](https://arxiv.org/html/2606.18890#bib.bib69))。尽管数据来源不同,这些方法共享同一个监督范式:在成功的专家轨迹上进行行为克隆,即训练策略模仿在每个专家状态上采取的动作。虽然这种监督在专家状态分布上很强,但专家策略与当前策略之间的差异必然将当前策略推向超出专家轨迹范围的状态(Lauffer 等 (2025) [https://arxiv.org/html/2606.18890#bib.bib44](https://arxiv.org/html/2606.18890#bib.bib44);Ross 等 (2011) [https://arxiv.org/html/2606.18890#bib.bib18](https://arxiv.org/html/2606.18890#bib.bib18))。我们将这些状态称为策略导致的非轨迹状态。专家轨迹无法为这些状态提供有效的监督,导致策略无法预测正确的动作。强化学习被探索为这些状态提供另一种监督来源(Lai 等 (2025) [https://arxiv.org/html/2606.18890#bib.bib43](https://arxiv.org/html/2606.18890#bib.bib43);Li 等 (2025a) [https://arxiv.org/html/2606.18890#bib.bib52](https://arxiv.org/html/2606.18890#bib.bib52)),但当前策略的轨迹很少产生正确动作,导致稀疏的奖励信号和低效的训练(Zeng 等 (2025) [https://arxiv.org/html/2606.18890#bib.bib57](https://arxiv.org/html/2606.18890#bib.bib57);Wang 等 (2026a) [https://arxiv.org/html/2606.18890#bib.bib58](https://arxiv.org/html/2606.18890#bib.bib58))。 请参阅标题 图1:GUI智能体失败分析。左图:失败集中在执行早期。右图:常见的重复失败模式,包括过早结束、修正动作、幻觉可交互元素、范围误判。
与单步预测(每个输出独立)不同,端到端任务涉及在闭环中执行的长序列动作。因此,一个早期的非轨迹动作会通过后续交互传播,将智能体推向越来越远离专家轨迹的状态(Chen 等 (2025) [https://arxiv.org/html/2606.18890#bib.bib51](https://arxiv.org/html/2606.18890#bib.bib51))。重要的是,这些状态并非专家状态的任意扰动,而是反映了学习策略的系统性偏差,该策略倾向于重复一小类错误行为。我们将这种分布和监督的不匹配称为非轨迹监督赤字。在GUI领域弥补这一监督赤字尤其具有挑战性。到达真实的非轨迹状态需要实际在环境中执行动作,这使得这些状态难以重现、复现或重置。现有方法依赖手工规则来选择重要的非轨迹状态(Lin 等 (2026) [https://arxiv.org/html/2606.18890#bib.bib59](https://arxiv.org/html/2606.18890#bib.bib59)),但这种启发式方法引入了选择偏差,只能稀疏覆盖当前策略遍历的状态。此外,获取成功的延续轨迹也很困难,因为当前策略很少能从这些状态完成任务。因此,一个有效的提供此类监督的方法应满足两个目标:1) 让策略暴露于真实的非轨迹状态,以及 2) 从这些状态获取成功的延续轨迹。
为了实现这两个目标,我们提出技能引导的延续蒸馏(SGCD),一种迭代式的自我改进框架。SGCD先让普通策略(即没有技能引导的当前策略)执行轨迹以到达真实的非轨迹状态,然后调用技能引导的策略来完成这些状态的任务并生成成功的延续轨迹。将验证过的延续轨迹与专家轨迹混合进行训练,可为策略导致的非轨迹状态提供额外监督。具体而言,每个目标实现如下。
对于目标1,我们首先分析轨迹中GUI失败发生的位置。如图1(a)所示,失败高度集中在执行早期,这表明非轨迹偏差通常是在早期引起的,并可能导致后续错误动作和最终任务失败。因此,我们从普通策略的早期执行中诱导非轨迹状态,这些偏差自然发生。对于每个任务,普通策略与GUI交互k步,以实例化真实的非轨迹状态。通过在k值范围内进行扫描,SGCD避免了手工状态选择启发式方法,并密集覆盖了当前策略实际遍历的非轨迹状态。这使得监督分布与策略在部署时遇到的状态对齐,直接缓解了行为克隆中固有的分布偏移。
对于目标2,我们分析由学习策略引起的结构化失败模式。如图1(b)所示,策略失败表现出重复的错误倾向,而非孤立的偶然错误(Wanyan 等 (2026) [https://arxiv.org/html/2606.18890#bib.bib48](https://arxiv.org/html/2606.18890#bib.bib48);Lù 等 (2025) [https://arxiv.org/html/2606.18890#bib.bib49](https://arxiv.org/html/2606.18890#bib.bib49))。我们从成功和失败的轨迹中提取非轨迹延续技能(延续计划、关键目标、失败陷阱和成功标准),这些技能引导技能引导策略从每个非轨迹状态出发生成轨迹,并产生经过验证的成功延续轨迹用于训练。
通过实现这两个目标,SGCD合成了对策略导致的非轨迹状态的有效监督,弥补了在专家轨迹上进行行为克隆固有的监督赤字。我们在OSWorld-Verified上评估了三种视觉-语言模型:Qwen3-VL-8B、Qwen3-VL-30B-A3B和STEP3-VL-10B。在所有三种模型上,SGCD一致地将性能从30%左右提升至超过50%。主要贡献如下:
- • 我们识别出非轨迹监督赤字,即基于成功示范训练的智能体缺乏对策略导致的非轨迹状态的监督,并表明失败集中在早期阶段。
- • 我们提出技能引导的延续蒸馏,利用非轨迹延续技能从非轨迹状态收集成功的延续轨迹,以缓解专家状态偏差。
- • 我们在OSWorld-Verified上对三种基础模型验证了SGCD,成功率从30%左右提升至超过50%,展示了其通用性。
请参阅标题 图2:SGCD概览。(1) 任务轨迹采样:收集普通策略的成功和失败轨迹。(2) 技能构建:从轨迹证据中提取非轨迹延续技能。(3) 非轨迹延续构建:使用k步交接收集技能引导的成功延续轨迹。(4) 混合轨迹训练:使用专家轨迹和经过验证的延续轨迹训练普通策略。
## 2 相关工作
#### GUI智能体。
近期GUI智能体在网页、移动和桌面基准上取得了进展(Deng 等 (2023) [https://arxiv.org/html/2606.18890#bib.bib10](https://arxiv.org/html/2606.18890#bib.bib10);Zhou 等 (2024) [https://arxiv.org/html/2606.18890#bib.bib11](https://arxiv.org/html/2606.18890#bib.bib11);Rawles 等 (2025) [https://arxiv.org/html/2606.18890#bib.bib13](https://arxiv.org/html/2606.18890#bib.bib13);Xie 等 (2024) [https://arxiv.org/html/2606.18890#bib.bib14](https://arxiv.org/html/2606.18890#bib.bib14)),沿着几个方向推进。UI-TARS(Qin 等 (2025) [https://arxiv.org/html/2606.18890#bib.bib28](https://arxiv.org/html/2606.18890#bib.bib28))通过大规模的GUI特定预训练统一了感知、推理和动作生成。OpenCUA(Wang 等 (2026b) [https://arxiv.org/html/2606.18890#bib.bib29](https://arxiv.org/html/2606.18890#bib.bib29))通过反思性的状态-动作转换扩展了人工标注的桌面轨迹,以支持开放式任务。SeeClick(Cheng 等 (2024) [https://arxiv.org/html/2606.18890#bib.bib45](https://arxiv.org/html/2606.18890#bib.bib45))和UGround(Qian 等 (2025) [https://arxiv.org/html/2606.18890#bib.bib56](https://arxiv.org/html/2606.18890#bib.bib56))通过屏幕局部预训练实现元素定位,以实现准确的UI定位。EvoCUA(Xue 等 (2026) [https://arxiv.org/html/2606.18890#bib.bib31](https://arxiv.org/html/2606.18890#bib.bib31))和LiteGUI(Wu 等 (2026) [https://arxiv.org/html/2606.18890#bib.bib32](https://arxiv.org/html/2606.18890#bib.bib32))自动合成任务和轨迹数据,以持续更新策略。这些工作为GUI智能体建立了强大的基础能力,并展示了有效的数据合成流水线。在此基础上,SGCD提出了一种迭代式的自我改进方法,进一步解决了策略导致的非轨迹状态缺乏专家监督的问题。
#### 自我改进。
自我改进方法旨在通过利用智能体自身的交互经验作为训练信号来提升智能体性能。Reflexion(Shinn 等 (2023) [https://arxiv.org/html/2606.18890#bib.bib21](https://arxiv.org/html/2606.18890#bib.bib21))和Self-Refine(Madaan 等 (2023) [https://arxiv.org/html/2606.18890#bib.bib22](https://arxiv.org/html/2606.18890#bib.bib22))使用推理时的语言反馈来修正输出。近期的GUI流水线通过过滤后的自训练(Yan 等 (2025) [https://arxiv.org/html/2606.18890#bib.bib30](https://arxiv.org/html/2606.18890#bib.bib30);Wu 等 (2026) [https://arxiv.org/html/2606.18890#bib.bib32](https://arxiv.org/html/2606.18890#bib.bib32))、沙盒强化学习(Lai 等 (2025) [https://arxiv.org/html/2606.18890#bib.bib43](https://arxiv.org/html/2606.18890#bib.bib43))、经验驱动的知识精炼(Zhang 等 (2025) [https://arxiv.org/html/2606.18890#bib.bib68](https://arxiv.org/html/2606.18890#bib.bib68);Lin 等 (2026) [https://arxiv.org/html/2606.18890#bib.bib59](https://arxiv.org/html/2606.18890#bib.bib59))或策略对齐的经验同化(Wang 等 (2026c) [https://arxiv.org/html/2606.18890#bib.bib69](https://arxiv.org/html/2606.18890#bib.bib69))将模型生成的轨迹转换为监督信号。SGCD遵循这一范式,专门针对策略导致的非轨迹状态,从当前策略实际遍历的状态中合成技能引导的延续监督。详细相关工作见附录C。
## 3 预备知识
我们考虑一个可执行的GUI训练任务分布X,该分布被构建为与OSWorld-Verified交互协议兼容。每个任务x∈X包含一条自然语言指令、一个初始环境状态和一个自动验证器。环境支持状态重置、在实际桌面应用程序中执行鼠标和键盘动作,以及基于规则最终状态评估。在时间步t,智能体从交互历史h_t = (o_1, a_1, ..., o_t)中观察多模态观察o_t并预测一个动作。一条轨迹定义为τ = (x, o_1, a_1, ..., o_T, a_T),(1) 验证器V_x(τ) ∈ {0,1}确定最终环境状态是否满足任务目标。普通策略模型为π_policy(a_t | h_t, x) ≜ π_θ(a_t | h_t, x),(2) 它不条件于任何技能。给定任务特定的技能s_x,技能引导的策略模型可以表示为π_skill(a_t | h_t, x, s_x) ≜ π_θ(a_t | h_t, x, s_x)。(3) 这两个策略由共享参数θ参数化,运行在相同的动作空间上,仅在条件上下文中不同。技能充当训练时特权的恢复上下文,引导当前模型转向更知情的恢复模式,而不改变其底层接口。给定轨迹数据集D,标准监督微调通过损失L_SFT(D; θ) = -E_{τ∼D} ∑_{t=1}^{|τ|} log π_θ(y_t | h_t, x)优化普通策略。(4) 这里y_t表示轨迹τ的真实动作标签。该目标训练策略模仿D中的动作标签,并作为SGCD中使用的基本训练目标。
## 4 方法
### 4.1 动机
专家轨迹无法为策略导致的非轨迹状态提供有效的监督(Lauffer 等 (2025) [https://arxiv.org/html/2606.18890#bib.bib44](https://arxiv.org/html/2606.18890#bib.bib44);Ross 等 (2011) [https://arxiv.org/html/2606.18890#bib.bib18](https://arxiv.org/html/2606.18890#bib.bib18))。这些状态并非任意扰动:它们是通过智能体的执行历史自然产生的,反映了当前策略的系统性偏差。为了弥补这一监督赤字,我们需要一种方法能够有效地从这些状态中生成成功的延续轨迹。相似文章
MMG2Skill:智能体能否从真实世界指南中提炼出自我进化的技能?
MMG2Skill通过闭环学习将网络上的过程性指南转化为智能体可执行的技能,在GUI操控、游戏玩法和纸牌游戏任务中提升了性能,宏平均提升了+12.8到+25.3个百分点。
从策略错误中恢复:鲁棒GUI代理的基准测试与轨迹合成
引入GUI-RobustEval(一个用于GUI代理错误恢复的基准)和鲁棒性驱动轨迹合成(RoTS)以生成训练数据,在OSWorld上达到当前最佳性能。
基于视觉反馈的自我蒸馏策略优化:连接代码与视觉制品
本文介绍了Visual-SDPO,一种自我蒸馏策略优化框架,该框架利用渲染后的视觉反馈作为特权上下文来训练代码生成型大语言模型,在图表、用户界面和幻灯片生成基准测试中提升了视觉制品的质量。
基于状态感知动态检索的Web智能体在线技能学习
本文提出了SGDR(State-Grounded Dynamic Retrieval,状态感知动态检索),一种面向Web智能体的在线技能学习方法,支持逐步、感知当前状态的技能复用,而非静态的任务级检索。在WebArena上的实验表明,SGDR结合GPT-4.1可达到37.5%的成功率,相较于强基线取得了约10.6%的相对提升。
SkillOS:面向自进化智能体的技能策展学习
本文介绍了 SkillOS,这是一种强化学习框架,使大型语言模型智能体能够学习用于自进化的长期技能策展策略,从而提升任务性能与泛化能力。