面向长时程移动GUI代理的任务状态表示
摘要
本文介绍了任务状态表示(TSR),一种无需训练的框架,它将持久任务状态与瞬态屏幕观察解耦,以改进长时程移动GUI代理,在复杂任务上实现了高达12个绝对百分点的成功率提升。
查看缓存全文
缓存时间: 2026/07/02 05:37
# 面向长程移动GUI智能体的任务状态表示
来源:https://arxiv.org/html/2607.00502
Yujie Zheng2∗,Zikang Liu1∗,Xin Zhao1†,Ji\-Rong Wen1
1中国人民大学高瓴人工智能学院
2北京航空航天大学软件学院
\{janeyujie555,jasonlaw8121,batmanfly\}@gmail\.com, jrwen@ruc\.edu\.cn
###### 摘要
尽管长程移动GUI智能体通常依赖思考-行动-观察循环,但它们难以将持久任务状态与瞬时屏幕观察分离开。随着执行历史的增长,这种纠缠会带来严重的上下文负担,导致智能体忘记初始需求、幻觉进度或重复与过时界面交互。为解决这一问题,我们引入了**任务状态表示(Task-State Representation, TSR)**——一种免训练框架,明确地将任务状态与感官输入解耦。作为一个轻量级的外部封装,TSR 维护三个结构化组件:一个全局指令摘要、一个面向子目标的动态进度追踪器,以及一个感知过渡的动作验证器。通过在动作前后进行持续的视觉比较更新,TSR 无需修改架构即可有效引导智能体的推理。在四个移动 GUI 基准上的实验验证了 TSR 的有效性,在复杂的跨应用和内存密集型任务中,成功率最高提升了 12 个绝对百分点。
---
# 面向长程移动GUI智能体的任务状态表示
Yujie Zheng2∗, Zikang Liu1∗, Xin Zhao1†, Ji\-Rong Wen1
1中国人民大学高瓴人工智能学院
2北京航空航天大学软件学院
\{janeyujie555,jasonlaw8121,batmanfly\}@gmail\.com, jrwen@ruc\.edu\.cn
11footnotetext: 同等贡献。22footnotetext: 通讯作者。
## 1 引言
通过图形用户界面(GUI)自动化移动任务一直是智能体发展中的一个长期目标。最近的多模态大语言模型(MLLMs)Liu 等 (2023) (https://arxiv.org/html/2607.00502#bib.bib23) 促进了基于提示的 GUI 执行体,它们观察截图、推理当前状态并生成可执行动作,如点击、输入或滚动 (Zhang 等, 2025 (https://arxiv.org/html/2607.00502#bib.bib10); Hong 等, 2024 (https://arxiv.org/html/2607.00502#bib.bib11))。处理长程任务的主流范式采用思考-行动-观察循环 Yao 等 (2022) (https://arxiv.org/html/2607.00502#bib.bib1):在每一步,执行体接收任务指令、最近的截图窗口以及之前推理和动作的历史,随后生成新的推理轨迹和动作 (Zhang 等, 2024 (https://arxiv.org/html/2607.00502#bib.bib17); Rawles 等, 2025 (https://arxiv.org/html/2607.00502#bib.bib4))。这种“全部追加”的设计依赖一个隐含假设——即执行体能够可靠地从不断增长的原始轨迹中保持对整体任务目标和累积进度的感知。
实践中,随着步数增加,这一假设会失效。我们识别出长程移动基准中三种重复出现的失败模式:(1) **目标漂移**,即执行体在观察大量中间屏幕后逐渐失去对原始任务的视线;(2) **进度幻觉**,即执行体无法访问早期视觉观察,并在推理累积进度时编造过去状态;(3) **陈旧屏幕重复**,即执行体将用户界面中的延迟更新误解为失败的动作,从而进入局部循环。
这些失败并非仅仅源于模型能力限制。相反,它们源于执行体输入组织方式的结构性缺陷:标准提示混淆了两个根本不同类型的信息——**持久任务状态**(用户请求、已完成的子目标和剩余步骤)和**瞬时观察状态**(当前屏幕显示的内容)。如果没有明确的机制来分离和维护前者,执行体必须在每一步从原始历史中重新推导任务进度——这一负担随轨迹长度线性增长。
我们提出一种**任务状态表示**来解决这种分离。该表示维护在固定 GUI 执行体外部,并通过一个免训练的状态更新器在每一步更新,该更新器比较动作前后的截图。它包含三个功能视图:一个**全局任务状态摘要**,用于保留原始指令;一个**进度追踪器**,用于记录已完成和剩余的子目标;以及一个**感知过渡的焦点**,用于验证前一个动作的有效性并指导下一步决策。生成的状态块被序列化并注入到执行体的提示中,无需模型重训练或架构修改。
我们在四个移动 GUI 基准上评估了两个基础模型:MobileWorld Kong 等 (2025) (https://arxiv.org/html/2607.00502#bib.bib5)、AndroidWorld Rawles 等 (2025) (https://arxiv.org/html/2607.00502#bib.bib4)、MemGUI-Bench Liu 等 (2026) (https://arxiv.org/html/2607.00502#bib.bib6) 和 VenusBench-Mobile Gong 等 (2026) (https://arxiv.org/html/2607.00502#bib.bib7)。我们的方法在大多数配置下提升了成功率,在长程任务上最高提升 12%。我们的贡献如下:
- • 一种任务状态表示,将持久任务状态与瞬时观察分离,适用于长程移动 GUI 智能体。
- • 实证评估显示在四个基准和两个基础模型上的一致改进,消融实验表明三个状态视图的协同必要性。
- • 对结构化任务状态效果的深入分析,将任务长度和状态追踪需求识别为关键调节因素。
## 2 方法
请参阅图说明图 1:任务状态表示概述。在每一步,状态更新器比较动作前后的截图,并更新一个结构化状态块,该状态块随后被注入到执行体的输入中。
### 2.1 问题形式化
我们将移动 GUI 自动化形式化为一个序列决策问题。给定任务指令 \(I\) 和初始屏幕观察 \(o_0\),GUI 执行体 \(\pi_\theta\) 重复观察当前屏幕并生成响应 \(r_t = (T_t, a_t)\),其中 \(T_t\) 表示推理轨迹,\(a_t\) 表示从预定义动作空间 \(\mathcal{A}\)(详见附录 B (https://arxiv.org/html/2607.00502#A2))中抽取的可执行动作。在执行 \(a_t\) 后,环境转移到新的屏幕状态 \(o_{t+1}\),滚动继续直到任务完成或达到预定义的步数限制。
为减少上下文开销,现有系统只保留最近的 \(m\) 张截图以及完整的文本历史 (Li 等, 2026 (https://arxiv.org/html/2607.00502#bib.bib9))。形式上,在步骤 \(t\),执行体生成:
\[
a_t = \pi_\theta(I, O_t, H_{t-1}),
\]
其中 \(O_t = \{o_{t-m+1}, \dots, o_t\}\) 表示最近观察窗口,\(H_{t-1} = \{(T_1, a_1), \dots, (T_{t-1}, a_{t-1})\}\) 是包含所有先前推理和动作的交互历史。这种设计保留了局部视觉连续性,但丢弃了早期观察。因此,执行体必须从过去的响应中推断任务进度,这在长轨迹中构成了日益增长的负担,导致潜在的失败。
### 2.2 任务状态表示
为解决这些限制,我们引入一个外部维护的任务状态表示 \(S_t\),在每一步更新并注入到执行体的输入中。该状态包含三个功能视图,详述如下。它们不是作为独立模块运行,而是统一状态对象中的字段,并在每一步联合更新。
#### 全局任务状态摘要。
当早期视觉上下文被截断时,执行体容易失去对初始任务目标的视线。为对抗这种意图衰减,我们设计了一个摘要模块,用于记录任务的持久语义以及累积进度。该摘要的主要作用是保持原始任务指令的可见性,即使最近的截图只显示界面的狭窄切片。这一机制防止执行体在长时间交互序列中偏离用户意图。
#### 进度追踪器。
在复杂的长程任务中,智能体常常失去对总体目标的追踪,造成评估当前进度时的严重模糊性。为解决这种模糊性,我们设计了一个进度追踪器,将任务分解为原子需求并追踪每个需求的执行状态。它维护四个字段:任务分解、已完成的里程碑、当前子目标和剩余需求。通过明确已验证的进度和未解决的步骤,该追踪器降低了智能体幻觉早期观察或过早终止的风险。
#### 感知过渡的焦点。
此外,由于 \(H_{t-1}\) 反映的是过去的意图而非环境反馈,智能体在系统延迟或失败期间面临重复循环的风险。为闭合这一循环,过渡视图通过比较观察 \(o_{t-1}\) 和 \(o_t\) 来评估前一个动作。如果结果不确定,该表示通过生成一个**下一步动作焦点**——例如验证状态或刷新列表——来防止盲目重复,从而指导智能体的下一步决策。
### 2.3 状态更新与执行体注入
在任务开始时,初始状态 \(S_0\) 仅从任务指令 \(I\) 推导得出。在随后的每一步 \(t\),在执行体执行动作 \(a_{t-1}\) 并由环境生成观察 \(o_t\) 之后,状态更新器 \(\mathcal{U}_\phi\) 接收任务指令、前一状态、执行体的前一个响应以及动作前后捕获的截图。然后它通过一次函数调用生成更新后的状态:
\[
S_t = \mathcal{U}_\phi(I, S_{t-1}, r_{t-1}, o_{t-1}, o_t).
\]
更新器 \(\mathcal{U}_\phi\) 通过一个提示的 LLM 实现,该 LLM 输出一个包含所有三个视图的结构化 JSON 对象。随后,执行体接收增广了任务状态序列化渲染的标准上下文:
\[
a_t = \pi_\theta(I, O_t, H_{t-1}, \mathcal{I}(S_t)),
\]
其中 \(\mathcal{I}(S_t)\) 表示一个注入函数,将三个状态视图格式化为附加到执行体提示中的文本块。关键在于,\(\pi_\theta\) 始终保持**固定**,因此整个机制在推理时作为外部操作运行,无需训练或架构修改。
## 3 实验
### 3.1 实验设置
我们在四个在线 GUI 基准上评估我们的方法,包括 MobileWorld (Kong 等, 2025 (https://arxiv.org/html/2607.00502#bib.bib5))、AndroidWorld (Rawles 等, 2025 (https://arxiv.org/html/2607.00502#bib.bib4))、MemGUI-Bench (Liu 等, 2026 (https://arxiv.org/html/2607.00502#bib.bib6)) 和 VenusBench-Mobile (Gong 等, 2026 (https://arxiv.org/html/2607.00502#bib.bib7))。我们基于先前研究 Kong 等 (2025) (https://arxiv.org/html/2607.00502#bib.bib5) 实现了标准 GUI 执行体作为基线。更多细节见附录 A (https://arxiv.org/html/2607.00502#A1)。
### 3.2 主要结果
表 1 (https://arxiv.org/html/2607.00502#S3.T1) 报告了所有设置下的成功率和平均步数。我们的发现如下。
表 1:基线与我们提出的任务状态表示的性能比较。
首先,最显著的改进出现在 MobileWorld 上(Qwen3.5-plus 提升 12%,Kimi-k2.5 提升 9%),该基准具有最长的平均轨迹和跨应用依赖。这与以下假设一致:当智能体需要导航扩展交互序列时,显式进度追踪最为有益。
此外,在内存密集型和用户中心型基准(MemGUI-Memory、VenusBench-Mobile)上,两个模型均有受益(提升 3.48% 到 5.22%)。然而,该表示并非普遍正面:Qwen3.5-plus 在 AndroidWorld 上下降 3.45%,而 Kimi-k2.5 在同一基准上提升 3.45%,这表明结构化任务状态追踪的效用取决于基础模型的固有规划能力和任务复杂度分布。
第三,更高的成功率并不总是需要更多步数。在几个案例中(Kimi-k2.5 在 VenusBench-Mobile 上:41.2→38.3 步;Qwen3.5-plus 在 MemGUI-Memory 上:65.4→64.5 步),该表示使任务完成更直接。相反,在 MobileWorld 上,步数随成功率同步增加,表明该表示帮助智能体坚持完成原本会放弃的复杂任务。
### 3.3 消融实验
我们在 Qwen3.5-plus 上进行消融,分别从表示中移除任务状态摘要、进度追踪器和感知过渡的焦点,同时仍更新内部状态。结果如表 2 (https://arxiv.org/html/2607.00502#S3.T2) 所示。
表 2:Qwen3.5-plus 的消融实验(成功率,%)。
首先,我们发现,在 MobileWorld 上,完整表示的优于每个消融变体 5-7%,表明三个组件协同作用。在单个移除中,去掉感知过渡的焦点导致最大退化(55→48),表明验证动作有效性是长程任务中最关键的信号。然而,在 AndroidWorld 上模式相反。具体来说,移除过渡模块后性能优于基线(63.79 vs. 61.21),而完整表示反而变差。这表明,对于较短的单应用任务,过渡验证引入了不必要的决策噪声。因此,任务状态表示最好被视为有条件有益的——当任务需要在多步中持久状态追踪时最有价值。
### 3.4 案例研究
请参阅图说明图 2:陈旧屏幕恢复。基线针对延迟的 UI 更新重复相同的删除动作。任务状态表示检测到不确定的过渡,并引导执行体在重试前先验证。
请参阅图说明图 3:过度分解失败。状态更新器过分解任务,导致执行体逐一检查项目而非使用全局视觉推理,超出步数预算。
图 2 (https://arxiv.org/html/2607.00502#S3.F2) 展示了一个书签管理任务,其中基线在 UI 更新延迟后进入重复循环;感知过渡的焦点检测到不确定的效果并引导执行体在重试前先验证。图 3 (https://arxiv.org/html/2607.00502#S3.F3) 展示了一种失败模式:当更新器过度分解任务时,执行体逐一检查项目而非利用全局视觉推理,超出步数预算。因此,任务状态表示应被视为指导而非覆盖当前屏幕证据。
## 4 相关工作
#### 移动 GUI 智能体。
最近的多模态 LLMs Liu 等 (2023) (https://arxiv.org/html/2607.00502#bib.bib23), 2025b (https://arxiv.org/html/2607.00502#bib.bib24) 使基于提示的 GUI 执行体成为可能,这些执行体将相似文章
UI-TARS-2 技术报告:通过多轮强化学习推进图形用户界面代理
UI-TARS-2 是一款原生以图形用户界面为中心的代理模型,解决了数据可扩展性、多轮强化学习以及环境稳定性等挑战,在图形用户界面基准测试中取得了领先成果(Online-Mind2Web 88.2 分,OSWorld 47.5 分,WindowsAgentArena 50.6 分,AndroidWorld 73.3 分),优于 Claude 和 OpenAI 代理模型。
GTA: 大规模生成Web智能体的长时域任务
本文介绍了GTA,一个可扩展的框架,用于自动生成具有可执行轨迹的长时域、多跳Web智能体任务,解决了Web智能体基准测试中缺乏过程级监督的问题。该框架集成了爬取、基于检索的种子生成和自动质量控制,以在多个网站上产生现实的任务。
面向GUI代理的技能引导连续蒸馏
该论文提出了技能引导连续蒸馏(SGCD),这是一个迭代式自我改进框架,利用技能引导策略在闭环执行过程中为偏离轨迹的状态生成监督信号,将OSWorld-Verified上GUI代理的成功率从约30%提升至超过50%。
StraTA:通过策略轨迹抽象激励智能体强化学习
StraTA 提出了面向长期任务 LLM 智能体的策略轨迹抽象方法,通过分层 GRPO 风格的 rollout、多样化策略采样和批判性自判断机制,在样本效率和最终性能上超越了前沿模型和先前 RL 基线。
SAM:面向长程推理智能体的状态自适应记忆
本文提出 SAM,一个状态自适应记忆框架,能够动态管理长程智能体推理中的交互历史,实现意图驱动的回忆,而无需重新训练基础模型。它在多个基准测试(如 BrowseComp 和 HLE)上优于强基线方法。