MIRAGE:具备隐式推理与生成式世界模型的移动智能体
摘要
MIRAGE 是一个面向移动端 GUI 智能体的框架,它以紧凑的连续潜在表示取代冗长的思维链推理,并融入生成式世界模型视角,在执行操作前预测未来的屏幕状态。在 AndroidWorld 和 AndroidControl 基准测试中,该框架在减少超过 75% 生成 token 的同时,实现了具有竞争力或更优的性能表现。
arXiv:2606.04627v1 发布类型:新论文
**摘要:** 移动智能体越来越需要根据屏幕截图和自然语言目标来操作日常应用程序,而可靠的控制需要对屏幕可交互元素、多步骤导航以及未来状态变化进行推理。然而,许多智能体将这一计算过程外化为冗长的文本思维链,这不仅拖慢了交互速度,还增加了监督成本,并使部署更加复杂。我们提出了 MIRAGE——一个从可见文本推理轨迹中学习连续潜在推理表示的框架。MIRAGE 将显式推理转化为紧凑的隐藏状态,使智能体无需解码冗长的推理过程即可在内部完成推理。该框架还融入了生成式世界模型目标:将潜在推理向量与未来屏幕截图对齐,从而鼓励智能体在执行操作前预判即将出现的界面状态。这使得隐式计算既充当压缩的思维表示,又充当对环境动态的前瞻性建模。在推理阶段,MIRAGE 在连续潜在空间中进行推理,在提升执行效率的同时减少了 token 生成量。在 AndroidWorld 上,MIRAGE 在 4B 消融实验中以低 3–5 倍的解码 token 预算与显式思维链监督微调持平,并将同等级别的指令微调基线提升了 10.2 个百分点;在 AndroidControl 上,它在将生成 token 数量减少超过 75% 的同时,提升了动作定位能力。
查看缓存全文
缓存时间: 2026/06/05 02:08
# MIRAGE:具备隐式推理与生成式世界模型的移动智能体
来源:https://arxiv.org/html/2606.04627
###### 摘要
移动智能体越来越多地被期望能够通过截图和语言目标来操作日常应用程序,而可靠的控制需要对屏幕可操作性、多步导航以及未来状态变化进行推理。然而,许多智能体将这种计算过程外化为冗长的文本思考,导致交互速度变慢、监督成本更高、部署效率更低。我们提出了 MIRAGE(**M**obile agents with **I**mplicit **R**easoning **A**nd **G**enerative world mod**E**ls,具备隐式推理与生成式世界模型的移动智能体),这是一个从可见文本思考中学习连续潜在推理表示的框架。MIRAGE 引入了一种高效的潜在空间学习流程,将显式推理转化为紧凑的隐藏状态,使智能体无需解码冗长的推理过程即可在内部完成推理。此外,MIRAGE 将世界模型的视角引入移动智能体训练:模型的潜在推理向量与未来截图对齐,鼓励智能体在执行动作前在潜在空间中预测即将出现的界面状态。这使得隐藏计算不仅是压缩后的思维轨迹,也是对环境可能如何变化的前瞻性表示。在推理阶段,MIRAGE 在连续潜在空间中进行推理,减少了 token 的生成量,同时提升了执行效率。在 AndroidWorld 上,MIRAGE 在 4B 消融实验中以 3–5× 更少的解码 token 预算匹配了显式 CoT SFT 的性能,并相比同等规模的指令微调基线提升了 10.2 个百分点;在 AndroidControl 上,它在将生成 token 数量减少超过 75% 的同时提升了动作定位精度。
## 1 引言
随着视觉语言模型的不断进步,越来越多的移动智能体系统开始使用它们直接从截图和用户指令执行移动操作。UI-TARS、MAI-UI、OS-ATLAS 和 SeeClick 等近期系统对 VLM 进行训练,使其能够理解 GUI 屏幕并生成点击、滑动、文本输入或导航命令\[1,2,3,4\]。然而,将屏幕级 VLM 转化为可靠的移动智能体,关键仍在于导航推理:模型必须追踪任务进度、决定下一步访问哪个屏幕,并预测每个动作将如何改变界面。
图 1 突出了这一推理瓶颈。当前移动智能体通常通过冗长的思考过程或详细的动作轨迹将推理过程显式化,这增加了解码时间、上下文占用和监督成本。其执行精度依然有限,这表明移动智能体需要一种既能保持显式轨迹能力,又能在实际部署约束下以更低成本运行的推理方式——在交互式控制中,每一个额外的 token 都会拖慢交互速度并延迟反馈。
参见图注
**图 1:** 在随机采样任务上的推理时间对比及 MIRAGE 工作流:基线模型生成冗长的可见轨迹,而 MIRAGE 使用潜在 token 进行推理,只输出简洁的动作。
为解决上述问题,我们提出了 MIRAGE,其核心思想是:移动智能体应学会在模型内部"向前思考"。在输出动作之前,智能体形成一种紧凑的内部表示,涵盖当前屏幕的可操作性、执行某一动作的原因,以及之后界面可能发生的变化。这一推理过程在潜在空间中进行,而非解码为可见文本,因此 MIRAGE 无需输出中间思考内容,从而减少了输出 token 数量和从首 token 到末 token 的延迟。
MIRAGE 采用两阶段训练流程。第一阶段基于显式文本轨迹进行训练,使骨干模型学习移动动作空间以及如何表达观察、推理和未来屏幕预测。第二阶段,MIRAGE 将文本推理模块替换为连续潜在推理槽并继续训练,逐步引导模型将推理过程转移到潜在空间中。推理阶段仅解码动作 token,不输出任何推理文本,交互延迟大幅降低。
为将显式推理能力迁移至潜在空间,MIRAGE 引入了**近似并行潜在精化**(Approximate Parallel Latent Refinement,APLR),通过 $K$ 轮 Jacobi 风格的迭代对所有潜在槽并行精化,近似完整的串行潜在思维链:前 $K$ 个槽可证明与串行展开结果一致,而剩余尾部误差有界。为进一步使模型内化未来状态预测能力,MIRAGE 附加了一个轻量级 Q-Former 世界模型头,将输出潜在表示与冻结视觉编码器提取的下一张截图的停止梯度视觉特征对齐。这种对齐使智能体能够预测 GUI 状态转换,防止潜在表示坍塌,并提供密集监督以补偿 APLR 的有界尾部误差。至关重要的是,动作交叉熵损失与下一帧特征对齐损失联合优化,使相同的潜在状态同时具备动作判别性和状态转换预测性。
这种耦合使 MIRAGE 能够在保留 CoT 级推理能力的同时,将中间计算移出解码文本流,从而以显著更低的推理成本实现相当的显式推理能力。
MIRAGE 在主流移动智能体基准测试上取得了优异成果。在 AndroidWorld 上,MIRAGE 相比同等规模指令微调基线将任务成功率提升了 10.2 个百分点,并在 4B 消融实验中以 3–5× 更少的解码 token 成本匹配了显式 CoT 的性能。在 AndroidControl 上,它在将生成 token 数量减少超过 75% 的同时提升了动作定位精度,证明了潜在推理与未来状态对齐能够以显著更精简的推理方式保留显式推理能力。
本文做出以下三项贡献:
- 我们提出 MIRAGE,一种完全在潜在空间中进行推理的移动智能体,输出 token 数量大幅减少,推理延迟显著降低,在 4B 消融实验中以 3–5× 更少的解码 token 成本匹配显式 CoT 的任务性能。
- 我们引入 APLR,一种并行 Jacobi 风格的潜在精化流程,以远低于完整串行潜在思维链的训练成本对其进行近似,并对尾部槽的近似误差给出可证明的上界。
- 我们引入一个 Q-Former 世界模型头,在潜在空间中将潜在推理状态与未来截图特征对齐,使智能体能够预测即将发生的 GUI 状态转换,并直接提升任务能力。
## 2 相关工作
##### 移动智能体与 GUI 智能体
GUI 智能体基准测试已从网页交互演进至动态 Android 控制,涵盖有依据的购物、开放式网页导航、数据规模研究和在线任务完成\[5,6,7,8\]。近期系统专门针对截图定位、GUI 动作和移动设备操作对 VLM 进行训练\[4,3,1,9\]。与扩展定位或规划流程不同,MIRAGE 通过在动作解码和状态转换建模过程中,将可见推理轨迹替换为对下一个 GUI 状态具有预测性的潜在槽,从而训练内部智能体状态。
##### 语言与视觉语言智能体中的推理
可见 CoT 和 ReAct 风格的轨迹能够改善推理和行动,但会暴露冗长的推理过程并消耗大量上下文\[10,11\]。其他工作通过暂停 token、私有思考、知识蒸馏或连续潜在 CoT 将计算过程内化\[12,13,14,15\]。MIRAGE 将隐式推理引入移动 GUI 控制领域,潜在思考支持动作选择和状态转换理解,并使用 APLR 在严格因果三角系统(而非均衡模型)中近似串行潜在精化。
##### 世界模型与视觉特征预测
世界模型学习控制的预测动态,从紧凑潜在模拟器到潜在想象智能体\[16,17\]。联合嵌入视觉目标表明特征预测无需像素生成即可学习语义\[18,19\],而模态对齐工作揭示了视觉与语言表示之间的瓶颈\[20\]。Q-Former 查询提供了一种轻量级交叉注意力瓶颈\[21\]。近期 GUI 世界模型可预测未来屏幕、草图或语义状态\[22,23\]。MIRAGE 则利用未来预测来塑造潜在推理状态,鼓励形成动作诱导的状态转换表示,同时在推理时无需生成像素或未来文本。
## 3 方法
### 3.1 问题定义:从显式思考到潜在思考的移动智能体
在交互步骤 $t$ 时,移动 GUI 智能体观察当前截图 $x_t$、用户指令 $u$ 以及交互历史 $h_t = (a_{\leq t-1}, o_{\leq t-1})$,并输出动作 $a_t$。为使推理过程清晰,显式思考智能体在动作之前生成一个结构化的文本块:
$$\text{[observation] [rationale] [predict] } \ldots$$
其中 **observation** 字段描述可见屏幕状态,**rationale** 解释为何应执行特定操作,**predict** 描述预期的下一屏幕状态转换。显式思考热身阶段将此结构化文本作为普通的下一 token 监督。潜在思考训练阶段则将整个文本块替换为 $N$ 个潜在 token。token 序列变为:
$$[\mathrm{ctx}]\ ;[\mathrm{start}]\ ;\underbrace{\langle\mathrm{lat}\rangle,\ldots,\langle\mathrm{lat}\rangle}_{N\ \mathrm{slots}}\ ;[\mathrm{end}]\ ;\langle\mathrm{ACTION\_DESC}\rangle\cdots\langle\mathrm{ACTION}\rangle. \tag{4}$$
潜在槽占据位置 $p_1 < \cdots < p_N$,其嵌入在训练中被学习,在推理时动态填充。
### 3.2 近似并行潜在精化(APLR)
**串行潜在思维链**。设 $c$ 为上下文嵌入(视觉特征 + 指令 + 历史),$G_i$ 为自回归变换器在位置 $p_i$ 处的隐式函数。串行精化依次展开:
$$s_i = G_i(s_1, \ldots, s_{i-1}; c), \quad i = 1, \ldots, N. \tag{5}$$
这构成一个严格因果的三角系统:每个槽 $i$ 仅依赖于前面的槽 $z_{j>i}$(原文如此)。因此,APLR 不逐槽依次填充,而是执行 Jacobi 风格的迭代轮次:
$$z_i^{(k+1)} = G_i\!\left(z_1^{(k)}, z_2^{(k)}, \ldots, z_{i-1}^{(k)}; c\right), \qquad i=1,\ldots,N, \quad k=0,\ldots,K-1. \tag{6}$$
所有右端项使用第 $k$ 轮的旧值,因此一次完整前向传播即可更新所有槽。实践中,我们使用较小的精化预算,默认 $K=3$。
APLR 与式 (5) 中串行精化的关系是精确的。经过 $K$ 轮并行迭代后,前 $K$ 个潜在槽与串行解完全一致,即对 $i \leq K$ 有 $z_i^{(K)} = s_i$。与逐一精化所有潜在 token 相比,未精化的尾部槽保留一个结构化残差:
$$\delta^{(K)} \approx A^K \delta^{(0)}, \tag{7}$$
其中 $A$ 是一个严格下三角 Jacobian 矩阵。附录 F 证明了经过 $K$ 轮 APLR 迭代后,前 $K$ 个潜在槽能够精确恢复串行解,并推导出式 (7) 中的尾部误差形式。
在实现中,早期引导传播可以不带梯度运行,而第一次传播可以通过 $e_{\mathrm{lat}}$ 保留梯度以保证稳定性。在最终启用梯度的传播之前,我们使用掩码重建输入嵌入:潜在位置使用分离的引导值,而非潜在位置保留其原始梯度链路,连接至视觉塔和 token 嵌入。最终 APLR 传播使用序列化动作 token 上的标准下一 token 交叉熵损失进行训练:
$$\mathcal{L}_{\mathrm{ce}} = -\sum_{j=1}^{|a_t|} \log p_\theta\!\left(a_t^{(j)} \mid z_t^{(K)}, a_t^{(<j)}\right). \tag{8}$$
### 3.3 Q-Former 世界模型头
**动机**。APLR 的尾部误差(式 7)及潜在槽的欠约束性可能导致表示坍塌——所有槽收敛至相同值。为防止这一问题并编码动作诱导的状态转换知识,我们附加了一个世界模型头,将潜在槽 $z^{(K)}$ 对齐至下一张截图的视觉特征。
**Q-Former 对齐**。设 $\hat{x}_{t+1}$ 为下一步截图,$v_{t+1} = \mathrm{VisionEncoder}(\hat{x}_{t+1})$ 为其(停止梯度后的)视觉特征。我们引入 $M$ 个可学习查询向量 $Q \in \mathbb{R}^{M \times d}$,通过交叉注意力以潜在槽 $z^{(K)}$ 为键值对进行聚合,得到预测嵌入 $\hat{v}$。世界模型损失为:
$$\mathcal{L}_{\mathrm{wm}} = \left\| \hat{v} - \mathrm{sg}(v_{t+1}) \right\|_2^2, \tag{9}$$
其中 $\mathrm{sg}(\cdot)$ 表示停止梯度操作。这使潜在槽学会编码下一 GUI 状态的视觉语义,而无需在推理时生成像素。
### 3.4 两阶段训练流程
**阶段一:显式思考热身**。完整的结构化文本块作为文本监督暴露,VLM 使用标准下一 token 交叉熵在结构化思考、动作描述和动作 token 上进行训练。
**阶段二:潜在思考蒸馏**。该阶段将显式推理过程蒸馏为紧凑潜在槽:文本块被式 (4) 中的潜在序列替换,APLR 精化潜在状态(默认 $K=3$),数据整理器加载下一张截图,世界模型通过 Q-Former 下一帧特征对齐对潜在槽施加正则化。联合目标为:
$$\mathcal{L} = \lambda\mathcal{L}_{\mathrm{ce}} + (1-\lambda)\mathcal{L}_{\mathrm{wm}}, \qquad \lambda \in (0,1). \tag{14}$$
默认使用 $\lambda = 0.8$。图 2 总结了整体流程,附录 E 给出伪代码。
推理阶段,智能体仅执行潜在替换和贪婪动作解码;Q-Former 头仅在训练阶段用于表示塑造\[24\]。
## 4 实验
### 4.1 实验设置
##### 骨干模型
我们对 Qwen3-VL 系列\[25\]中的两个视觉语言模型进行微调:**Qwen3-VL-4B-Instruct**(40亿参数)和 **Qwen3-VL-8B-Instruct**(80亿参数)。两个骨干模型共享相同的动作序列化词表、潜在槽 token 格式和 Q-Former 世界模型头。其潜在计算预算有所不同:主要的 Qwen3-VL-4B 设置使用 9 个潜在槽,进行 3 轮 APLR 精化;Qwen3-VL-8B 设置使用 6 个潜在槽,进行 3 轮精化。
##### 评估基准
我们在两个标准移动智能体基准测试上进行评估。**AndroidControl**\[7\] 提供配对的高级和低级指令及标准动作序列,支持对指令遵循精确匹配(EM)和动作精度的独立评估。**AndroidWorld**\[8\] 是一个动态的设备端基准测试,涵盖 20 个 Android 应用中的 116 个真实任务实例,在实时 Android 动态环境下测量端到端任务完成率。
##### 基线
我们与以下模型进行比较:规模匹配的 **Qwen3-VL-4B/8B-Instruct** 骨干\[25\]、通用多模态基线 **GPT-4o**\[26\]、强化微调 GUI 智能体 **GUI-R1/UI-R1**\[27,28\],以及近期 GUI 智能体系统,包括 **ShowUI**、**MAI-UI**、**UI-Venus-Navi**、**UI-TARS-7B-SFT** 和 **Ferret-UI Lite**,分别在 AndroidControl 和 AndroidWorld 上进行比较\[29,2,30,1,31\]。
### 4.2 主要结果
**表 1:** AndroidControl 结果。EM = 精确匹配,Action Acc. = 动作精度,Tokens = 每步平均生成 token 数。外部行使用报告的 Type/EM 指标;绿色括号显示 MIRAGE 相对于规模匹配的 Qwen3-VL-Instruct 基线的提升。主要指标最优值和最低 Tokens 以**粗体**标注。
**表 2:** AndroidWorld 结果。SR = 任务成功率;Avg. Steps/Tokens = ……相似文章
MobileExplorer: 通过在线探索加速移动GUI智能体的设备端推理
MobileExplorer是一个新框架,通过在模型推理期间对UI元素进行轻量级并行探索,加速移动GUI智能体的设备端推理,将推理步骤和延迟降低23%,同时保持或提高任务成功率。
MementoGUI:学习智能体多模态记忆控制以支持长时域GUI代理
MementoGUI 提出了一种用于 GUI 代理的插件式智能体记忆框架,该框架使用学习到的控制器进行选择性记忆管理与检索,通过压缩的视觉与文本表示提升了长期任务的性能。
感知先行推理:一种高效可靠的主动移动代理的预推理感知框架
本文提出了一种用于主动移动代理的预推理感知框架(PRPF),将干预时机与辅助生成解耦,以提高效率并减少误触发。
MotiMotion:基于视觉推理的运动控制视频生成
MotiMotion提出了一种先推理后生成的框架,用于运动控制的视频生成。该框架利用视觉语言推理来优化运动轨迹,并采用置信度感知的控制方案来提高合理性,在新基准上优于现有方法。
通过结构化元认知在通用智能体中实现深度推理
本文介绍了深度推理(Deep Reasoning),这是一种在推理阶段利用结构化元推理为通用智能体构建特定任务脚手架的方法。提出的智能体 Dolores 通过将认知分配到低负载的推理线程中,减少了幻觉并提升了在多个基准测试上的表现,优于现有方法。