MobileExplorer: 通过在线探索加速移动GUI智能体的设备端推理

arXiv cs.AI 2026/05/27 04:00 论文

摘要

MobileExplorer是一个新框架，通过在模型推理期间对UI元素进行轻量级并行探索，加速移动GUI智能体的设备端推理，将推理步骤和延迟降低23%，同时保持或提高任务成功率。

arXiv:2605.26546v1 Announce Type: new 摘要：移动图形用户界面（GUI）智能体使AI模型能够代表用户自主操作智能手机。然而，现有系统主要侧重于优化任务准确性，并依赖云端模型进行推理，这带来了隐私问题和网络依赖延迟。因此，移动GUI智能体的完全设备端部署仍未得到充分探索。我们提出MobileExplorer，一种通过在线探索加速基于视觉的移动GUI智能体设备端推理的新框架。关键思想是利用视觉语言模型（VLM）每步推理时间较长的特点，对UI元素进行轻量级并行探索。在模型推理期间，智能体主动探测语义相关的UI元素，并将这些探索轨迹记录为结构化记忆。为了确保在实时移动环境中的可靠执行，我们设计了一个两级回滚机制，当快速但简单的回溯策略失败时，能够稳健地恢复初始UI状态。收集的探索轨迹随后被总结为简洁的上下文提示，并注入到提示中，以增强后续推理步骤。我们使用AndroidWorld基准测试以及新设计的更复杂任务和动态设备端环境，在多个现成设备上评估了MobileExplorer。MobileExplorer将平均推理步骤数和端到端延迟降低了23%，同时保持或提高了最多5%的任务成功率。实际环境中MobileExplorer性能的视频演示可在https://youtu.be/thK7MJmdlvM观看。

查看原文

查看缓存全文

缓存时间: 2026/05/27 09:06

# MobileExplorer：通过在线探索加速移动GUI代理的端侧推理
来源：https://arxiv.org/html/2605.26546

###### 摘要。

移动图形用户界面（GUI）代理使AI模型能够代表用户自主操作智能手机。然而，现有大多数系统主要侧重于优化任务准确性，并依赖云端模型进行推理，这会带来隐私问题和网络依赖的延迟。因此，完全端侧的移动GUI代理部署仍未得到充分探索。我们提出MobileExplorer，一种通过在线探索来加速基于视觉的移动GUI代理端侧推理的新框架。核心思想是利用视觉语言模型（VLM）较长的每步推理时间，对UI元素进行轻量级并行探索。在模型推理期间，代理主动探测语义相关的UI元素，并将这些探索轨迹记录为结构化记忆。为了确保在实时移动环境中的可靠执行，我们设计了一个两级回滚机制，在快速但天真的回溯策略失败时稳健地恢复初始UI状态。收集到的探索轨迹随后被总结为简洁的上下文提示，并注入到提示词中，以增强后续的推理步骤。我们在多个现成设备上使用AndroidWorld基准测试以及新设计的更复杂任务和动态端侧环境评估了MobileExplorer。MobileExplorer将平均推理步数和端到端延迟减少了23%，同时保持或提升了任务成功率，最高提升5%。MobileExplorer在现实世界中的性能演示视频可在https://youtu.be/thK7MJmdlvM 观看¹¹¹论文被接收后，MobileExplorer的源代码将发布。

††版权：无

## 1. 引言

随着大型语言模型（LLM）(Achiam 等人，2023 (https://arxiv.org/html/2605.26546#bib.bib10); Dubey 等人，2024 (https://arxiv.org/html/2605.26546#bib.bib13)) 和视觉语言模型（VLM）(Bai 等人，2025 (https://arxiv.org/html/2605.26546#bib.bib12); Team 等人，2023 (https://arxiv.org/html/2605.26546#bib.bib11)) 的进步，移动GUI代理迅速发展，实现了端到端的移动任务自动化，其中理解和规划在单个模型内完成(Wen 等人，2024 (https://arxiv.org/html/2605.26546#bib.bib6))。这些代理通常采用两种输入模态：基于文本的，依赖无障碍树(Ding, 2024 (https://arxiv.org/html/2605.26546#bib.bib5); Wen 等人，2024 (https://arxiv.org/html/2605.26546#bib.bib6), 2025 (https://arxiv.org/html/2605.26546#bib.bib7); Lee 等人，2024 (https://arxiv.org/html/2605.26546#bib.bib8); Dai 等人，2025 (https://arxiv.org/html/2605.26546#bib.bib9))；以及基于视觉的，直接操作截图(Wang 等人，2024 (https://arxiv.org/html/2605.26546#bib.bib14); Ye 等人，2025 (https://arxiv.org/html/2605.26546#bib.bib15); Wang 等人，2025 (https://arxiv.org/html/2605.26546#bib.bib16); Zhou 等人，2025 (https://arxiv.org/html/2605.26546#bib.bib17); Yan 等人，2025 (https://arxiv.org/html/2605.26546#bib.bib18))。与主要暴露文本属性的基于文本的无障碍树相比，截图提供了更丰富的视觉上下文——布局、空间关系和图标——使得对复杂界面的视觉定位更强(You 等人，2024 (https://arxiv.org/html/2605.26546#bib.bib27); Li and Li, 2022 (https://arxiv.org/html/2605.26546#bib.bib26))。因此，基于视觉的代理在具有挑战性的GUI任务上通常优于基于文本的方法(Li and Li, 2022 (https://arxiv.org/html/2605.26546#bib.bib26); Hong 等人，2024 (https://arxiv.org/html/2605.26546#bib.bib21))，并已成为主导方法，我们在这项工作中重点关注这一点。然而，现有的大多数GUI代理系统——无论基于文本还是视觉输入——都将LLM/VLM推理模型运行在云端，仅在本地执行操作。这种设计需要上传用户界面数据，带来了显著的隐私风险。因此，这凸显了对完全在端侧进行感知、推理和操作的移动GUI代理日益增长的需求。

尽管有这些优势，构建一个完全端侧的基于视觉的移动GUI代理仍然具有挑战性。首先，虽然VLM比LLM提供了更强的视觉理解，但它们会带来更高的计算和内存成本，使得即使对于轻量级语言模型来说，端侧部署也很困难。例如，MAI-UI-2B(Zhou 等人，2025 (https://arxiv.org/html/2605.26546#bib.bib17))在三星 Galaxy S24上仍然需要大约40秒的延迟。其次，移动GUI任务需要对复杂的界面元素（图标、布局、文本）进行精细的视觉定位，这些元素不像无障碍树输入那样容易压缩或结构化(Wen 等人，2024 (https://arxiv.org/html/2605.26546#bib.bib6))。最后，由于弹窗、内容变化和设备特定差异，移动界面高度动态，通常需要多轮VLM推理。

然而，现有的加速移动GUI代理中VLM推理的方法仍然面临明显的局限性。多步规划或脚本式执行(Wen 等人，2024 (https://arxiv.org/html/2605.26546#bib.bib6), 2025 (https://arxiv.org/html/2605.26546#bib.bib7))通过预先生成动作序列来减少模型调用次数，但这种计划很脆弱，在动态UI变化下常常失败。基于验证器的流水线(Dai 等人，2025 (https://arxiv.org/html/2605.26546#bib.bib9))将动作生成转移到对候选动作的轻量级验证上，但其效果很大程度上取决于候选质量，并且仍然会产生不可忽视的推理开销。令牌或上下文剪枝技术(Lin 等人，2025 (https://arxiv.org/html/2605.26546#bib.bib33))降低了输入数据的复杂度，但激进的剪枝可能会丢弃对准确GUI定位至关重要的细粒度视觉信息。此外，现有大多数系统按顺序处理推理和GUI交互，导致长长的VLM推理时间未被充分利用。

在本文中，我们提出MobileExplorer，一种新的端侧移动GUI代理框架，利用长长的VLM推理步骤延迟来执行并行的在线探索。我们观察到，端侧移动GUI代理存在明显的延迟不平衡：UI感知和交互相对轻量，而端侧VLM推理则会产生大量延迟。系统在模型推理期间不是闲置，而是主动与当前屏幕交互以收集任务相关信息，从而增强后续推理步骤，进而减少总体延迟。为了在模型推理延迟内实现高效探索，MobileExplorer采用了一种任务相关性驱动的探索策略，使用轻量级文本嵌入(Reimers and Gurevych, 2019 (https://arxiv.org/html/2605.26546#bib.bib20))优先选择语义重要且可点击的UI元素，每个选中的元素都关联精确坐标。为了确保稳定的导航，我们设计了一个稳健的回滚机制，能够可靠地将界面恢复到每次探索尝试后的初始UI状态，防止UI漂移并确保推理决策在与模型推理时相同的屏幕状态下执行。探索到的UI元素和交互轨迹随后通过轻量级基于模板的摘要转换为结构化的紧凑文本提示，其中从UI属性派生的语义标签被排序并提炼成供模型使用的简洁提示。通过将探索知识外部化并作为专用推理上下文重用，MobileExplorer增强了每步推理的准确性，从而减少了推理步骤和端到端系统延迟。

我们在多款现成智能手机上使用AndroidWorld基准测试(Rawles 等人，2024 (https://arxiv.org/html/2605.26546#bib.bib3))以及新设计的复杂任务和动态端侧环境评估了MobileExplorer。在完全端侧执行下，MobileExplorer保持了任务成功率，同时将平均交互步数和端到端延迟减少了约23%。

这项工作的主要贡献是：

- • 我们对端侧移动GUI代理的端到端执行延迟进行了深入分析，并识别出在现有的顺序交互流水线中，长VLM推理时间未被充分利用。
- • 我们提出MobileExplorer，一种新的端侧移动GUI代理框架，利用模型推理时间进行轻量级、并行的UI元素在线探索，使系统能够收集任务相关信息以增强后续推理步骤。
- • 为了在模型推理期间实现有效探索，我们设计了一种任务相关性驱动的探索策略，探测语义有意义且多样化的UI元素，以及一个两级回滚机制，恢复初始UI状态。生成的探索轨迹随后被转换为结构化的提示提示词，以增强模型推理。
- • 我们在多款商用设备上使用AndroidWorld基准测试和新设计的现实世界任务评估了MobileExplorer。结果表明，MobileExplorer将任务成功率最高提升了5%，同时将推理步数和端到端延迟减少了23%。

## 2. 相关工作

**移动GUI代理系统。** 移动GUI代理在基于文本和基于视觉的输入方面都得到了广泛研究。早期系统依赖LLM操作结构化文本表示，如无障碍树和动作历史。例如，AutoDroid(Wen 等人，2024 (https://arxiv.org/html/2605.26546#bib.bib6))和AutoDroid-V2(Wen 等人，2025 (https://arxiv.org/html/2605.26546#bib.bib7))利用规划和记忆机制进行长视界GUI交互，而V-Droid(Dai 等人，2025 (https://arxiv.org/html/2605.26546#bib.bib9))则采用基于验证器的范式，从候选UI元素中选择动作。然而，纯文本表示缺少丰富的视觉线索，如图标、布局结构和空间关系。因此，近期工作探索了直接操作截图的基于视觉的代理，包括CogAgent(Hong 等人，2024 (https://arxiv.org/html/2605.26546#bib.bib21))、Mobile-Agent-V3(Ye 等人，2025 (https://arxiv.org/html/2605.26546#bib.bib15))、MAI-UI(Zhou 等人，2025 (https://arxiv.org/html/2605.26546#bib.bib17))和STEP-UI(Yan 等人，2025 (https://arxiv.org/html/2605.26546#bib.bib18))。这些系统通过视觉区域对齐和交互轨迹训练改善了GUI定位。然而，现有大多数代理依赖云端推理，并通过ADB(Google Android Developers, (https://arxiv.org/html/2605.26546#bib.bib23))远程与设备交互，这引入了隐私风险和网络依赖性。

**移动GUI代理的端侧部署。** 少数研究探索直接在移动设备上运行基于语言模型的代理(Wen 等人，2024 (https://arxiv.org/html/2605.26546#bib.bib6), 2025 (https://arxiv.org/html/2605.26546#bib.bib7))。例如，AutoDroid(Wen 等人，2024 (https://arxiv.org/html/2605.26546#bib.bib6))通过将GUI状态表示为结构化文本并构建UI转换图来执行本地推理，而AutoDroid-V2(Wen 等人，2025 (https://arxiv.org/html/2605.26546#bib.bib7))通过从应用文档生成动作计划来减少延迟。然而，这些方法依赖于文本输入和规划先验，不能直接应用于必须对原始截图进行推理的基于视觉的代理。此外，基于视觉的代理需要对高维视觉输入进行VLM推理，这给端侧部署引入了显著更高的计算开销。相比之下，我们的重点是通过利用推理时间并行执行轻量级探索来加速基于视觉的GUI代理的端侧推理。

**移动GUI代理的离线知识库构建。** 一些移动GUI代理通过整合来自已探索界面的先验知识来改进决策。例如，AutoDroid(Wen 等人，2024 (https://arxiv.org/html/2605.26546#bib.bib6))构建了一个UI转换图作为结构化记忆，而AutoDroid-V2(Wen 等人，2025 (https://arxiv.org/html/2605.26546#bib.bib7))则利用应用文档和生成的样本任务进行规划。其他工作通过离线探索构建这样的知识。GUI-explorer(Xie 等人，2025 (https://arxiv.org/html/2605.26546#bib.bib24))从状态-动作轨迹中挖掘转换感知的知识，LLM-Explorer(Zhao 等人，2025 (https://arxiv.org/html/2605.26546#bib.bib19))通过大规模应用探索构建可重用的UI状态和交互图库。然而，这些方法依赖于离线收集的轨迹或预先构建的知识库，构建成本高且难以泛化到动态界面。相比之下，我们的工作在进行推理期间执行轻量级在线探索，无需离线知识构建，从而能够适应动态的现实世界移动应用。

## 3. 动机研究

### 3.1. 背景

#### 3.1.1. 移动GUI代理的工作流程

图1 (https://arxiv.org/html/2605.26546#S3.F1) 展示了移动GUI代理的典型端到端工作流程，包括感知、推理和操作。(1) **感知**。给定当前屏幕，代理首先捕获一张反映视觉布局、图标、文本以及UI元素之间空间关系的截图。(2) **推理与规划**。图像编码器将截图转换为视觉嵌入。这些嵌入随后与文本令牌——如用户指令、任务描述或对话上下文——结合，输入VLM进行推理。VLM输出可执行的GUI动作，如点击图标、输入文本、滚动或跨应用导航。(3) **操作**。系统在设备上执行这些动作，并重复感知-推理-操作循环，直到任务完成。例如，为了完成“打开Wi-Fi”任务，代理必须打开设置应用，滚动到Wi-Fi菜单并点击它。

参照图例图1. 移动GUI代理的端到端工作流程。代理将截图作为视觉输入，使用VLM进行多模态推理，并输出映射为可执行GUI动作的文本。
#### 3.1.2. 基于视觉的移动GUI代理

与主要暴露文本属性的无障碍树相比，截图提供了更丰富的视觉上下文，如布局结构、空间关系和图标，这些对于理解复杂的移动界面至关重要(You 等人，2024 (https://arxiv.org/html/2605.26546#bib.bib27); Li and Li, 2022 (https://arxiv.org/html/2605.26546#bib.bib26))。如图2(a) (https://arxiv.org/html/2605.26546#S3.F2.sf1) 所示，在AndroidWorld基准测试中表现最好的代理主要是基于视觉的。例如，强大的代理如GUI-Owl(Ye 等人，2025 (https://arxiv.org/html/2605.26546#bib.bib15))和MAI-UI(Zhou 等人，2025 (https://arxiv.org/html/2605.26546#bib.bib17))依赖于截图输入进行感知。相比之下，主要依赖无障碍树的方法很少出现在领先条目中。这种差异在需要识别图标或空间布局的任务中尤为明显。这些观察表明，视觉是可靠移动GUI代理的基本能力。

然而，视觉感知也引入了显著的系统挑战。

MobileExplorer: 通过在线探索加速移动GUI智能体的设备端推理

相似文章

MIRAGE：具备隐式推理与生成式世界模型的移动智能体

MobileGym: 一个可验证且高度并行的移动GUI代理研究仿真平台

MobileMoE：扩展端侧混合专家模型

UI-KOBE：面向知识的轻量级图引导GUI代理行为探索

MineExplorer：在《我的世界》中评估多模态大语言模型代理的开放世界探索能力

提交意见反馈