感知先行推理:一种高效可靠的主动移动代理的预推理感知框架
摘要
本文提出了一种用于主动移动代理的预推理感知框架(PRPF),将干预时机与辅助生成解耦,以提高效率并减少误触发。
arXiv:2606.03236v1 公告类型:新
摘要:多模态大语言模型(MLLMs)显著推动了移动代理的发展,但主动移动辅助仍然具有挑战性,因为代理必须在确定\emph{如何}辅助之前决定\emph{何时}干预。现有系统通常将这两个决策整合到统一的基于MLLM的流程中,导致保守的干预过滤与全面的辅助生成之间的目标错位,以及在代理应保持沉默时的冗余推理。为解决这些限制,我们提出了\textbf{预推理感知框架(PRPF)},一个基于感知先行的两阶段框架。PRPF引入了一个轻量级的多模态主动感知器(MPP)用于干预门控和上下文压缩,并仅在需要干预时激活主动代理推理器(PAR)。在ProactiveMobile基准上的实验表明,与ProactiveMobile基线相比,PRPF显著降低了错误触发率(FTR),同时提高了成功率(SR)和推理效率。
查看缓存全文
缓存时间: 2026/06/03 09:43
# 先感知后推理:面向高效可靠主动式移动智能体的预推理感知框架
来源:https://arxiv.org/html/2606.03236
丁志杰¹,²,洪炜楠¹,³,朱子成¹,⁴,李磊¹,孔德志¹,王浩¹,周鹏¹,蒋旭初²,徐嘉明¹,²
¹小米集团HyperAI团队
²中南财经政法大学
³吉林大学
⁴香港中文大学(深圳)
###### 摘要
多模态大语言模型(MLLMs)在移动智能体领域取得了显著进展,然而主动式移动辅助仍充满挑战,因为智能体必须在决定*如何*协助之前,先判断*何时*进行干预。现有系统通常将这两个决策统一在一个基于MLLM的流程中,导致保守的干预筛选与全面的辅助生成之间存在目标偏差,并且在智能体应保持静默时产生冗余推理。为解决这些局限,我们提出**预推理感知框架(PRPF)**,这是一个基于“先感知后推理”原则的两阶段框架。PRPF引入轻量级多模态主动感知器(MPP)用于干预门控和上下文压缩,并仅在需要干预时激活主动式智能体推理器(PAR)。在ProactiveMobile基准上的实验表明,与ProactiveMobile基线相比,PRPF显著降低了误触发率(FTR),同时提高了成功率(SR)和推理效率。
# 先感知后推理:面向高效可靠主动式移动智能体的预推理感知框架
丁志杰¹,²∗ 、洪炜楠¹,³∗ 、朱子成¹,⁴∗ 、李磊¹∗ 、孔德志¹、王浩¹、周鹏¹、蒋旭初²† 、徐嘉明¹,²†
¹小米集团HyperAI团队
²中南财经政法大学
³吉林大学
⁴香港中文大学(深圳)
## 1 引言
多模态大语言模型(MLLMs),特别是视觉语言模型(VLMs),通过使智能体能够感知移动界面并执行用户指令,显著推动了移动智能体的发展(Bai等人,2025 (https://arxiv.org/html/2606.03236#bib.bib33);Hurst等人,2024 (https://arxiv.org/html/2606.03236#bib.bib34);Zhang等人,2025b (https://arxiv.org/html/2606.03236#bib.bib13))。然而,移动智能体越来越被期望超越被动式指令跟随,迈向主动式辅助,即智能体能预判用户需求并在无需明确提示的情况下进行干预(Lu等人,2025 (https://arxiv.org/html/2606.03236#bib.bib8);Kong等人,2026 (https://arxiv.org/html/2606.03236#bib.bib9))。现有研究通常将主动式辅助形式化为一个*何时-如何*问题,其中智能体必须首先确定*何时*干预,再决定*如何*辅助(Yang等人,2026b (https://arxiv.org/html/2606.03236#bib.bib12);Xie等人,2026 (https://arxiv.org/html/2606.03236#bib.bib18);Liu等人,2026 (https://arxiv.org/html/2606.03236#bib.bib11))。
参见图注
图1:统一式主动推理与PRPF的对比。
最近的系统通常在一个统一的基于VLM的智能体中实现这一形式化。例如,ProAgentBench(Tang等人,2026 (https://arxiv.org/html/2606.03236#bib.bib15))将何时辅助和如何辅助视为由同一微调骨干网络处理的时机判断和内容生成子任务。类似地,PARE-Bench(Nathani等人,2026 (https://arxiv.org/html/2606.03236#bib.bib10))将主动式辅助框架化为一个观察-执行过程,其中观察和执行通过在一个基于VLM的助手中切换工具使用模式来实现。尽管实现方式不同,这些系统通常将干预时机和辅助生成耦合在单个VLM智能体流程中。图1 (https://arxiv.org/html/2606.03236#S1.F1) 对比了这种统一推理范式与PRPF,PRPF在推理之前过滤掉非干预情况,以减少不必要的用户干扰。
统一设计带来了两个关键限制:
**目标偏差**。“何时”决策需要保守且高度判别性的判断,以在非对称干预成本下抑制误触发,而“如何”决策需要广泛的多模态推理和灵活的内容生成。将这些目标耦合在单个VLM智能体中,使得同时实现保守的干预筛选和全面的辅助生成变得困难。正如Proactive Agent(Lu等人,2025 (https://arxiv.org/html/2606.03236#bib.bib8))和PRISM(Fu等人,2026 (https://arxiv.org/html/2606.03236#bib.bib16))所观察到的,即使是强大的模型也难以维持令人满意的移动用户体验所需的低误触发率。过度干预会打断用户工作流程,而过于保守的策略则可能使主动式智能体沦为被动的助手。
**推理效率低下**。现有的单阶段VLM智能体无论最终是否需要干预,都会执行完整的推理流程。因此,即使正确的行为是保持静默,大型模型也被激活,产生了不必要的长上下文和多轮推理成本(Gao等人,2024 (https://arxiv.org/html/2606.03236#bib.bib55);Yang等人,2026a (https://arxiv.org/html/2606.03236#bib.bib56))。这种低效在移动环境中因场景多样和功能空间庞大而变得更加严重。例如,ProactiveMobile(Kong等人,2026 (https://arxiv.org/html/2606.03236#bib.bib9))需要在涵盖14个场景的模式上进行推理,显著增加了提示长度和推理成本。ContextAgent(Yang等人,2026b (https://arxiv.org/html/2606.03236#bib.bib12))同样报告了在复杂上下文设置下计算成本更高且性能提升有限的问题。
为解决这些局限,我们提出**预推理感知框架(PRPF)**,这是一个基于“先感知后推理”原则构建的移动主动智能框架。PRPF并非使用大型VLM联合判断何时干预和如何辅助,而是在架构层面将两个阶段分离。一个轻量级的感知前端首先执行干预门控和候选函数压缩,将保守的“何时”判断分配给一个高效的判别模块。然后,仅在需要干预时才激活基于VLM的推理器,使其专注于生成式的“如何”阶段。这种分离使每个模块与其对应的目标对齐,同时在智能体应保持静默时避免完整的VLM推理。
具体而言,PRPF引入了**多模态主动感知器(MPP)**,一个轻量级的多模态融合编码器,具有短时和长时通路,在大模型推理之前运行。MPP首先决定智能体应干预还是保持静默,从而从源头上减少误触发。然后,它将多模态上下文压缩成少量Top-KK场景候选,过滤掉无关的长尾上下文,减轻后续阶段的推理负担。基于这种紧凑的证据,**主动式智能体推理器(PAR)** 进行聚焦的深度推理,以生成最终的主动式推荐。因此,MPP充当了一个预推理感知截断,而PAR则将其推理能力集中在实际需要主动辅助的情况下。
在ProactiveMobile基准上的实验表明,PRPF将成功率从20.82%提升至41.15%,误触发率从13.76%降低至7.21%,并将期望推理计算量削减了69.3%。这些结果表明,PRPF在通过更好地识别何时保持静默来减少错误中断的同时,提高了主动推荐和工具调用的准确性。
总结而言,我们的贡献如下:
- • 我们提出了PRPF,一个两阶段预推理感知框架,在架构上解耦了主动式移动智能体的“何时”判断与“如何”阶段推理。
- • 我们设计了MPP,一个轻量级、即插即用的多模态感知器,用于干预门控和上下文压缩,以及PAR,一个主动式智能体推理器,用于完整且聚焦的“如何”阶段推理。
- • 在ProactiveMobile基准上的大量实验表明,PRPF在提高成功率和推理效率的同时,显著降低了误触发率。
参见图注
图2:PRPF的总体框架。
## 2 相关工作
### 2.1 主动式智能体
主动式智能体研究将LLM智能体从指令跟随扩展到主动辅助,要求智能体从持续运行的上下文中判断干预时机并生成有用的辅助(Lu等人,2025 (https://arxiv.org/html/2606.03236#bib.bib8);Tang等人,2026 (https://arxiv.org/html/2606.03236#bib.bib15);Fu等人,2026 (https://arxiv.org/html/2606.03236#bib.bib16))。先前工作通过干预时机预测、辅助内容生成、代价敏感的选择性干预以及分阶段的主动行为来研究这一区分(Tang等人,2026 (https://arxiv.org/html/2606.03236#bib.bib15);Fu等人,2026 (https://arxiv.org/html/2606.03236#bib.bib16);Nathani等人,2026 (https://arxiv.org/html/2606.03236#bib.bib10);Xie等人,2026 (https://arxiv.org/html/2606.03236#bib.bib18))。主动式GUI和移动设置使这个问题变得具体,因为必须在发出明确命令之前从界面轨迹中推断用户意图。现有基准研究GUI轨迹上的意图推荐以及基于设备上下文的可执行函数序列生成(Chai等人,2026 (https://arxiv.org/html/2606.03236#bib.bib19);Kong等人,2026 (https://arxiv.org/html/2606.03236#bib.bib9))。以ProactiveMobile作为评估环境,PRPF侧重于轻量级预推理干预感知与重型VLM辅助推理之间的架构分离。
### 2.2 GUI感知与高效推理
移动和GUI智能体为主动辅助提供了感知和执行基础,但现有大多数系统仍是被动的。先前工作推进了智能手机操作、移动任务执行、基于截图的GUI理解以及在明确指令下的视觉定位(Zhang等人,2025b (https://arxiv.org/html/2606.03236#bib.bib13);Wang等人,2024 (https://arxiv.org/html/2606.03236#bib.bib24);Rawles等人,2025 (https://arxiv.org/html/2606.03236#bib.bib14);Deng等人,2024 (https://arxiv.org/html/2606.03236#bib.bib25);Qin等人,2025 (https://arxiv.org/html/2606.03236#bib.bib39);Cheng等人,2024 (https://arxiv.org/html/2606.03236#bib.bib26))。这些进展提高了智能体在请求的GUI任务上如何感知和行动的能力,但并未解决持续观察的移动上下文是否值得干预的问题。关注效率的工作进一步在昂贵推理之前引入了中间感知、自适应视觉处理、区域选择或模型路由(Wu等人,2025 (https://arxiv.org/html/2606.03236#bib.bib27);Mehrotra等人,2025 (https://arxiv.org/html/2606.03236#bib.bib28);Tang等人,2025 (https://arxiv.org/html/2606.03236#bib.bib29);Liu等人,2026 (https://arxiv.org/html/2606.03236#bib.bib30);Ong等人,2024 (https://arxiv.org/html/2606.03236#bib.bib31);Xu等人,2025 (https://arxiv.org/html/2606.03236#bib.bib32))。这些方法使用前端选择,但其决策信号通常是任务难度、区域相关性或给定查询的模型调用成本。它们本身并未解决主动干预变量:移动上下文是否值得干预,以及哪些意图候选应条件化后续辅助。
## 3 方法
### 3.1 任务定义
移动设备上的主动智能要求模型在显式请求之前推断用户的潜在需求,并生成可执行的函数调用序列(Kong等人,2026 (https://arxiv.org/html/2606.03236#bib.bib9))。因此,该任务不仅需要准确确定何时触发推荐,还需要生成与用户意图一致的函数序列。给定一个移动交互样本,其输入包括用户档案(\(U\))、设备状态(\(D\))、世界信息(\(W\))和交互历史(\(I\))。在多模态设置中,\(I\)由GUI截图序列表示,而在文本设置中,则由轨迹文本表示。模型需要从函数集(\(F\))中生成一个可执行的函数调用序列:
\[
\hat{y}=
\begin{cases}
\varnothing \\
\hat{s}=[(\hat{f}_1,\hat{a}_1),\ldots,(\hat{f}_m,\hat{a}_m)]
\end{cases}
\]
(1)
其中\(\varnothing\)表示在当前状态下不应触发主动推荐;\(\hat{s}\)表示模型预测的函数调用序列;\(\hat{f}_m \in F\)表示预测的第\(m\)个函数,\(\hat{a}_m\)表示相应的函数参数。
### 3.2 PRPF框架
为解决主动式移动智能中高误触发率和推理效率低下的问题,我们提出预推理感知框架(PRPF),如图2 (https://arxiv.org/html/2606.03236#S1.F2)所示。PRPF由两部分组成:1)轻量级多模态主动感知器(MPP),快速判断当前移动交互状态是否应触发主动推荐并预测候选函数;2)主动式智能体推理器(PAR),生成与用户意图一致的函数调用序列。对于不需要推荐的样本,MPP直接过滤掉;否则,进入PAR推理以生成函数调用序列。
### 3.3 多模态主动感知器
MPP由一个快慢双通道交互模块和两个任务特定的MLP头组成,分别用于触发门控和函数场景预测。这两个头决定是否触发主动推荐并预测候选函数,为PAR提供前期预处理。以多模态数据为例,文本信息和GUI截图序列首先分别由文本编码器和图像编码器编码:
\[
H_{\mathrm{text}} = f_{\mathrm{text}}(\{U,D,W\}), \quad H_{\mathrm{img}} = \{f_{\mathrm{img}}(I_t)\}_{t=1}^T,
\]
(2)
其中\(f_{\mathrm{text}}\)和\(f_{\mathrm{img}}\)分别表示文本编码器和图像编码器;\(I_t\)表示第\(t\)个GUI截图;\(T\)表示完整GUI截图序列的长度。然后,文本和视觉特征通过线性映射投影到统一维度空间:
\[
c_{text} = W_c H_{text}, \quad c_{img} = W_v H_{img},
\]
(3)
其中\(W_c\)和\(W_v\)是线性投影矩阵。\(c_{text} \in \mathbb{R}^{3 \times d}\)和\(c_{img} \in \mathbb{R}^{T \times d}\)分别表示投影后的文本上下文表示和截图序列表示,\(d\)是统一的投影维度。
函数调用序列既依赖于短期的GUI动态,也依赖于文本上下文反映的长期行为偏好。因此,我们构建快慢通道来捕获这些互补信号。慢速通道捕获反映用户偏好的长期行为模式。首先,我们对完整的GUI序列应用注意力池化以获得全局视觉状态表示:
\[
\bar{x} = \mathrm{AttnPool}(H_{\mathrm{img}}).
\]相似文章
PRISM:用于顺序决策的感知与推理交织方法
本文介绍了 PRISM,这是一个通过动态问答流程整合视觉-语言模型和大语言模型的框架,旨在提升具身 AI 任务中的顺序决策能力。
从智能体轨迹中诱导推理原语
介绍推理原语诱导(Reasoning Primitive Induction)方法,该方法从成功的ReAct轨迹中挖掘,将重复出现的推理动作聚类为类型化的伪工具,在基准测试上比原始智能体高出数十个百分点。
MIRAGE:具备隐式推理与生成式世界模型的移动智能体
MIRAGE 是一个面向移动端 GUI 智能体的框架,它以紧凑的连续潜在表示取代冗长的思维链推理,并融入生成式世界模型视角,在执行操作前预测未来的屏幕状态。在 AndroidWorld 和 AndroidControl 基准测试中,该框架在减少超过 75% 生成 token 的同时,实现了具有竞争力或更优的性能表现。
通过自我调节的模拟规划实现高效代理推理
介绍了 SR²AM,一种通过自我调节的模拟规划实现高效代理推理的框架,在推理 token 减少 26-95% 的同时,达到了与 20-30 倍参数规模模型相竞争的性能。
预见与学习:在主动式智能体中释放空闲时间计算能力
ProAct 是一种主动式智能体架构,利用空闲时间计算来预见用户需求,提升任务完成的效率与准确性。它引入了 ProActEval 基准测试,涵盖 40 个领域的 200 个场景,相比被动式基线取得了显著提升:所需交互轮次减少 14.8%,用户努力降低 11.7%,幻觉率下降 28.1%。