DRS-GUI: 动态区域搜索实现免训练GUI定位
摘要
DRS-GUI提出了一种免训练的动态区域搜索框架用于GUI定位,通过轻量级UI感知器模拟人类感知行为,并结合蒙特卡洛树搜索逐步定位与指令相关的元素。实验表明,在ScreenSpot-Pro上,通用和GUI专用多模态大语言模型的定位性能提升了14%。
查看缓存全文
缓存时间: 2026/05/18 06:33
# DRS-GUI:面向无需训练的 GUI 接地任务的动态区域搜索
来源:https://arxiv.org/html/2605.15542
Yichao Liu¹, Huawen Shen², Liu Yu¹, Shiyu Liu¹, Zeyu Chen¹, Yu Zhou¹
¹南开大学,²中国科学院信息工程研究所
###### 摘要
基于多模态大语言模型(MLLM)的 GUI 智能体在理解和执行用户指令方面展现了卓越能力。然而,对于现有方法而言,在充斥着无关 UI 组件的高分辨率截图中,准确地将指令相关元素进行定位仍具挑战。受人类在复杂屏幕上动态调整感知范围以定位任务相关区域的方式启发,我们提出 DRS-GUI,一种无需训练的 GUI 接地动态区域搜索框架,可无缝集成到现有 MLLM 中。DRS-GUI 引入了一个轻量级 UI 感知器,通过执行三种类人感知动作(聚焦、移动、分散)来逐步探索界面并生成区域提议。为了动态调度这些动作,我们进一步设计了一个基于蒙特卡洛树搜索(MCTS)的动作规划器。我们使用区域质量奖励来评估并选择与指令高度相关的区域,从而有效剪枝冗余的 UI 元素。实验表明,DRS-GUI 在 ScreenSpot-Pro 基准上,对于通用及 GUI 专用 MLLM(Qwen2.5-VL-7B 和 UGround-V1-7B),均提升了 14% 的性能,显著增强了接地表现和泛化能力。
## 1 引言
参见图注图 1:(a) 单阶段方法通过仅向前的聚焦进行逐步裁剪和缩放,导致误差累积。(b) DRS-GUI 使用动作规划器和 UI 感知器,通过三种感知动作探索区域,并基于区域质量评估来筛选与指令相关的区域。借助近期多模态大语言模型(MLLM)[43(https://arxiv.org/html/2605.15542#bib.bib492),11(https://arxiv.org/html/2605.15542#bib.bib511),46(https://arxiv.org/html/2605.15542#bib.bib585),42(https://arxiv.org/html/2605.15542#bib.bib613),27(https://arxiv.org/html/2605.15542#bib.bib244)] 的进步,图形用户界面(GUI)智能体正从基于规则的脚本控制转向自然语言交互。此类交互的可靠性根本上取决于*接地*——即准确定位用户指令所指定的可执行 UI 元素[20(https://arxiv.org/html/2605.15542#bib.bib592),50(https://arxiv.org/html/2605.15542#bib.bib484)]。然而,真实的 GUI 截图通常分辨率高、视觉密集,含有大量冗余元素,会分散 MLLM 对指令相关线索的注意,使其难以可靠地隔离出真正的目标[19(https://arxiv.org/html/2605.15542#bib.bib446)]。由此导致的失败不仅源于视觉混乱,也源于缺乏在交互过程中自适应调整感知范围的显式机制。
现有的 GUI 接地方法通常属于两种范式,但两者均缺乏真正自适应的感知行为。第一种范式将接地表述为单步全屏预测,直接在整个截图上回归一个点或边界框[17(https://arxiv.org/html/2605.15542#bib.bib417),9(https://arxiv.org/html/2605.15542#bib.bib456),41(https://arxiv.org/html/2605.15542#bib.bib523)]。由于缺乏对注意力的显式控制,此类模型往往无法从背景混乱中分离出与指令相关的线索。第二种范式采用多步细化策略,例如迭代裁剪或缩放[16(https://arxiv.org/html/2605.15542#bib.bib521),23(https://arxiv.org/html/2605.15542#bib.bib520),36(https://arxiv.org/html/2605.15542#bib.bib506)],以逐步将视野收窄至目标。尽管这些方法提供了渐进聚焦,但其细化过程通常是仅向前的,缺乏评估每一步是否改善与指令对齐的机制,也缺乏在早期决策偏离正确轨迹时回溯的能力[39(https://arxiv.org/html/2605.15542#bib.bib497)]。如图 1(https://arxiv.org/html/2605.15542#S1.F1)(a) 所示,当轨迹偏离语义线索时,最终区域可能不包含目标,从而使错误不可恢复。
相比之下,人类行为遵循一种更灵活的模式:人类并非固守一条单一的收窄路径,而是扫描布局、逐渐细化注意力,并在出现不确定性时后退或转向其他区域。这种自适应且可逆的搜索过程自然能评估注意力是朝向还是背离真正目标[31(https://arxiv.org/html/2605.15542#bib.bib305),38(https://arxiv.org/html/2605.15542#bib.bib308),37(https://arxiv.org/html/2605.15542#bib.bib304)],这是当前 GUI 接地流程所缺乏的能力。
这些观察表明,一个可靠的 GUI 接地框架应具备两个关键能力:(1) 动态感知,即在当前证据不足时能够修正或移动观察区域,而非固守一条不可逆的收窄路径;(2) 区域质量评估,即每一步感知都能提供可测量的信号,指示搜索是否更接近目标,有助于防止早期错误累积。为实现这些能力,我们提出 DRS-GUI,一个无需训练的框架,引入动态区域搜索与决策过程来指导接地。
DRS-GUI 通过提议候选区域、利用语义和结构线索评估其与指令的相关性,并在必要时选择细化或重定向动作,从而动态调整感知范围。这种自适应感知过程类似于人类在视觉密集界面中如何有选择地探索和调整注意力。为了支持这一过程,DRS-GUI 集成了一个辅助的 *UI 感知器*,其构建于 UI 元素解析器[21(https://arxiv.org/html/2605.15542#bib.bib528)]和文本嵌入模块[29(https://arxiv.org/html/2605.15542#bib.bib503)]之上。该感知器提供结构化的 UI 表示,帮助确定哪些区域携带指令相关线索。在这些线索的引导下,系统执行三种感知动作:聚焦(收缩视野以观察更精细细节)、移动(将注意力重定位到其他区域)和分散(向外扩展以恢复更广上下文)。为了动态调度这些动作,DRS-GUI 采用了一个*动作规划器*,它集成蒙特卡洛树搜索(MCTS)[28(https://arxiv.org/html/2605.15542#bib.bib677)],以实现类人式的视野调整规划。我们还设计了一个奖励函数,用于评估区域质量,并决定候选区域是否应进一步探索或作为最终结果选中。这种逐步评估减轻了早期错误的累积,解决了纯向前细化方法固有的脆弱性。DRS-GUI 无需额外的模型训练或微调,可作为即插即用的增强模块,应用于现有 MLLM[4(https://arxiv.org/html/2605.15542#bib.bib426),8(https://arxiv.org/html/2605.15542#bib.bib133)]。通过动态生成和评估感知区域,DRS-GUI 减少了冗余视觉混乱,提升了在密集元素的高分辨率界面上的接地鲁棒性。总结而言,我们的贡献如下:
- • 我们提出 DRS-GUI,一种无需训练的 GUI 接地方法,通过动态区域搜索有效提升 MLLM 的接地性能。
- • 我们引入了一个类人的感知-动作过程来获取可靠的目标区域:UI 感知器提供指令相关线索以驱动三种感知动作,而基于 MCTS 的动作规划器配合区域质量奖励来调控这些动作,实现稳定的逐步决策。
- • 实验表明,DRS-GUI 在高分辨率 ScreenSpot-Pro 基准上取得了显著改进,凸显了其鲁棒性和通用性。
## 2 相关工作
**GUI 智能体。** 随着强大的多模态大语言模型(MLLM)[2(https://arxiv.org/html/2605.15542#bib.bib113),32(https://arxiv.org/html/2605.15542#bib.bib55),8(https://arxiv.org/html/2605.15542#bib.bib133),47(https://arxiv.org/html/2605.15542#bib.bib73)] 的出现,GUI 智能体自动化复杂任务[10(https://arxiv.org/html/2605.15542#bib.bib486),44(https://arxiv.org/html/2605.15542#bib.bib489),33(https://arxiv.org/html/2605.15542#bib.bib493)] 的能力迅猛增长。这一能力的基石是接地[41(https://arxiv.org/html/2605.15542#bib.bib523),52(https://arxiv.org/html/2605.15542#bib.bib519)]。当前方法主要分为两种范式。第一种是静态全屏范式,代表性系统如 SeeClick[9(https://arxiv.org/html/2605.15542#bib.bib456)]、OS-Atlas[42(https://arxiv.org/html/2605.15542#bib.bib613)] 和 UGround[11(https://arxiv.org/html/2605.15542#bib.bib511)] 构建大规模标注数据集,对 MLLM 进行微调以进行文本到坐标的预测。虽然这种静态范式在结构化布局中效果不错,但在高分辨率、元素密集的界面上往往表现下降,因为视觉混乱分散了注意力,导致定位不稳定。静态模型的局限性,加上近期“思维结合图像”策略[54(https://arxiv.org/html/2605.15542#bib.bib631),53(https://arxiv.org/html/2605.15542#bib.bib632),6(https://arxiv.org/html/2605.15542#bib.bib633)] 的兴起,催生了基于迭代细化的第二种范式。这些方法采用多步放大流程:ECP[16(https://arxiv.org/html/2605.15542#bib.bib521)] 和 R-VLM[23(https://arxiv.org/html/2605.15542#bib.bib520)] 首先定位候选区域再进行高分辨率细化;DiMo-GUI[39(https://arxiv.org/html/2605.15542#bib.bib497)] 通过模态分离和迭代区域放大实现无需训练的 GUI 接地;LASER[36(https://arxiv.org/html/2605.15542#bib.bib506)] 是一个自演进框架,为 VLM 配备多步感知和自适应区域推理能力,以精确预测指令相关坐标。然而,这些放大方法本质上是不可逆的:一旦早期丢弃了正确区域,搜索就无法恢复,错误随之累积。相比之下,我们的方法采用动态感知规划器,可根据需要重定向和重新访问区域,从而在密集界面中实现更可靠的接地。
**视觉搜索。** 早期的视觉搜索模型受人类眼动启发,将显著性先验与概率搜索或学习策略相结合,以顺序选择注视点[26(https://arxiv.org/html/2605.15542#bib.bib309),31(https://arxiv.org/html/2605.15542#bib.bib305),51(https://arxiv.org/html/2605.15542#bib.bib310),48(https://arxiv.org/html/2605.15542#bib.bib478),49(https://arxiv.org/html/2605.15542#bib.bib606)],但它们通常使用固定大小的注意力窗口,主要关注再现扫描路径,而非在杂乱场景中准确定位小目标。更近期的研究如 SEAL[40(https://arxiv.org/html/2605.15542#bib.bib341)] 将定位模块和视觉记忆与大型多模态模型相结合,以引导注意力到有希望的区域;ViGoRL[25(https://arxiv.org/html/2605.15542#bib.bib540)] 将视觉搜索表述为序列决策过程,并使用强化学习学习空间定位的注视策略;DyFo[18(https://arxiv.org/html/2605.15542#bib.bib546)] 模拟类人的动态聚焦机制,让 MLLM 放大到精细区域;FaST[30(https://arxiv.org/html/2605.15542#bib.bib547)] 通过轻量级适配器控制视觉推理速度,实现快慢结合的视觉搜索。尽管这些方法在自然图像场景中展现了潜力,但它们并未充分考虑 GUI 布局的极端密集性和结构异质性。我们转而将 GUI 接地表述为一个视觉搜索问题,并设计 DRS-GUI 作为一个动态区域级规划器,在语言引导下自适应地探索候选区域,从而更可靠地定位细粒度 GUI 目标。
参见图注图 2:DRS-GUI 的处理流程。UI 感知器解析 UI 元素并评估其与指令的相关性,而动作规划器(MCTS)使用区域质量奖励探索感知动作,以定位合适的区域用于最终接地。
## 3 方法
我们将动态区域搜索视为 GUI 接地的一个准备阶段,目标是在基础 MLLM 执行最终坐标预测之前,确定一个可靠的推理区域。DRS-GUI 通过在语言引导下生成、评估和细化候选区域来调整视野,从而确保仅在到达一个语义合适的界面区域后才进行接地。如图 2(https://arxiv.org/html/2605.15542#S2.F2)所示,DRS-GUI 包含两个协同模块。UI 感知器将当前区域解析为结构化的 UI 元素,并提供与指令对齐的语义线索,同时执行三种区域级动作(聚焦、移动、分散)以生成候选视图。接着,MCTS 动作规划器调度这些动作,构建一个区域搜索树。在区域质量奖励的引导下,DRS-GUI 动态搜索并修正其感知范围,以确定最合适的区域,然后将其传递给基础 MLLM 进行最终坐标预测。这种先搜索后预测的范式减少了视觉冗余并缓解了错误累积,从而在密集、高分辨率的 GUI 环境中实现了更稳定和可解释的接地。
### 3.1 问题形式化
GUI 接地的任务是将自然语言指令 \(T\) 映射到其在截图 \(S_{\text{full}} \in \mathbb{R}^{H \times W \times 3}\) 中对应 UI 元素的像素级坐标 \(p = (x, y)\)。然而,直接在 \(S_{\text{full}}\) 上进行接地并不可靠,因为界面分辨率高且密集填充了视觉相似但与指令无关的元素。因此,我们将接地重新表述为一个*先搜索后预测*的过程。一个区域搜索策略 \(\pi_S\) 首先识别一个与指令相关的区域 \(R_{\text{best}} \subset S_{\text{full}}\),然后基础接地模型 \(\mathcal{M}\) 仅在该区域内进行定位:
\[
R_{\text{best}} = \pi_S(S_{\text{full}}, T), \quad p = \mathcal{M}(R_{\text{best}}, T)
\]
(1)
DRS-GUI 的目标是将 \(\pi_S\) 实现为一个高效且可逆的动态搜索过程,从而无需模型重训练即可提升定位稳定性。
### 3.2 UI 感知器
UI 感知器是 DRS-GUI 的感知基础。给定一个区域 \(R \subset S_{\text{full}}\),它将可见界面解析为一组结构化的 UI 元素,并生成 UI 领域感知的语义嵌入,用于指导感知动作的执行,以便优先处理那些有意义且与用户指令语义对齐的区域。我们采用 OmniParser V2[21(https://arxiv.org/html/2605.15542#bib.bib528)] 来提取 UI 元素:
\[
U = \{ u_i \mid u_i = [b_i, d_i, i_i] \}_{i=1}^N
\]
(2)
其中 \(b_i\) 表示元素 \(i\) 的边界框,\(d_i\) 表示其语义描述(来自 OCR 识别的文本或图标标注),\(i_i \in \{0, 1\}\) 指示该元素是否可交互。
为了建立更好的语义对齐,我们生成针对领域的嵌入,用于 b——翻译到这里,用户消息截断了?但根据提供的输入,用户消息在此处结束。不过,从上下文看,用户消息是完整的论文摘要和引言部分,包括第3节开头。我将继续翻译剩余部分,直到提供的文本结束。注意用户消息最后是"为了建立更好的语义对齐,我们生成针对领域的嵌入,用于 b",这看起来是句子中断。在原文中应是"为了建立更好的语义对齐,我们生成领域特定的嵌入,用于 ..."。我将按原文后文补全翻译。
实际上,用户提供的消息就是在“b”处结束。但根据规则,我应该只翻译给定的内容。然而,给定的内容并没有完整的句子。我需要检查原文的剩余部分。在用户消息中,最后一句是“To establish better semantic alignment, we generate domain-specific embeddings for b”,这对应原文第3.2节的一部分。在原文中,这句话后面还有内容,但用户消息中没有提供。因此,我只需翻译到所提供的文本末尾。但为了完整性,我可以合理推测并完成该句,但严格来说应该只翻译所提供的。
由于用户消息在“b”处截断,我假设这是完整的输入。因此我翻译到“b”为止。但为了自然,我保留英文“b”并加上中文说明?不,我应该忠实翻译。在markdown中,公式和变量名应保留原样。所以“b”应保留。但句子是“embeddings for b_i”,可能用于计算相关性分数。根据原文后续有相关性分数的内容,但既然用户没提供,我就不自行添加。
我将按提供的原文翻译到最后。
注意:用户消息末尾是“embeddings for b”,但原文实际是“embeddings for b_i”等。我翻译为“为b生成领域特定的嵌入”。由于是截断,我按原样处理。
但在最终输出中,我需要确保格式正确。现在开始输出翻译后的完整内容。# DRS-GUI:面向无需训练的 GUI 接地任务的动态区域搜索
来源:https://arxiv.org/html/2605.15542
Yichao Liu¹, Huawen Shen², Liu Yu¹, Shiyu Liu¹, Zeyu Chen¹, Yu Zhou¹
¹南开大学,²中国科学院信息工程研究所
###### 摘要
基于多模态大语言模型(MLLM)的 GUI 智能体在理解和执行用户指令方面展现了卓越能力。然而,对于现有方法而言,在充斥着无关 UI 组件的高分辨率截图中,准确地将指令相关元素进行定位仍具挑战。受人类在复杂屏幕上动态调整感知范围以定位任务相关区域的方式启发,我们提出 DRS-GUI,一种无需训练的 GUI 接地动态区域搜索框架,可无缝集成到现有 MLLM 中。DRS-GUI 引入了一个轻量级 UI 感知器,通过执行三种类人感知动作(聚焦、移动、分散)来逐步探索界面并生成区域提议。为了动态调度这些动作,我们进一步设计了一个基于蒙特卡洛树搜索(MCTS)的动作规划器。我们使用区域质量奖励来评估并选择与指令高度相关的区域,从而有效剪枝冗余的 UI 元素。实验表明,DRS-GUI 在 ScreenSpot-Pro 基准上,对于通用及 GUI 专用 MLLM(Qwen2.5-VL-7B 和 UGround-V1-7B),均提升了 14% 的性能,显著增强了接地表现和泛化能力。
## 1 引言
参见图注图 1:(a) 单阶段方法通过仅向前的聚焦进行逐步裁剪和缩放,导致误差累积。(b) DRS-GUI 使用动作规划器和 UI 感知器,通过三种感知动作探索区域,并基于区域质量评估来筛选与指令相关的区域。借助近期多模态大语言模型(MLLM)[43(https://arxiv.org/html/2605.15542#bib.bib492),11(https://arxiv.org/html/2605.15542#bib.bib511),46(https://arxiv.org/html/2605.15542#bib.bib585),42(https://arxiv.org/html/2605.15542#bib.bib613),27(https://arxiv.org/html/2605.15542#bib.bib244)] 的进步,图形用户界面(GUI)智能体正从基于规则的脚本控制转向自然语言交互。此类交互的可靠性根本上取决于*接地*——即准确定位用户指令所指定的可执行 UI 元素[20(https://arxiv.org/html/2605.15542#bib.bib592),50(https://arxiv.org/html/2605.15542#bib.bib484)]。然而,真实的 GUI 截图通常分辨率高、视觉密集,含有大量冗余元素,会分散 MLLM 对指令相关线索的注意,使其难以可靠地隔离出真正的目标[19(https://arxiv.org/html/2605.15542#bib.bib446)]。由此导致的失败不仅源于视觉混乱,也源于缺乏在交互过程中自适应调整感知范围的显式机制。
现有的 GUI 接地方法通常属于两种范式,但两者均缺乏真正自适应的感知行为。第一种范式将接地表述为单步全屏预测,直接在整个截图上回归一个点或边界框[17(https://arxiv.org/html/2605.15542#bib.bib417),9(https://arxiv.org/html/2605.15542#bib.bib456),41(https://arxiv.org/html/2605.15542#bib.bib523)]。由于缺乏对注意力的显式控制,此类模型往往无法从背景混乱中分离出与指令相关的线索。第二种范式采用多步细化策略,例如迭代裁剪或缩放[16(https://arxiv.org/html/2605.15542#bib.bib521),23(https://arxiv.org/html/2605.15542#bib.bib520),36(https://arxiv.org/html/2605.15542#bib.bib506)],以逐步将视野收窄至目标。尽管这些方法提供了渐进聚焦,但其细化过程通常是仅向前的,缺乏评估每一步是否改善与指令对齐的机制,也缺乏在早期决策偏离正确轨迹时回溯的能力[39(https://arxiv.org/html/2605.15542#bib.bib497)]。如图 1(https://arxiv.org/html/2605.15542#S1.F1)(a) 所示,当轨迹偏离语义线索时,最终区域可能不包含目标,从而使错误不可恢复。
相比之下,人类行为遵循一种更灵活的模式:人类并非固守一条单一的收窄路径,而是扫描布局、逐渐细化注意力,并在出现不确定性时后退或转向其他区域。这种自适应且可逆的搜索过程自然能评估注意力是朝向还是背离真正目标[31(https://arxiv.org/html/2605.15542#bib.bib305),38(https://arxiv.org/html/2605.15542#bib.bib308),37(https://arxiv.org/html/2605.15542#bib.bib304)],这是当前 GUI 接地流程所缺乏的能力。
这些观察表明,一个可靠的 GUI 接地框架应具备两个关键能力:(1) 动态感知,即在当前证据不足时能够修正或移动观察区域,而非固守一条不可逆的收窄路径;(2) 区域质量评估,即每一步感知都能提供可测量的信号,指示搜索是否更接近目标,有助于防止早期错误累积。为实现这些能力,我们提出 DRS-GUI,一个无需训练的框架,引入动态区域搜索与决策过程来指导接地。
DRS-GUI 通过提议候选区域、利用语义和结构线索评估其与指令的相关性,并在必要时选择细化或重定向动作,从而动态调整感知范围。这种自适应感知过程类似于人类在视觉密集界面中如何有选择地探索和调整注意力。为了支持这一过程,DRS-GUI 集成了一个辅助的 *UI 感知器*,其构建于 UI 元素解析器[21(https://arxiv.org/html/2605.15542#bib.bib528)]和文本嵌入模块[29(https://arxiv.org/html/2605.15542#bib.bib503)]之上。该感知器提供结构化的 UI 表示,帮助确定哪些区域携带指令相关线索。在这些线索的引导下,系统执行三种感知动作:聚焦(收缩视野以观察更精细细节)、移动(将注意力重定位到其他区域)和分散(向外扩展以恢复更广上下文)。为了动态调度这些动作,DRS-GUI 采用了一个*动作规划器*,它集成蒙特卡洛树搜索(MCTS)[28(https://arxiv.org/html/2605.15542#bib.bib677)],以实现类人式的视野调整规划。我们还设计了一个奖励函数,用于评估区域质量,并决定候选区域是否应进一步探索或作为最终结果选中。这种逐步评估减轻了早期错误的累积,解决了纯向前细化方法固有的脆弱性。DRS-GUI 无需额外的模型训练或微调,可作为即插即用的增强模块,应用于现有 MLLM[4(https://arxiv.org/html/2605.15542#bib.bib426),8(https://arxiv.org/html/2605.15542#bib.bib133)]。通过动态生成和评估感知区域,DRS-GUI 减少了冗余视觉混乱,提升了在密集元素的高分辨率界面上的接地鲁棒性。总结而言,我们的贡献如下:
- • 我们提出 DRS-GUI,一种无需训练的 GUI 接地方法,通过动态区域搜索有效提升 MLLM 的接地性能。
- • 我们引入了一个类人的感知-动作过程来获取可靠的目标区域:UI 感知器提供指令相关线索以驱动三种感知动作,而基于 MCTS 的动作规划器配合区域质量奖励来调控这些动作,实现稳定的逐步决策。
- • 实验表明,DRS-GUI 在高分辨率 ScreenSpot-Pro 基准上取得了显著改进,凸显了其鲁棒性和通用性。
## 2 相关工作
**GUI 智能体。** 随着强大的多模态大语言模型(MLLM)[2(https://arxiv.org/html/2605.15542#bib.bib113),32(https://arxiv.org/html/2605.15542#bib.bib55),8(https://arxiv.org/html/2605.15542#bib.bib133),47(https://arxiv.org/html/2605.15542#bib.bib73)] 的出现,GUI 智能体自动化复杂任务[10(https://arxiv.org/html/2605.15542#bib.bib486),44(https://arxiv.org/html/2605.15542#bib.bib489),33(https://arxiv.org/html/2605.15542#bib.bib493)] 的能力迅猛增长。这一能力的基石是接地[41(https://arxiv.org/html/2605.15542#bib.bib523),52(https://arxiv.org/html/2605.15542#bib.bib519)]。当前方法主要分为两种范式。第一种是静态全屏范式,代表性系统如 SeeClick[9(https://arxiv.org/html/2605.15542#bib.bib456)]、OS-Atlas[42(https://arxiv.org/html/2605.15542#bib.bib613)] 和 UGround[11(https://arxiv.org/html/2605.15542#bib.bib511)] 构建大规模标注数据集,对 MLLM 进行微调以进行文本到坐标的预测。虽然这种静态范式在结构化布局中效果不错,但在高分辨率、元素密集的界面上往往表现下降,因为视觉混乱分散了注意力,导致定位不稳定。静态模型的局限性,加上近期“思维结合图像”策略[54(https://arxiv.org/html/2605.15542#bib.bib631),53(https://arxiv.org/html/2605.15542#bib.bib632),6(https://arxiv.org/html/2605.15542#bib.bib633)] 的兴起,催生了基于迭代细化的第二种范式。这些方法采用多步放大流程:ECP[16(https://arxiv.org/html/2605.15542#bib.bib521)] 和 R-VLM[23(https://arxiv.org/html/2605.15542#bib.bib520)] 首先定位候选区域再进行高分辨率细化;DiMo-GUI[39(https://arxiv.org/html/2605.15542#bib.bib497)] 通过模态分离和迭代区域放大实现无需训练的 GUI 接地;LASER[36(https://arxiv.org/html/2605.15542#bib.bib506)] 是一个自演进框架,为 VLM 配备多步感知和自适应区域推理能力,以精确预测指令相关坐标。然而,这些放大方法本质上是不逆的:一旦早期丢弃了正确区域,搜索就无法恢复,错误随之累积。相比之下,我们的方法采用动态感知规划器,可根据需要重定向和重新访问区域,从而在密集界面中实现更可靠的接地。
**视觉搜索。** 早期的视觉搜索模型受人类眼动启发,将显著性先验与概率搜索或学习策略相结合,以顺序选择注视点[26(https://arxiv.org/html/2605.15542#bib.bib309),31(https://arxiv.org/html/2605.15542#bib.bib305),51(https://arxiv.org/html/2605.15542#bib.bib310),48(https://arxiv.org/html/2605.15542#bib.bib478),49(https://arxiv.org/html/2605.15542#bib.bib606)],但它们通常使用固定大小的注意力窗口,主要关注再现扫描路径,而非在杂乱场景中准确定位小目标。更近期的研究如 SEAL[40(https://arxiv.org/html/2605.15542#bib.bib341)] 将定位模块和视觉记忆与大型多模态模型相结合,以引导注意力到有希望的区域;ViGoRL[25(https://arxiv.org/html/2605.15542#bib.bib540)] 将视觉搜索表述为序列决策过程,并使用强化学习学习空间定位的注视策略;DyFo[18(https://arxiv.org/html/2605.15542#bib.bib546)] 模拟类人的动态聚焦机制,让 MLLM 放大到精细区域;FaST[30(https://arxiv.org/html/2605.15542#bib.bib547)] 通过轻量级适配器控制视觉推理速度,实现快慢结合的视觉搜索。尽管这些方法在自然图像场景中展现了潜力,但它们并未充分考虑 GUI 布局的极端密集性和结构异质性。我们转而将 GUI 接地表述为一个视觉搜索问题,并设计 DRS-GUI 作为一个动态区域级规划器,在语言引导下自适应地探索候选区域,从而更可靠地定位细粒度 GUI 目标。
参见图注图 2:DRS-GUI 的处理流程。UI 感知器解析 UI 元素并评估其与指令的相关性,而动作规划器(MCTS)使用区域质量奖励探索感知动作,以定位合适的区域用于最终接地。
## 3 方法
我们将动态区域搜索视为 GUI 接地的一个准备阶段,目标是在基础 MLLM 执行最终坐标预测之前,确定一个可靠的推理区域。DRS-GUI 通过在语言引导下生成、评估和细化候选区域来调整视野,从而确保仅在到达一个语义合适的界面区域后才进行接地。如图 2(https://arxiv.org/html/2605.15542#S2.F2)所示,DRS-GUI 包含两个协同模块。UI 感知器将当前区域解析为结构化的 UI 元素,并提供与指令对齐的语义线索,同时执行三种区域级动作(聚焦、移动、分散)以生成候选视图。接着,MCTS 动作规划器调度这些动作,构建一个区域搜索树。在区域质量奖励的引导下,DRS-GUI 动态搜索并修正其感知范围,以确定最合适的区域,然后将其传递给基础 MLLM 进行最终坐标预测。这种先搜索后预测的范式减少了视觉冗余并缓解了错误累积,从而在密集、高分辨率的 GUI 环境中实现了更稳定和可解释的接地。
### 3.1 问题形式化
GUI 接地的任务是将自然语言指令 \(T\) 映射到其在截图 \(S_{\text{full}} \in \mathbb{R}^{H \times W \times 3}\) 中对应 UI 元素的像素级坐标 \(p = (x, y)\)。然而,直接在 \(S_{\text{full}}\) 上进行接地并不可靠,因为界面分辨率高且密集填充了视觉相似但与指令无关的元素。因此,我们将接地重新表述为一个*先搜索后预测*的过程。一个区域搜索策略 \(\pi_S\) 首先识别一个与指令相关的区域 \(R_{\text{best}} \subset S_{\text{full}}\),然后基础接地模型 \(\mathcal{M}\) 仅在该区域内进行定位:
\[
R_{\text{best}} = \pi_S(S_{\text{full}}, T), \quad p = \mathcal{M}(R_{\text{best}}, T)
\]
(1)
DRS-GUI 的目标是将 \(\pi_S\) 实现为一个高效且可逆的动态搜索过程,从而无需模型重训练即可提升定位稳定性。
### 3.2 UI 感知器
UI 感知器是 DRS-GUI 的感知基础。给定一个区域 \(R \subset S_{\text{full}}\),它将可见界面解析为一组结构化的 UI 元素,并生成 UI 领域感知的语义嵌入,用于指导感知动作的执行,以便优先处理那些有意义且与用户指令语义对齐的区域。我们采用 OmniParser V2[21(https://arxiv.org/html/2605.15542#bib.bib528)] 来提取 UI 元素:
\[
U = \{ u_i \mid u_i = [b_i, d_i, i_i] \}_{i=1}^N
\]
(2)
其中 \(b_i\) 表示元素 \(i\) 的边界框,\(d_i\) 表示其语义描述(来自 OCR 识别的文本或图标标注),\(i_i \in \{0, 1\}\) 指示该元素是否可交互。
为了建立更好的语义对齐,我们生成领域特定的嵌入,用于 b相似文章
@HuggingPapers: Microsoft 刚刚在 Hugging Face 发布了 Phi-Ground-Any,这是一个拥有 40 亿参数的视觉模型,用于 GUI 定位,并取得了 SOTA……
Microsoft 在 Hugging Face 上发布了 Phi-Ground-Any,这是一个用于 GUI 定位的 40 亿参数视觉模型,取得了最先进的结果,使 AI 智能体能够与屏幕元素进行精确交互。
Video2GUI:合成大规模交互轨迹以进行通用GUI智能体预训练
提出了Video2GUI,一个从无标签教学视频中自动提取GUI交互轨迹的框架,构建了包含12M条轨迹、覆盖1500+应用的WildGUI数据集。在该数据上进行预训练,在GUI定位和动作基准测试上提升了5-20%。
UI-TARS-2 技术报告:通过多轮强化学习推进图形用户界面代理
UI-TARS-2 是一款原生以图形用户界面为中心的代理模型,解决了数据可扩展性、多轮强化学习以及环境稳定性等挑战,在图形用户界面基准测试中取得了领先成果(Online-Mind2Web 88.2 分,OSWorld 47.5 分,WindowsAgentArena 50.6 分,AndroidWorld 73.3 分),优于 Claude 和 OpenAI 代理模型。
从策略错误中恢复:鲁棒GUI代理的基准测试与轨迹合成
引入GUI-RobustEval(一个用于GUI代理错误恢复的基准)和鲁棒性驱动轨迹合成(RoTS)以生成训练数据,在OSWorld上达到当前最佳性能。
ScreenSearch:不确定性感知的操作系统探索
ScreenSearch 引入了一个用于歧义感知桌面探索的系统,结合了结构化屏幕检索与去重技术,以及一个基于 PUCT 的图赌臂算法,用于处理 GUI 代理中的部分可观测性。该系统在 11 个应用中收集了超过 100 万张截图,并展示了探索策略中新颖性与歧义性之间的权衡。