一次前向胜过两次:InnerZoom实现精准高效的GUI定位
摘要
InnerZoom提出了一种单前向框架,用于GUI定位中的跨层证据桥接,在多个基准测试上实现了最先进的性能,同时将延迟降低高达31.8%。
查看缓存全文
缓存时间: 2026/06/30 07:35
论文页面 - 一次前向胜过两次:InnerZoom实现精准高效的GUI定位
来源:https://huggingface.co/papers/2606.30084
摘要
InnerZoom通过单次前向传递中跨层证据的桥梁作用,保持了跨解码器层的目标区域感知能力,从而以更低的计算成本实现了最先进的性能,解决了GUI定位难题。
基于MLLM的GUI定位 (https://huggingface.co/papers?q=MLLM-based%20GUI%20grounding) 方法通常将目标定位建模为自回归坐标生成 (https://huggingface.co/papers?q=autoregressive%20coordinate%20generation),使模型能够利用MLLM强大的指令遵循和语义理解能力。然而,这种建模方式要求模型在解码坐标令牌时,同时保持区域级的目标证据,以满足GUI点击所需的空间精度 (https://huggingface.co/papers?q=spatial%20precision)。我们的诊断分析揭示,目标区域感知 (https://huggingface.co/papers?q=target-region%20awareness) 出现在中间解码层 (https://huggingface.co/papers?q=decoder%20layers) 中,但既未被保留,也未被转化为最终的坐标预测。现有的缩放风格方法 (https://huggingface.co/papers?q=ZoomIn-style%20methods) 通过外部裁剪并重新运行的方式来解决此问题,这虽然提升了定位精度,但增加了端到端延迟 (https://huggingface.co/papers?q=end-to-end%20latency) 和计算成本。为了在不增加额外成本的情况下保留两次缩放带来的精度优势,我们提出了InnerZoom,一种用于跨层证据桥接 (https://huggingface.co/papers?q=cross-layer%20evidence%20bridging) 的单次前向框架。InnerZoom将原始前向传递中与目标相关的线索转化为紧凑的跨层证据状态,然后在后续解码层中保持、优化并重新注入该状态,以指导坐标预测。大量实验结果表明,InnerZoom-4B在所有六个GUI定位基准测试中均达到了最先进的性能,在OSWorld-G上获得64.7,在UI-Vision上获得40.2,在OSWorld-GR上获得73.1,在MMBench-GUI上获得87.6,分别超越此前最佳结果4.1、3.2、2.9和2.3个点。在受控的4B设置下,InnerZoom将相同的SFT+RL (https://huggingface.co/papers?q=SFT%2BRL) 基线平均提升了5.3个点,并且平均超越两次ZoomIn方法1.3个点,同时将端到端延迟 (https://huggingface.co/papers?q=end-to-end%20latency) 降低了最多31.8%,TFLOPs (https://huggingface.co/papers?q=TFLOPs) 降低了约29%。代码和模型将公开发布。
查看arXiv页面 (https://arxiv.org/abs/2606.30084)查看PDF (https://arxiv.org/pdf/2606.30084)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.30084)
在你的Agent中获取本文:
hf papers read 2606.30084
没有最新CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
暂无模型关联此论文
请在模型README.md中引用 arxiv.org/abs/2606.30084 以便从此页面建立链接。
引用此论文的数据集0
暂无数据集关联此论文
请在数据集README.md中引用 arxiv.org/abs/2606.30084 以便从此页面建立链接。
引用此论文的Spaces0
暂无Space关联此论文
请在Space README.md中引用 arxiv.org/abs/2606.30084 以便从此页面建立链接。
包含此论文的收藏集0
暂无收藏集包含此论文
请将此论文添加到收藏集 (https://huggingface.co/new-collection) 中以便从此页面建立链接。
相似文章
DRS-GUI: 动态区域搜索实现免训练GUI定位
DRS-GUI提出了一种免训练的动态区域搜索框架用于GUI定位,通过轻量级UI感知器模拟人类感知行为,并结合蒙特卡洛树搜索逐步定位与指令相关的元素。实验表明,在ScreenSpot-Pro上,通用和GUI专用多模态大语言模型的定位性能提升了14%。
信任正确的教师:面向GUI定位的质量感知自蒸馏
提出面向GUI定位的质量感知自蒸馏方法,通过正确性感知门控和概率缩放改进坐标-标记教师信号,以提升视觉语言模型性能。
@HuggingPapers: Microsoft 刚刚在 Hugging Face 发布了 Phi-Ground-Any,这是一个拥有 40 亿参数的视觉模型,用于 GUI 定位,并取得了 SOTA……
Microsoft 在 Hugging Face 上发布了 Phi-Ground-Any,这是一个用于 GUI 定位的 40 亿参数视觉模型,取得了最先进的结果,使 AI 智能体能够与屏幕元素进行精确交互。
VISTA: 视图一致的自验证训练用于GUI定位
VISTA提出了一种用于GUI定位的视图一致自验证训练方法,通过使用多个保留目标的视图改进了基于GRPO的坐标预测,在多个基准测试上实现了持续的精度提升。
PAGER:弥合点精确几何GUI控制中的语义-执行鸿沟
本文介绍PAGER,一种拓扑感知智能体,弥合了点精确GUI控制中的语义-执行鸿沟,在全新PAGE Bench上实现比基线高4.1倍的任务成功率。