一次前向胜过两次：InnerZoom实现精准高效的GUI定位

Hugging Face Daily Papers 2026/06/29 00:00 论文

gui-grounding cross-layer single-forward mllm efficient localization zoom-in

摘要

InnerZoom提出了一种单前向框架，用于GUI定位中的跨层证据桥接，在多个基准测试上实现了最先进的性能，同时将延迟降低高达31.8%。

基于MLLM的GUI定位方法通常将目标定位建模为自回归坐标生成，使模型能够利用MLLM强大的指令跟随和语义理解能力。然而，这种公式要求模型在解码坐标标记时保留区域级的目标证据，以满足GUI点击所需的空间精度。我们的诊断分析表明，目标区域感知出现在中间解码器层，但既没有被保留也没有转化为最终的坐标预测。现有的ZoomIn风格方法通过外部裁剪-重运行过程来解决这个问题，这提高了定位精度，但增加了端到端延迟和计算成本。为了在不增加额外成本的情况下保留两遍缩放的精度优势，我们提出了InnerZoom，一种用于跨层证据桥接的单前向框架。InnerZoom将原始前向传递中的目标相关线索转换为紧凑的跨层证据状态，然后在后续解码层中保留、细化和重新注入该状态以指导坐标预测。大量的实验结果表明，InnerZoom-4B在所有六个GUI定位基准测试上实现了最先进的性能，在OSWorld-G上获得64.7，在UI-Vision上获得40.2，在OSWorld-GR上获得73.1，在MMBench-GUI上获得87.6，分别超过之前最佳结果4.1、3.2、2.9和2.3个百分点。在受控的4B设置下，InnerZoom将相同的SFT+RL基线平均提高了5.3个点，并平均超过两遍缩放ZoomIn 1.3个点，同时将端到端延迟降低高达31.8%，TFLOPs降低约29%。代码和模型将公开提供。

查看原文

查看缓存全文

缓存时间: 2026/06/30 07:35

论文页面 - 一次前向胜过两次：InnerZoom实现精准高效的GUI定位

来源：https://huggingface.co/papers/2606.30084

摘要

InnerZoom通过单次前向传递中跨层证据的桥梁作用，保持了跨解码器层的目标区域感知能力，从而以更低的计算成本实现了最先进的性能，解决了GUI定位难题。

基于MLLM的GUI定位 (https://huggingface.co/papers?q=MLLM-based%20GUI%20grounding) 方法通常将目标定位建模为自回归坐标生成 (https://huggingface.co/papers?q=autoregressive%20coordinate%20generation)，使模型能够利用MLLM强大的指令遵循和语义理解能力。然而，这种建模方式要求模型在解码坐标令牌时，同时保持区域级的目标证据，以满足GUI点击所需的空间精度 (https://huggingface.co/papers?q=spatial%20precision)。我们的诊断分析揭示，目标区域感知 (https://huggingface.co/papers?q=target-region%20awareness) 出现在中间解码层 (https://huggingface.co/papers?q=decoder%20layers) 中，但既未被保留，也未被转化为最终的坐标预测。现有的缩放风格方法 (https://huggingface.co/papers?q=ZoomIn-style%20methods) 通过外部裁剪并重新运行的方式来解决此问题，这虽然提升了定位精度，但增加了端到端延迟 (https://huggingface.co/papers?q=end-to-end%20latency) 和计算成本。为了在不增加额外成本的情况下保留两次缩放带来的精度优势，我们提出了InnerZoom，一种用于跨层证据桥接 (https://huggingface.co/papers?q=cross-layer%20evidence%20bridging) 的单次前向框架。InnerZoom将原始前向传递中与目标相关的线索转化为紧凑的跨层证据状态，然后在后续解码层中保持、优化并重新注入该状态，以指导坐标预测。大量实验结果表明，InnerZoom-4B在所有六个GUI定位基准测试中均达到了最先进的性能，在OSWorld-G上获得64.7，在UI-Vision上获得40.2，在OSWorld-GR上获得73.1，在MMBench-GUI上获得87.6，分别超越此前最佳结果4.1、3.2、2.9和2.3个点。在受控的4B设置下，InnerZoom将相同的SFT+RL (https://huggingface.co/papers?q=SFT%2BRL) 基线平均提升了5.3个点，并且平均超越两次ZoomIn方法1.3个点，同时将端到端延迟 (https://huggingface.co/papers?q=end-to-end%20latency) 降低了最多31.8%，TFLOPs (https://huggingface.co/papers?q=TFLOPs) 降低了约29%。代码和模型将公开发布。

查看arXiv页面 (https://arxiv.org/abs/2606.30084)查看PDF (https://arxiv.org/pdf/2606.30084)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.30084)

在你的Agent中获取本文：

hf papers read 2606.30084

没有最新CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

暂无模型关联此论文

请在模型README.md中引用 arxiv.org/abs/2606.30084 以便从此页面建立链接。

引用此论文的数据集0

暂无数据集关联此论文

请在数据集README.md中引用 arxiv.org/abs/2606.30084 以便从此页面建立链接。

引用此论文的Spaces0

暂无Space关联此论文

请在Space README.md中引用 arxiv.org/abs/2606.30084 以便从此页面建立链接。

包含此论文的收藏集0

暂无收藏集包含此论文

请将此论文添加到收藏集 (https://huggingface.co/new-collection) 中以便从此页面建立链接。

一次前向胜过两次：InnerZoom实现精准高效的GUI定位

论文页面 - 一次前向胜过两次：InnerZoom实现精准高效的GUI定位

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的Spaces0

包含此论文的收藏集0

相似文章

DRS-GUI: 动态区域搜索实现免训练GUI定位

信任正确的教师：面向GUI定位的质量感知自蒸馏

@HuggingPapers: Microsoft 刚刚在 Hugging Face 发布了 Phi-Ground-Any，这是一个拥有 40 亿参数的视觉模型，用于 GUI 定位，并取得了 SOTA……

VISTA: 视图一致的自验证训练用于GUI定位

PAGER：弥合点精确几何GUI控制中的语义-执行鸿沟

提交意见反馈