VISTA: 视图一致的自验证训练用于GUI定位

Hugging Face Daily Papers 论文

摘要

VISTA提出了一种用于GUI定位的视图一致自验证训练方法,通过使用多个保留目标的视图改进了基于GRPO的坐标预测,在多个基准测试上实现了持续的精度提升。

在将组相对策略优化(GRPO)应用于GUI定位时,轨迹采样仅从单个截图视图生成;组内常常要么在困难实例上全部失败,要么在简单实例上全部成功,无法产生有用的相对优势。我们提出了VISTA(视图一致的自验证训练),这是一种基于GRPO的训练框架,通过从同一GUI实例的多个保留目标的视图构建每个比较组。每个视图通过裁剪生成,保持目标元素可见并精确重新映射其边界框,从而使模型轨迹在语义等价但几何不同的输入之间进行比较。为了稳定短坐标的生成,同时避免将强化学习退化为无条件模仿,VISTA进一步添加了一个自验证的跨视图锚点:一个以优势加权损失优化的预言答案,该锚点被排除在组基线之外,仅在模型产生了最大奖励轨迹时被激活。在五个GUI定位基准和多个Qwen主干网络上,VISTA一致地提升了定位精度。在ScreenSpot-Pro上,它将Qwen3-VL 4B/8B/30B-A3B从55.5/52.7/53.7提升到63.4/65.8/67.0。鲁棒性分析进一步表明,最差视图精度更高,预测翻转率更低。
查看原文
查看缓存全文

缓存时间: 2026/06/15 09:06

论文页面 - VISTA: 面向 GUI 定位的一致视角自验证训练

来源:https://huggingface.co/papers/2606.14579 VISTA 提出了面向 GUI 定位的一致视角自验证训练方法,解决了将 GRPO 应用于坐标预测时的一个关键局限:从单一截图视角生成的 rollout 往往坍缩为全成功或全失败组,从而提供了微弱的相对优势。

我们的方法从同一 GUI 实例的多个保持目标可见的视角构建每个 GRPO 比较组。这些视角通过裁剪生成,在保留目标元素可见的同时精确重映射其边界框,从而能够在语义等价但几何不同的输入之间进行比较。VISTA 还添加了一个自验证的跨视角锚点,以稳定短坐标生成,同时避免将强化学习退化为无条件模仿。

在五个 GUI 定位基准和多个 Qwen 骨干网络上,VISTA 持续提升了准确率。在 ScreenSpot-Pro 上,它将 Qwen3-VL 4B/8B/30B-A3B 从 55.5/52.7/53.7 分别提升至 63.4/65.8/67.0。代码、项目页面和开放检查点已公开:

代码:https://github.com/ZJUSCL/VISTA
项目页面:https://zjuscl.github.io/VISTA/
模型:https://huggingface.co/inclusionAI/VISTA-9B 和 https://huggingface.co/inclusionAI/VISTA-4B

相似文章

DRS-GUI: 动态区域搜索实现免训练GUI定位

arXiv cs.AI

DRS-GUI提出了一种免训练的动态区域搜索框架用于GUI定位,通过轻量级UI感知器模拟人类感知行为,并结合蒙特卡洛树搜索逐步定位与指令相关的元素。实验表明,在ScreenSpot-Pro上,通用和GUI专用多模态大语言模型的定位性能提升了14%。

视觉具象化推理

Hugging Face Daily Papers

本文介绍了视觉具象化推理,一种使视觉语言模型能够将自然语言推理与使用点或框的明确视觉证据基础相结合的方法。一个可扩展的合成流水线和基础感知的强化学习提高了推理准确性,使得一个4B模型在空间和计数基准上能够匹配甚至超越一个27B模型。