VISTA: 视图一致的自验证训练用于GUI定位

Hugging Face Daily Papers 2026/06/12 00:00 论文

摘要

VISTA提出了一种用于GUI定位的视图一致自验证训练方法，通过使用多个保留目标的视图改进了基于GRPO的坐标预测，在多个基准测试上实现了持续的精度提升。

在将组相对策略优化（GRPO）应用于GUI定位时，轨迹采样仅从单个截图视图生成；组内常常要么在困难实例上全部失败，要么在简单实例上全部成功，无法产生有用的相对优势。我们提出了VISTA（视图一致的自验证训练），这是一种基于GRPO的训练框架，通过从同一GUI实例的多个保留目标的视图构建每个比较组。每个视图通过裁剪生成，保持目标元素可见并精确重新映射其边界框，从而使模型轨迹在语义等价但几何不同的输入之间进行比较。为了稳定短坐标的生成，同时避免将强化学习退化为无条件模仿，VISTA进一步添加了一个自验证的跨视图锚点：一个以优势加权损失优化的预言答案，该锚点被排除在组基线之外，仅在模型产生了最大奖励轨迹时被激活。在五个GUI定位基准和多个Qwen主干网络上，VISTA一致地提升了定位精度。在ScreenSpot-Pro上，它将Qwen3-VL 4B/8B/30B-A3B从55.5/52.7/53.7提升到63.4/65.8/67.0。鲁棒性分析进一步表明，最差视图精度更高，预测翻转率更低。

查看原文

查看缓存全文

缓存时间: 2026/06/15 09:06

论文页面 - VISTA: 面向 GUI 定位的一致视角自验证训练

来源：https://huggingface.co/papers/2606.14579 VISTA 提出了面向 GUI 定位的一致视角自验证训练方法，解决了将 GRPO 应用于坐标预测时的一个关键局限：从单一截图视角生成的 rollout 往往坍缩为全成功或全失败组，从而提供了微弱的相对优势。

我们的方法从同一 GUI 实例的多个保持目标可见的视角构建每个 GRPO 比较组。这些视角通过裁剪生成，在保留目标元素可见的同时精确重映射其边界框，从而能够在语义等价但几何不同的输入之间进行比较。VISTA 还添加了一个自验证的跨视角锚点，以稳定短坐标生成，同时避免将强化学习退化为无条件模仿。

在五个 GUI 定位基准和多个 Qwen 骨干网络上，VISTA 持续提升了准确率。在 ScreenSpot-Pro 上，它将 Qwen3-VL 4B/8B/30B-A3B 从 55.5/52.7/53.7 分别提升至 63.4/65.8/67.0。代码、项目页面和开放检查点已公开：

代码：https://github.com/ZJUSCL/VISTA
项目页面：https://zjuscl.github.io/VISTA/
模型：https://huggingface.co/inclusionAI/VISTA-9B 和 https://huggingface.co/inclusionAI/VISTA-4B

VISTA: 视图一致的自验证训练用于GUI定位

论文页面 - VISTA: 面向 GUI 定位的一致视角自验证训练

相似文章

DRS-GUI: 动态区域搜索实现免训练GUI定位

信任正确的教师：面向GUI定位的质量感知自蒸馏

@HuggingPapers: Microsoft 刚刚在 Hugging Face 发布了 Phi-Ground-Any，这是一个拥有 40 亿参数的视觉模型，用于 GUI 定位，并取得了 SOTA……

Video2GUI：合成大规模交互轨迹以进行通用GUI智能体预训练

视觉具象化推理

提交意见反馈