VISTA: 视图一致的自验证训练用于GUI定位
摘要
VISTA提出了一种用于GUI定位的视图一致自验证训练方法,通过使用多个保留目标的视图改进了基于GRPO的坐标预测,在多个基准测试上实现了持续的精度提升。
查看缓存全文
缓存时间: 2026/06/15 09:06
论文页面 - VISTA: 面向 GUI 定位的一致视角自验证训练
来源:https://huggingface.co/papers/2606.14579 VISTA 提出了面向 GUI 定位的一致视角自验证训练方法,解决了将 GRPO 应用于坐标预测时的一个关键局限:从单一截图视角生成的 rollout 往往坍缩为全成功或全失败组,从而提供了微弱的相对优势。
我们的方法从同一 GUI 实例的多个保持目标可见的视角构建每个 GRPO 比较组。这些视角通过裁剪生成,在保留目标元素可见的同时精确重映射其边界框,从而能够在语义等价但几何不同的输入之间进行比较。VISTA 还添加了一个自验证的跨视角锚点,以稳定短坐标生成,同时避免将强化学习退化为无条件模仿。
在五个 GUI 定位基准和多个 Qwen 骨干网络上,VISTA 持续提升了准确率。在 ScreenSpot-Pro 上,它将 Qwen3-VL 4B/8B/30B-A3B 从 55.5/52.7/53.7 分别提升至 63.4/65.8/67.0。代码、项目页面和开放检查点已公开:
代码:https://github.com/ZJUSCL/VISTA
项目页面:https://zjuscl.github.io/VISTA/
模型:https://huggingface.co/inclusionAI/VISTA-9B 和 https://huggingface.co/inclusionAI/VISTA-4B
相似文章
DRS-GUI: 动态区域搜索实现免训练GUI定位
DRS-GUI提出了一种免训练的动态区域搜索框架用于GUI定位,通过轻量级UI感知器模拟人类感知行为,并结合蒙特卡洛树搜索逐步定位与指令相关的元素。实验表明,在ScreenSpot-Pro上,通用和GUI专用多模态大语言模型的定位性能提升了14%。
信任正确的教师:面向GUI定位的质量感知自蒸馏
提出面向GUI定位的质量感知自蒸馏方法,通过正确性感知门控和概率缩放改进坐标-标记教师信号,以提升视觉语言模型性能。
@HuggingPapers: Microsoft 刚刚在 Hugging Face 发布了 Phi-Ground-Any,这是一个拥有 40 亿参数的视觉模型,用于 GUI 定位,并取得了 SOTA……
Microsoft 在 Hugging Face 上发布了 Phi-Ground-Any,这是一个用于 GUI 定位的 40 亿参数视觉模型,取得了最先进的结果,使 AI 智能体能够与屏幕元素进行精确交互。
Video2GUI:合成大规模交互轨迹以进行通用GUI智能体预训练
提出了Video2GUI,一个从无标签教学视频中自动提取GUI交互轨迹的框架,构建了包含12M条轨迹、覆盖1500+应用的WildGUI数据集。在该数据上进行预训练,在GUI定位和动作基准测试上提升了5-20%。
视觉具象化推理
本文介绍了视觉具象化推理,一种使视觉语言模型能够将自然语言推理与使用点或框的明确视觉证据基础相结合的方法。一个可扩展的合成流水线和基础感知的强化学习提高了推理准确性,使得一个4B模型在空间和计数基准上能够匹配甚至超越一个27B模型。