信任正确的教师:面向GUI定位的质量感知自蒸馏

Hugging Face Daily Papers 论文

摘要

提出面向GUI定位的质量感知自蒸馏方法,通过正确性感知门控和概率缩放改进坐标-标记教师信号,以提升视觉语言模型性能。

图形用户界面(GUI)定位要求视觉语言模型(VLM)在高分辨率截图中识别小目标元素并预测精确的屏幕坐标。对于这种坐标敏感的任务,在策略自蒸馏(OPSD)是一种有前景的后训练方法,因为它提供了超越硬坐标标签的密集标记级教师信号。然而,朴素的OPSD并不完全适合GUI定位:OPSD在学生生成的前缀上评估教师,当该前缀已偏离目标坐标时,坐标-标记教师信号的质量可能会下降,导致不可靠的教师信号。为缓解这一问题,我们提出了面向VLM的GUI定位的质量感知自蒸馏方法,通过软正确性感知门控和教师概率缩放来改进坐标-标记教师信号的质量。软正确性感知门控检查在学生生成的前缀下,教师当前的坐标-标记预测是否仍能完成为真值框。如果不能,则相应教师信号被降低权重。教师概率缩放随后利用教师的置信度作为轻量级因子,进一步校准门控监督的强度。一个关键的实证发现是,单独使用任何一个组件都不能改善整体性能,而将两者结合则能持续提升性能。这表明两种机制具有互补作用:正确性感知门控抑制不可靠的坐标-标记监督,而教师概率缩放校准剩余信号的强度。在六个GUI定位基准上的实验表明,我们的方法持续改进基础模型并优于强基线。
查看原文
查看缓存全文

缓存时间: 2026/06/18 03:55

论文页面 - 信任正确的教师:用于GUI定位的质量感知自蒸馏

来源:https://huggingface.co/papers/2606.18101

摘要

质量感知自蒸馏通过正确性感知门控和概率缩放,增强坐标令牌教师信号,从而提升视觉语言模型在GUI定位任务中的性能。

图形用户界面(GUI)定位要求视觉语言模型(https://huggingface.co/papers?q=vision-language%20models)(VLM)识别高分辨率截图中的微小目标元素,并预测精确的屏幕坐标(https://huggingface.co/papers?q=screen%20coordinates)。在策略自蒸馏(https://huggingface.co/papers?q=On-policy%20self-distillation)(OPSD)是一种有前景的后训练方法,适用于这一坐标敏感任务(https://huggingface.co/papers?q=coordinate-sensitive%20task),因为它提供了超越硬坐标标签的密集令牌级教师信号(https://huggingface.co/papers?q=dense%20token-level%20teacher%20signals)。然而,朴素的OPSD并不完全适用于GUI定位(https://huggingface.co/papers?q=GUI%20grounding):OPSD在学生生成的前缀上评估教师,当该前缀已经偏离目标坐标时,坐标令牌教师信号的质量会下降,导致不可靠的教师信号。为缓解这一问题,我们提出了用于基于VLM的GUI定位(https://huggingface.co/papers?q=GUI%20grounding)的质量感知自蒸馏,通过软正确性感知门控(https://huggingface.co/papers?q=soft%20correctness-aware%20gating)和教师概率缩放(https://huggingface.co/papers?q=teacher-probability%20scaling)来提升坐标令牌教师信号的质量。软正确性感知门控检查:在学生生成的前缀下,教师当前的坐标令牌预测是否仍能完成至真实标注框。如果不能,则相应教师信号的权重被降低。教师概率缩放(https://huggingface.co/papers?q=Teacher-probability%20scaling)随后利用教师的置信度作为轻量因子,进一步校准门控监督的强度。一个关键的经验发现是:单独使用任何一个组件都无法提升整体性能,而组合使用两者则能持续改进性能。这表明两种机制发挥了互补作用:正确性感知门控抑制不可靠的坐标令牌监督,而教师概率缩放(https://huggingface.co/papers?q=teacher-probability%20scaling)校准剩余信号的强度。在六个GUI定位(https://huggingface.co/papers?q=GUI%20grounding)基准上的实验表明,我们的方法一致地改进了基础模型并超越了强基线。

查看arXiv页面(https://arxiv.org/abs/2606.18101)查看PDF(https://arxiv.org/pdf/2606.18101)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.18101)

在您的智能体中获取此论文:

hf papers read 2606.18101

没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

在模型README.md中引用arxiv.org/abs/2606.18101,以从该页面链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集README.md中引用arxiv.org/abs/2606.18101,以从该页面链接。

引用此论文的Spaces0

没有Space链接此论文

在Space README.md中引用arxiv.org/abs/2606.18101,以从该页面链接。

包含此论文的收藏集0

没有包含此论文的收藏集

将这篇论文添加到一个收藏集(https://huggingface.co/new-collection)中,以从该页面链接。

相似文章

DRS-GUI: 动态区域搜索实现免训练GUI定位

arXiv cs.AI

DRS-GUI提出了一种免训练的动态区域搜索框架用于GUI定位,通过轻量级UI感知器模拟人类感知行为,并结合蒙特卡洛树搜索逐步定位与指令相关的元素。实验表明,在ScreenSpot-Pro上,通用和GUI专用多模态大语言模型的定位性能提升了14%。

VISTA: 视图一致的自验证训练用于GUI定位

Hugging Face Daily Papers

VISTA提出了一种用于GUI定位的视图一致自验证训练方法,通过使用多个保留目标的视图改进了基于GRPO的坐标预测,在多个基准测试上实现了持续的精度提升。

面向GUI代理的技能引导连续蒸馏

arXiv cs.AI

该论文提出了技能引导连续蒸馏(SGCD),这是一个迭代式自我改进框架,利用技能引导策略在闭环执行过程中为偏离轨迹的状态生成监督信号,将OSWorld-Verified上GUI代理的成功率从约30%提升至超过50%。