信任正确的教师:面向GUI定位的质量感知自蒸馏
摘要
提出面向GUI定位的质量感知自蒸馏方法,通过正确性感知门控和概率缩放改进坐标-标记教师信号,以提升视觉语言模型性能。
查看缓存全文
缓存时间: 2026/06/18 03:55
论文页面 - 信任正确的教师:用于GUI定位的质量感知自蒸馏
来源:https://huggingface.co/papers/2606.18101
摘要
质量感知自蒸馏通过正确性感知门控和概率缩放,增强坐标令牌教师信号,从而提升视觉语言模型在GUI定位任务中的性能。
图形用户界面(GUI)定位要求视觉语言模型(https://huggingface.co/papers?q=vision-language%20models)(VLM)识别高分辨率截图中的微小目标元素,并预测精确的屏幕坐标(https://huggingface.co/papers?q=screen%20coordinates)。在策略自蒸馏(https://huggingface.co/papers?q=On-policy%20self-distillation)(OPSD)是一种有前景的后训练方法,适用于这一坐标敏感任务(https://huggingface.co/papers?q=coordinate-sensitive%20task),因为它提供了超越硬坐标标签的密集令牌级教师信号(https://huggingface.co/papers?q=dense%20token-level%20teacher%20signals)。然而,朴素的OPSD并不完全适用于GUI定位(https://huggingface.co/papers?q=GUI%20grounding):OPSD在学生生成的前缀上评估教师,当该前缀已经偏离目标坐标时,坐标令牌教师信号的质量会下降,导致不可靠的教师信号。为缓解这一问题,我们提出了用于基于VLM的GUI定位(https://huggingface.co/papers?q=GUI%20grounding)的质量感知自蒸馏,通过软正确性感知门控(https://huggingface.co/papers?q=soft%20correctness-aware%20gating)和教师概率缩放(https://huggingface.co/papers?q=teacher-probability%20scaling)来提升坐标令牌教师信号的质量。软正确性感知门控检查:在学生生成的前缀下,教师当前的坐标令牌预测是否仍能完成至真实标注框。如果不能,则相应教师信号的权重被降低。教师概率缩放(https://huggingface.co/papers?q=Teacher-probability%20scaling)随后利用教师的置信度作为轻量因子,进一步校准门控监督的强度。一个关键的经验发现是:单独使用任何一个组件都无法提升整体性能,而组合使用两者则能持续改进性能。这表明两种机制发挥了互补作用:正确性感知门控抑制不可靠的坐标令牌监督,而教师概率缩放(https://huggingface.co/papers?q=teacher-probability%20scaling)校准剩余信号的强度。在六个GUI定位(https://huggingface.co/papers?q=GUI%20grounding)基准上的实验表明,我们的方法一致地改进了基础模型并超越了强基线。
查看arXiv页面(https://arxiv.org/abs/2606.18101)查看PDF(https://arxiv.org/pdf/2606.18101)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.18101)
在您的智能体中获取此论文:
hf papers read 2606.18101
没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型链接此论文
在模型README.md中引用arxiv.org/abs/2606.18101,以从该页面链接。
引用此论文的数据集0
没有数据集链接此论文
在数据集README.md中引用arxiv.org/abs/2606.18101,以从该页面链接。
引用此论文的Spaces0
没有Space链接此论文
在Space README.md中引用arxiv.org/abs/2606.18101,以从该页面链接。
包含此论文的收藏集0
没有包含此论文的收藏集
将这篇论文添加到一个收藏集(https://huggingface.co/new-collection)中,以从该页面链接。
相似文章
DRS-GUI: 动态区域搜索实现免训练GUI定位
DRS-GUI提出了一种免训练的动态区域搜索框架用于GUI定位,通过轻量级UI感知器模拟人类感知行为,并结合蒙特卡洛树搜索逐步定位与指令相关的元素。实验表明,在ScreenSpot-Pro上,通用和GUI专用多模态大语言模型的定位性能提升了14%。
VISTA: 视图一致的自验证训练用于GUI定位
VISTA提出了一种用于GUI定位的视图一致自验证训练方法,通过使用多个保留目标的视图改进了基于GRPO的坐标预测,在多个基准测试上实现了持续的精度提升。
面向GUI代理的技能引导连续蒸馏
该论文提出了技能引导连续蒸馏(SGCD),这是一个迭代式自我改进框架,利用技能引导策略在闭环执行过程中为偏离轨迹的状态生成监督信号,将OSWorld-Verified上GUI代理的成功率从约30%提升至超过50%。
教师令牌何时可靠?基于位置加权的在线策略自蒸馏方法在推理中的应用
本文发现,推理蒸馏中教师令牌的可靠性具有轨迹结构特性,并提出了基于位置加权的在线策略自蒸馏方法(PW-OPSD),该方法通过应用递增的位置权重,在不增加教师计算量的情况下提升了性能。
先见后思:解耦感知与推理实现抗捷径的多模态在策略自蒸馏
本文介绍了ViGOS,一种多模态在策略自蒸馏方法,通过让学生模型先产生视觉描述再进行推理来解耦感知与推理,减少对捷径的依赖并改善图像接地行为。