信任正确的教师：面向GUI定位的质量感知自蒸馏

Hugging Face Daily Papers 2026/06/16 00:00 论文

摘要

提出面向GUI定位的质量感知自蒸馏方法，通过正确性感知门控和概率缩放改进坐标-标记教师信号，以提升视觉语言模型性能。

图形用户界面（GUI）定位要求视觉语言模型（VLM）在高分辨率截图中识别小目标元素并预测精确的屏幕坐标。对于这种坐标敏感的任务，在策略自蒸馏（OPSD）是一种有前景的后训练方法，因为它提供了超越硬坐标标签的密集标记级教师信号。然而，朴素的OPSD并不完全适合GUI定位：OPSD在学生生成的前缀上评估教师，当该前缀已偏离目标坐标时，坐标-标记教师信号的质量可能会下降，导致不可靠的教师信号。为缓解这一问题，我们提出了面向VLM的GUI定位的质量感知自蒸馏方法，通过软正确性感知门控和教师概率缩放来改进坐标-标记教师信号的质量。软正确性感知门控检查在学生生成的前缀下，教师当前的坐标-标记预测是否仍能完成为真值框。如果不能，则相应教师信号被降低权重。教师概率缩放随后利用教师的置信度作为轻量级因子，进一步校准门控监督的强度。一个关键的实证发现是，单独使用任何一个组件都不能改善整体性能，而将两者结合则能持续提升性能。这表明两种机制具有互补作用：正确性感知门控抑制不可靠的坐标-标记监督，而教师概率缩放校准剩余信号的强度。在六个GUI定位基准上的实验表明，我们的方法持续改进基础模型并优于强基线。

查看原文

查看缓存全文

缓存时间: 2026/06/18 03:55

论文页面 - 信任正确的教师：用于GUI定位的质量感知自蒸馏

来源：https://huggingface.co/papers/2606.18101

摘要

质量感知自蒸馏通过正确性感知门控和概率缩放，增强坐标令牌教师信号，从而提升视觉语言模型在GUI定位任务中的性能。

图形用户界面（GUI）定位要求视觉语言模型（https://huggingface.co/papers?q=vision-language%20models）（VLM）识别高分辨率截图中的微小目标元素，并预测精确的屏幕坐标（https://huggingface.co/papers?q=screen%20coordinates）。在策略自蒸馏（https://huggingface.co/papers?q=On-policy%20self-distillation）（OPSD）是一种有前景的后训练方法，适用于这一坐标敏感任务（https://huggingface.co/papers?q=coordinate-sensitive%20task），因为它提供了超越硬坐标标签的密集令牌级教师信号（https://huggingface.co/papers?q=dense%20token-level%20teacher%20signals）。然而，朴素的OPSD并不完全适用于GUI定位（https://huggingface.co/papers?q=GUI%20grounding）：OPSD在学生生成的前缀上评估教师，当该前缀已经偏离目标坐标时，坐标令牌教师信号的质量会下降，导致不可靠的教师信号。为缓解这一问题，我们提出了用于基于VLM的GUI定位（https://huggingface.co/papers?q=GUI%20grounding）的质量感知自蒸馏，通过软正确性感知门控（https://huggingface.co/papers?q=soft%20correctness-aware%20gating）和教师概率缩放（https://huggingface.co/papers?q=teacher-probability%20scaling）来提升坐标令牌教师信号的质量。软正确性感知门控检查：在学生生成的前缀下，教师当前的坐标令牌预测是否仍能完成至真实标注框。如果不能，则相应教师信号的权重被降低。教师概率缩放（https://huggingface.co/papers?q=Teacher-probability%20scaling）随后利用教师的置信度作为轻量因子，进一步校准门控监督的强度。一个关键的经验发现是：单独使用任何一个组件都无法提升整体性能，而组合使用两者则能持续改进性能。这表明两种机制发挥了互补作用：正确性感知门控抑制不可靠的坐标令牌监督，而教师概率缩放（https://huggingface.co/papers?q=teacher-probability%20scaling）校准剩余信号的强度。在六个GUI定位（https://huggingface.co/papers?q=GUI%20grounding）基准上的实验表明，我们的方法一致地改进了基础模型并超越了强基线。

查看arXiv页面（https://arxiv.org/abs/2606.18101）查看PDF（https://arxiv.org/pdf/2606.18101）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.18101）

在您的智能体中获取此论文：

hf papers read 2606.18101

没有最新的CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

在模型README.md中引用arxiv.org/abs/2606.18101，以从该页面链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集README.md中引用arxiv.org/abs/2606.18101，以从该页面链接。

引用此论文的Spaces0

没有Space链接此论文

在Space README.md中引用arxiv.org/abs/2606.18101，以从该页面链接。

包含此论文的收藏集0

没有包含此论文的收藏集

将这篇论文添加到一个收藏集（https://huggingface.co/new-collection）中，以从该页面链接。

信任正确的教师：面向GUI定位的质量感知自蒸馏

论文页面 - 信任正确的教师：用于GUI定位的质量感知自蒸馏

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的Spaces0

包含此论文的收藏集0

相似文章

DRS-GUI: 动态区域搜索实现免训练GUI定位

VISTA: 视图一致的自验证训练用于GUI定位

面向GUI代理的技能引导连续蒸馏

教师令牌何时可靠？基于位置加权的在线策略自蒸馏方法在推理中的应用

先见后思：解耦感知与推理实现抗捷径的多模态在策略自蒸馏

提交意见反馈