@HuggingPapers: Microsoft 刚刚在 Hugging Face 发布了 Phi-Ground-Any,这是一个拥有 40 亿参数的视觉模型,用于 GUI 定位,并取得了 SOTA……
摘要
Microsoft 在 Hugging Face 上发布了 Phi-Ground-Any,这是一个用于 GUI 定位的 40 亿参数视觉模型,取得了最先进的结果,使 AI 智能体能够与屏幕元素进行精确交互。
Microsoft 刚刚在 Hugging Face 上发布了 Phi-Ground-Any
这是一个用于 GUI 定位的 40 亿参数视觉模型,在 ScreenSpot-pro 和 UI-Vision 上取得了 SOTA 结果,使 AI 智能体能够精确点击屏幕元素。 https://t.co/VAgTlRPUbB
查看缓存全文
缓存时间: 2026/05/09 14:10
微软刚刚在 Hugging Face 发布了 Phi-Ground-Any
这是一个拥有 40 亿参数的视觉模型,专为 GUI 定位设计,在 ScreenSpot-pro 和 UI-Vision 上实现了 SOTA 结果,使 AI 代理能够精确点击屏幕元素。 https://t.co/VAgTlRPUbB
相似文章
@HuggingPapers:微软刚刚在Hugging Face上发布了Lens,一个38亿参数的文本到图像模型,提供高效训练和高…
微软在Hugging Face上发布了Lens,一个38亿参数的文本到图像模型,支持高效训练和高达1440×1440的高分辨率生成。
DRS-GUI: 动态区域搜索实现免训练GUI定位
DRS-GUI提出了一种免训练的动态区域搜索框架用于GUI定位,通过轻量级UI感知器模拟人类感知行为,并结合蒙特卡洛树搜索逐步定位与指令相关的元素。实验表明,在ScreenSpot-Pro上,通用和GUI专用多模态大语言模型的定位性能提升了14%。
VISTA: 视图一致的自验证训练用于GUI定位
VISTA提出了一种用于GUI定位的视图一致自验证训练方法,通过使用多个保留目标的视图改进了基于GRPO的坐标预测,在多个基准测试上实现了持续的精度提升。
一次前向胜过两次:InnerZoom实现精准高效的GUI定位
InnerZoom提出了一种单前向框架,用于GUI定位中的跨层证据桥接,在多个基准测试上实现了最先进的性能,同时将延迟降低高达31.8%。
信任正确的教师:面向GUI定位的质量感知自蒸馏
提出面向GUI定位的质量感知自蒸馏方法,通过正确性感知门控和概率缩放改进坐标-标记教师信号,以提升视觉语言模型性能。