@HuggingPapers: Microsoft 刚刚在 Hugging Face 发布了 Phi-Ground-Any,这是一个拥有 40 亿参数的视觉模型,用于 GUI 定位,并取得了 SOTA……

X AI KOLs Following 模型

摘要

Microsoft 在 Hugging Face 上发布了 Phi-Ground-Any,这是一个用于 GUI 定位的 40 亿参数视觉模型,取得了最先进的结果,使 AI 智能体能够与屏幕元素进行精确交互。

Microsoft 刚刚在 Hugging Face 上发布了 Phi-Ground-Any 这是一个用于 GUI 定位的 40 亿参数视觉模型,在 ScreenSpot-pro 和 UI-Vision 上取得了 SOTA 结果,使 AI 智能体能够精确点击屏幕元素。 https://t.co/VAgTlRPUbB
查看原文
查看缓存全文

缓存时间: 2026/05/09 14:10

微软刚刚在 Hugging Face 发布了 Phi-Ground-Any

这是一个拥有 40 亿参数的视觉模型,专为 GUI 定位设计,在 ScreenSpot-pro 和 UI-Vision 上实现了 SOTA 结果,使 AI 代理能够精确点击屏幕元素。 https://t.co/VAgTlRPUbB

相似文章

DRS-GUI: 动态区域搜索实现免训练GUI定位

arXiv cs.AI

DRS-GUI提出了一种免训练的动态区域搜索框架用于GUI定位,通过轻量级UI感知器模拟人类感知行为,并结合蒙特卡洛树搜索逐步定位与指令相关的元素。实验表明,在ScreenSpot-Pro上,通用和GUI专用多模态大语言模型的定位性能提升了14%。

VISTA: 视图一致的自验证训练用于GUI定位

Hugging Face Daily Papers

VISTA提出了一种用于GUI定位的视图一致自验证训练方法,通过使用多个保留目标的视图改进了基于GRPO的坐标预测,在多个基准测试上实现了持续的精度提升。