@HuggingPapers: Microsoft 刚刚在 Hugging Face 发布了 Phi-Ground-Any，这是一个拥有 40 亿参数的视觉模型，用于 GUI 定位，并取得了 SOTA……

X AI KOLs Following 2026/05/09 06:20 模型

microsoft phi-ground-any gui-grounding computer-vision ai-agents hugging-face

摘要

Microsoft 在 Hugging Face 上发布了 Phi-Ground-Any，这是一个用于 GUI 定位的 40 亿参数视觉模型，取得了最先进的结果，使 AI 智能体能够与屏幕元素进行精确交互。

Microsoft 刚刚在 Hugging Face 上发布了 Phi-Ground-Any 这是一个用于 GUI 定位的 40 亿参数视觉模型，在 ScreenSpot-pro 和 UI-Vision 上取得了 SOTA 结果，使 AI 智能体能够精确点击屏幕元素。 https://t.co/VAgTlRPUbB

查看原文

查看缓存全文

缓存时间: 2026/05/09 14:10

微软刚刚在 Hugging Face 发布了 Phi-Ground-Any

这是一个拥有 40 亿参数的视觉模型，专为 GUI 定位设计，在 ScreenSpot-pro 和 UI-Vision 上实现了 SOTA 结果，使 AI 代理能够精确点击屏幕元素。 https://t.co/VAgTlRPUbB

@HuggingPapers: Microsoft 刚刚在 Hugging Face 发布了 Phi-Ground-Any，这是一个拥有 40 亿参数的视觉模型，用于 GUI 定位，并取得了 SOTA……

相似文章

@HuggingPapers：微软刚刚在Hugging Face上发布了Lens，一个38亿参数的文本到图像模型，提供高效训练和高…

DRS-GUI: 动态区域搜索实现免训练GUI定位

VISTA: 视图一致的自验证训练用于GUI定位

一次前向胜过两次：InnerZoom实现精准高效的GUI定位

信任正确的教师：面向GUI定位的质量感知自蒸馏

提交意见反馈