@HuggingPapers: Microsoft 刚刚在 Hugging Face 发布了 Phi-Ground-Any,这是一个拥有 40 亿参数的视觉模型,用于 GUI 定位,并取得了 SOTA……

X AI KOLs Following 模型

摘要

Microsoft 在 Hugging Face 上发布了 Phi-Ground-Any,这是一个用于 GUI 定位的 40 亿参数视觉模型,取得了最先进的结果,使 AI 智能体能够与屏幕元素进行精确交互。

Microsoft 刚刚在 Hugging Face 上发布了 Phi-Ground-Any 这是一个用于 GUI 定位的 40 亿参数视觉模型,在 ScreenSpot-pro 和 UI-Vision 上取得了 SOTA 结果,使 AI 智能体能够精确点击屏幕元素。 https://t.co/VAgTlRPUbB
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/09 14:10

微软刚刚在 Hugging Face 发布了 Phi-Ground-Any

这是一个拥有 40 亿参数的视觉模型,专为 GUI 定位设计,在 ScreenSpot-pro 和 UI-Vision 上实现了 SOTA 结果,使 AI 代理能够精确点击屏幕元素。 https://t.co/VAgTlRPUbB

相似文章

Genie 3:世界模型的新前沿

Google DeepMind Blog

DeepMind 发布 Genie 3,一个通用世界模型,能够从文本提示生成交互式环境,分辨率达 720p、帧率 24fps,相比前代版本具有更好的一致性和实时交互能力。