@HuggingPapers: Microsoft 刚刚在 Hugging Face 发布了 Phi-Ground-Any,这是一个拥有 40 亿参数的视觉模型,用于 GUI 定位,并取得了 SOTA……
摘要
Microsoft 在 Hugging Face 上发布了 Phi-Ground-Any,这是一个用于 GUI 定位的 40 亿参数视觉模型,取得了最先进的结果,使 AI 智能体能够与屏幕元素进行精确交互。
查看缓存全文
缓存时间: 2026/05/09 14:10
微软刚刚在 Hugging Face 发布了 Phi-Ground-Any
这是一个拥有 40 亿参数的视觉模型,专为 GUI 定位设计,在 ScreenSpot-pro 和 UI-Vision 上实现了 SOTA 结果,使 AI 代理能够精确点击屏幕元素。 https://t.co/VAgTlRPUbB
相似文章
Gemma 4 发布:前沿多模态智能,端侧可用
Google DeepMind 发布 Gemma 4,这是一系列前沿多模态模型,已在 Hugging Face 上以 Apache 2 协议开源,针对端侧部署进行了优化,并支持多种推理框架。
@ClementDelangue:Hugging Face 正成为代理使用和构建 AI 的平台,现在它们可以调用 100 万个 HF Spaces,完成最新专用模型所能做的一切……
Hugging Face 现允许 AI 代理调用 100 万个 Spaces,把 Hub 变成可编程平台,代理可随手调用任何专用模型或应用。
@RoundtableSpace:Hugging Face 用智能体把整个后训练团队自动化了。它会读论文、跑 GPU 实验、反复迭代……
Hugging Face 用自主智能体取代后训练团队,自动读论文、跑 GPU 实验并优化模型,不到 10 小时就在基准测试上提升 22 分,HealthBench 成绩比 Codex 高 60%。
Genie 3:世界模型的新前沿
DeepMind 发布 Genie 3,一个通用世界模型,能够从文本提示生成交互式环境,分辨率达 720p、帧率 24fps,相比前代版本具有更好的一致性和实时交互能力。
ClawGUI:用于训练、评估和部署 GUI Agent 的统一框架
ClawGUI 是一个开源框架,用于通过强化学习训练、评估和部署 GUI Agent,具备标准化基准测试能力,并支持跨平台部署至 Android、iOS 和 HarmonyOS。