ClawGUI:用于训练、评估和部署 GUI Agent 的统一框架
摘要
ClawGUI 是一个开源框架,用于通过强化学习训练、评估和部署 GUI Agent,具备标准化基准测试能力,并支持跨平台部署至 Android、iOS 和 HarmonyOS。
查看缓存全文
缓存时间: 2026/05/08 09:06
论文页面 - ClawGUI:用于训练、评估和部署 GUI Agent 的统一框架
来源:https://huggingface.co/papers/2604.11784
摘要
ClawGUI 是一个开源框架,通过统一强化学习、标准化评估和跨平台部署能力,解决 GUI Agent 开发中的关键挑战。
GUI Agent(https://huggingface.co/papers?q=GUI%20agents)通过视觉界面而非编程 API 驱动应用程序,通过点击、滑动和按键与任意软件交互,能够覆盖基于 CLI 的 Agent 无法触及的大量长尾应用。然而,该领域的进展瓶颈不在于模型能力,而在于缺乏一个连贯的全栈基础设施:在线 RL 训练受困于环境不稳定性(https://huggingface.co/papers?q=environment%20instability)和封闭管道(https://huggingface.co/papers?q=closed%20pipelines),评估协议(https://huggingface.co/papers?q=evaluation%20protocols)在不同研究之间悄然漂移,且训练好的 Agent 很少能真正触达真实设备上的真实用户。我们提出 ClawGUI,一个开源框架,在单一架构内解决这三个差距。ClawGUI-RL 提供了首个开源 GUI Agent RL 基础设施,经验证支持并行虚拟环境和真实物理设备,将 GiGPO 与过程奖励模型集成以实现细粒度的步骤级监督。ClawGUI-Eval 在 6 个基准和 11+ 个模型上强制执行完全标准化的评估流程,与官方基线相比达到 95.8% 的复现率。ClawGUI-Agent 通过 12+ 个聊天平台将训练好的 Agent 带到 Android、HarmonyOS 和 iOS,支持混合 CLI-GUI 控制(https://huggingface.co/papers?q=hybrid%20CLI-GUI%20control)和持久化个性化记忆。在此流程中端到端训练,ClawGUI-2B 在 MobileWorld GUI-Only 上达到 17.1% 成功率(https://huggingface.co/papers?q=Success%20Rate),比同规模的 MAI-UI-2B 基线高出 6.0%。
查看 arXiv 页面(https://arxiv.org/abs/2604.11784)查看 PDF(https://arxiv.org/pdf/2604.11784)项目页面(https://zju-real.github.io/ClawGUI-Page/)GitHub 1.12k(https://github.com/ZJU-REAL/ClawGUI)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.11784)
在您的 Agent 中获取这篇论文:
hf papers read 2604.11784
还没有最新版 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 0
暂无模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2604.11784 即可从此页面链接。
引用此论文的数据集 0
暂无数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2604.11784 即可从此页面链接。
引用此论文的 Spaces 0
暂无 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2604.11784 即可从此页面链接。
包含此论文的合集 6
浏览包含此论文的 6 个合集(https://huggingface.co/collections?paper=2604.11784)
相似文章
VisualClaw: 面向物理世界的实时个性化智能体
VisualClaw是一种自我进化的多模态智能体,通过混合编码和技能进化降低部署成本,同时在多个基准测试中提高了视频问答的准确性。
OpenClaw 已超越聊天范畴,听我细说
作者探讨了通过 Telegram 等聊天界面使用 OpenClaw 管理 AI 代理工作流的局限性,倡导采用专用仪表板和标准化 UI。他们重点介绍了 Paperclip 和 Multica 等旨在解决代理管理问题的新兴工具。
我在OpenClaw上构建了一个多智能体平台——72个专业智能体,各自拥有独立领域,全部通过ClawSwarm连接
一位用户构建了AI Pair,这是一个基于OpenClaw的开源协调层,支持72个专业智能体跨领域发现、注册并协作完成复杂任务。
ClawEnvKit:面向类爪智能体的自动环境生成
# 论文页面 - ClawEnvKit:面向类爪智能体的自动环境生成 来源:[https://huggingface.co/papers/2604.18543](https://huggingface.co/papers/2604.18543) ## 摘要 一个自动化流程能够基于自然语言描述,为类爪智能体生成多样化且经过验证的环境,从而实现大规模基准构建与持续评估。为训练和评估类爪智能体构建环境仍然是一个依赖人工的劳动密集型过程,且
ClawForge:为命令行智能体生成可执行的交互式基准测试
ClawForge 是一个基于生成器的基准测试框架,用于在状态冲突下生成可执行的命令行工作流,通过在17个场景中评估LLM智能体处理预先存在的部分、过时或冲突工件的能力。