ClawGUI:用于训练、评估和部署 GUI Agent 的统一框架

Papers with Code Trending 工具

摘要

ClawGUI 是一个开源框架,用于通过强化学习训练、评估和部署 GUI Agent,具备标准化基准测试能力,并支持跨平台部署至 Android、iOS 和 HarmonyOS。

GUI Agent 通过视觉界面而非编程 API 来驱动应用程序,通过点击、滑动和按键等方式与任意软件交互,能够覆盖基于 CLI 的 Agent 无法触及的大量长尾应用。然而,该领域的进展瓶颈不在于模型能力,而在于缺乏一套连贯的全栈基础设施:在线 RL 训练受限于环境不稳定和封闭的流水线,评估协议在不同研究工作之间悄然漂移,训练好的 Agent 很少能真正部署到用户的真实设备上。我们推出 ClawGUI,一个开源框架,在单一架构内解决上述三个痛点。ClawGUI-RL 提供了首个开源的 GUI Agent 强化学习基础设施,经验证支持并行虚拟环境和真实物理设备,将 GiGPO 与过程奖励模型(Process Reward Model)集成,实现细粒度的步骤级监督。ClawGUI-Eval 在 6 个基准测试和 11 个以上模型之间强制执行完全标准化的评估流程,与官方基线相比达到了 95.8% 的复现率。ClawGUI-Agent 通过 12 个以上聊天平台将训练好的 Agent 部署到 Android、HarmonyOS 和 iOS,支持混合 CLI-GUI 控制和持久的个性化记忆。在此流水线中端到端训练后,ClawGUI-2B 在 MobileWorld GUI-Only 上取得了 17.1% 的成功率,较同规模的 MAI-UI-2B 基线提升了 6.0%。
查看原文
查看缓存全文

缓存时间: 2026/05/08 09:06

论文页面 - ClawGUI:用于训练、评估和部署 GUI Agent 的统一框架

来源:https://huggingface.co/papers/2604.11784

摘要

ClawGUI 是一个开源框架,通过统一强化学习、标准化评估和跨平台部署能力,解决 GUI Agent 开发中的关键挑战。

GUI Agent(https://huggingface.co/papers?q=GUI%20agents)通过视觉界面而非编程 API 驱动应用程序,通过点击、滑动和按键与任意软件交互,能够覆盖基于 CLI 的 Agent 无法触及的大量长尾应用。然而,该领域的进展瓶颈不在于模型能力,而在于缺乏一个连贯的全栈基础设施:在线 RL 训练受困于环境不稳定性(https://huggingface.co/papers?q=environment%20instability)和封闭管道(https://huggingface.co/papers?q=closed%20pipelines),评估协议(https://huggingface.co/papers?q=evaluation%20protocols)在不同研究之间悄然漂移,且训练好的 Agent 很少能真正触达真实设备上的真实用户。我们提出 ClawGUI,一个开源框架,在单一架构内解决这三个差距。ClawGUI-RL 提供了首个开源 GUI Agent RL 基础设施,经验证支持并行虚拟环境和真实物理设备,将 GiGPO 与过程奖励模型集成以实现细粒度的步骤级监督。ClawGUI-Eval 在 6 个基准和 11+ 个模型上强制执行完全标准化的评估流程,与官方基线相比达到 95.8% 的复现率。ClawGUI-Agent 通过 12+ 个聊天平台将训练好的 Agent 带到 Android、HarmonyOS 和 iOS,支持混合 CLI-GUI 控制(https://huggingface.co/papers?q=hybrid%20CLI-GUI%20control)和持久化个性化记忆。在此流程中端到端训练,ClawGUI-2B 在 MobileWorld GUI-Only 上达到 17.1% 成功率(https://huggingface.co/papers?q=Success%20Rate),比同规模的 MAI-UI-2B 基线高出 6.0%。

查看 arXiv 页面(https://arxiv.org/abs/2604.11784)查看 PDF(https://arxiv.org/pdf/2604.11784)项目页面(https://zju-real.github.io/ClawGUI-Page/)GitHub 1.12k(https://github.com/ZJU-REAL/ClawGUI)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.11784)

在您的 Agent 中获取这篇论文:

hf papers read 2604.11784

还没有最新版 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

暂无模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2604.11784 即可从此页面链接。

引用此论文的数据集 0

暂无数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2604.11784 即可从此页面链接。

引用此论文的 Spaces 0

暂无 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2604.11784 即可从此页面链接。

包含此论文的合集 6

浏览包含此论文的 6 个合集(https://huggingface.co/collections?paper=2604.11784)

相似文章

OpenClaw 已超越聊天范畴,听我细说

Reddit r/openclaw

作者探讨了通过 Telegram 等聊天界面使用 OpenClaw 管理 AI 代理工作流的局限性,倡导采用专用仪表板和标准化 UI。他们重点介绍了 Paperclip 和 Multica 等旨在解决代理管理问题的新兴工具。

ClawEnvKit:面向类爪智能体的自动环境生成

Hugging Face Daily Papers

# 论文页面 - ClawEnvKit:面向类爪智能体的自动环境生成 来源:[https://huggingface.co/papers/2604.18543](https://huggingface.co/papers/2604.18543) ## 摘要 一个自动化流程能够基于自然语言描述,为类爪智能体生成多样化且经过验证的环境,从而实现大规模基准构建与持续评估。为训练和评估类爪智能体构建环境仍然是一个依赖人工的劳动密集型过程,且