ClawGUI：用于训练、评估和部署 GUI Agent 的统一框架

Papers with Code Trending 2026/04/13 00:00 工具

gui-agents open-source reinforcement-learning framework mobile-ai evaluation-benchmarks

摘要

ClawGUI 是一个开源框架，用于通过强化学习训练、评估和部署 GUI Agent，具备标准化基准测试能力，并支持跨平台部署至 Android、iOS 和 HarmonyOS。

GUI Agent 通过视觉界面而非编程 API 来驱动应用程序，通过点击、滑动和按键等方式与任意软件交互，能够覆盖基于 CLI 的 Agent 无法触及的大量长尾应用。然而，该领域的进展瓶颈不在于模型能力，而在于缺乏一套连贯的全栈基础设施：在线 RL 训练受限于环境不稳定和封闭的流水线，评估协议在不同研究工作之间悄然漂移，训练好的 Agent 很少能真正部署到用户的真实设备上。我们推出 ClawGUI，一个开源框架，在单一架构内解决上述三个痛点。ClawGUI-RL 提供了首个开源的 GUI Agent 强化学习基础设施，经验证支持并行虚拟环境和真实物理设备，将 GiGPO 与过程奖励模型（Process Reward Model）集成，实现细粒度的步骤级监督。ClawGUI-Eval 在 6 个基准测试和 11 个以上模型之间强制执行完全标准化的评估流程，与官方基线相比达到了 95.8% 的复现率。ClawGUI-Agent 通过 12 个以上聊天平台将训练好的 Agent 部署到 Android、HarmonyOS 和 iOS，支持混合 CLI-GUI 控制和持久的个性化记忆。在此流水线中端到端训练后，ClawGUI-2B 在 MobileWorld GUI-Only 上取得了 17.1% 的成功率，较同规模的 MAI-UI-2B 基线提升了 6.0%。

查看原文

查看缓存全文

缓存时间: 2026/05/08 09:06

论文页面 - ClawGUI：用于训练、评估和部署 GUI Agent 的统一框架

来源：https://huggingface.co/papers/2604.11784

摘要

ClawGUI 是一个开源框架，通过统一强化学习、标准化评估和跨平台部署能力，解决 GUI Agent 开发中的关键挑战。

GUI Agent（https://huggingface.co/papers?q=GUI%20agents）通过视觉界面而非编程 API 驱动应用程序，通过点击、滑动和按键与任意软件交互，能够覆盖基于 CLI 的 Agent 无法触及的大量长尾应用。然而，该领域的进展瓶颈不在于模型能力，而在于缺乏一个连贯的全栈基础设施：在线 RL 训练受困于环境不稳定性（https://huggingface.co/papers?q=environment%20instability）和封闭管道（https://huggingface.co/papers?q=closed%20pipelines），评估协议（https://huggingface.co/papers?q=evaluation%20protocols）在不同研究之间悄然漂移，且训练好的 Agent 很少能真正触达真实设备上的真实用户。我们提出 ClawGUI，一个开源框架，在单一架构内解决这三个差距。ClawGUI-RL 提供了首个开源 GUI Agent RL 基础设施，经验证支持并行虚拟环境和真实物理设备，将 GiGPO 与过程奖励模型集成以实现细粒度的步骤级监督。ClawGUI-Eval 在 6 个基准和 11+ 个模型上强制执行完全标准化的评估流程，与官方基线相比达到 95.8% 的复现率。ClawGUI-Agent 通过 12+ 个聊天平台将训练好的 Agent 带到 Android、HarmonyOS 和 iOS，支持混合 CLI-GUI 控制（https://huggingface.co/papers?q=hybrid%20CLI-GUI%20control）和持久化个性化记忆。在此流程中端到端训练，ClawGUI-2B 在 MobileWorld GUI-Only 上达到 17.1% 成功率（https://huggingface.co/papers?q=Success%20Rate），比同规模的 MAI-UI-2B 基线高出 6.0%。

查看 arXiv 页面（https://arxiv.org/abs/2604.11784）查看 PDF（https://arxiv.org/pdf/2604.11784）项目页面（https://zju-real.github.io/ClawGUI-Page/）GitHub 1.12k（https://github.com/ZJU-REAL/ClawGUI）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2604.11784）

在您的 Agent 中获取这篇论文：

hf papers read 2604.11784

还没有最新版 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

暂无模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2604.11784 即可从此页面链接。

引用此论文的数据集 0

暂无数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2604.11784 即可从此页面链接。

引用此论文的 Spaces 0

暂无 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2604.11784 即可从此页面链接。

包含此论文的合集 6

浏览包含此论文的 6 个合集（https://huggingface.co/collections?paper=2604.11784）

ClawGUI：用于训练、评估和部署 GUI Agent 的统一框架

论文页面 - ClawGUI：用于训练、评估和部署 GUI Agent 的统一框架

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Spaces 0

包含此论文的合集 6

相似文章

VisualClaw: 面向物理世界的实时个性化智能体

OpenClaw 已超越聊天范畴，听我细说

我在OpenClaw上构建了一个多智能体平台——72个专业智能体，各自拥有独立领域，全部通过ClawSwarm连接

ClawEnvKit：面向类爪智能体的自动环境生成

ClawForge：为命令行智能体生成可执行的交互式基准测试

提交意见反馈