CUA-Gym: 为计算机使用代理扩展可验证的训练环境与任务
摘要
CUA-Gym 引入了一个可扩展的流水线,用于为计算机使用代理生成可验证的训练环境和任务,从而解决数据稀缺问题。由此产生的数据集和模型在OSWorld-Verified和WebArena等基准测试上取得了强劲的性能。
查看缓存全文
缓存时间: 2026/05/26 14:44
Paper page - CUA-Gym: 为计算机使用智能体扩展可验证训练环境与任务
来源:https://huggingface.co/papers/2605.25624 作者:
,
,
,
,
,
,
,
,
,
,
,
,
摘要
面向计算机使用智能体的 RLVR 框架通过可扩展的生成流程和合成环境解决了数据稀缺问题,在验证和迁移基准测试上取得了优异表现。
基于可验证奖励的强化学习(https://huggingface.co/papers?q=Reinforcement%20learning%20with%20verifiable%20reward)(RLVR) 已在数学、工具使用和软件工程等领域取得突破,然而其在计算机使用智能体(https://huggingface.co/papers?q=computer-use%20agents)(CUA) 上的扩展一直受到缺乏具有确定性奖励的可扩展训练数据的瓶颈。为 CUA 构建此类数据需要一致的任务指令(https://huggingface.co/papers?q=task%20instruction)、可执行环境(https://huggingface.co/papers?q=executable%20environment)和可验证奖励(https://huggingface.co/papers?q=verifiable%20reward)。然而,手工整理的基准测试奖励保真度高但覆盖应用少,而基于 LLM 作为裁判的数据集扩展广泛但缺乏可靠验证。我们提出了 CUA-Gym,一个可扩展的流程,可协同生成任务指令(https://huggingface.co/papers?q=task%20instruction)、环境状态和奖励函数。具体来说,一个生成器智能体(https://huggingface.co/papers?q=Generator%20agent)构建初始状态和黄金状态,另一个独立的判别器智能体(https://huggingface.co/papers?q=Discriminator%20agent)根据任务描述编写奖励函数。一个编排器智能体(https://huggingface.co/papers?q=orchestrator%20agent)驱动两者进行迭代执行轮次。生成的元组随后通过最终过滤器,该过滤器结合了 LLM 多数投票(https://huggingface.co/papers?q=LLM%20majority%20voting)和智能体 rollout(https://huggingface.co/papers?q=agent%20rollouts),确保质量超越每任务对抗循环。为了应对训练环境稀缺的问题,我们进一步合成了 CUA-Gym-Hub(https://huggingface.co/papers?q=CUA-Gym-Hub),这是一套基于真实软件使用分布的高保真模拟 Web 应用套件,将 CUA RLVR 数据的规模提升了一个数量级。利用该流程,我们构建了 CUA-Gym 数据集,包含 32,112 个经过验证的 RLVR 训练元组,覆盖 110 个环境。使用 GSPO(https://huggingface.co/papers?q=GSPO)在 CUA-Gym 上训练后,我们的 CUA-Gym-A3B 和 CUA-Gym-A17B 在 OSWorld-Verified(https://huggingface.co/papers?q=OSWorld-Verified)上分别达到 62.1% 和 72.6% 的准确率,超越了同规模的开源 CUA,且性能随数据量和环境多样性平滑提升。相同的检查点还在保留的 WebArena(https://huggingface.co/papers?q=WebArena)基准上取得改进,表明具有超越训练环境的迁移能力。我们将开源完整的合成流程、数据集、CUA-Gym-Hub(https://huggingface.co/papers?q=CUA-Gym-Hub)环境和模型。
查看 arXiv 页面(https://arxiv.org/abs/2605.25624)查看 PDF(https://arxiv.org/pdf/2605.25624)项目页面(https://cua-gym.xlang.ai/)GitHub8(https://github.com/xlang-ai/CUA-Gym)加入收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.25624)
引用本文的模型0
没有模型关联本文
请在模型 README.md 中引用 arxiv.org/abs/2605.25624 以从本页面链接。
引用本文的数据集1
xlangai/CUA-Gym 查看器• 更新于约 7 小时前 • 7.9k • 145(https://huggingface.co/datasets/xlangai/CUA-Gym)
引用本文的空间0
没有空间关联本文
请在空间 README.md 中引用 arxiv.org/abs/2605.25624 以从本页面链接。
包含本文的收藏1
相似文章
ShopGym:一个用于电子商务网络代理的现实模拟和可扩展基准测试的集成框架
ShopGym 是一个框架,它将实时的电子商务店面转换为自包含的沙盒商店,用于对网络代理进行真实、可控和可重复的基准测试,并包含涵盖七类技能的合成任务。
MobileGym: 一个可验证且高度并行的移动GUI代理研究仿真平台
MobileGym是一个基于浏览器的移动GUI代理研究仿真平台,具有确定性状态评估和可扩展的并行执行功能。它包含一个包含416个任务的基准测试,并展示了在Qwen3-VL-4B上使用GRPO带来的提升。
Ecom-RLVE:面向电商对话代理的自适应可验证环境
Huggingface 推出 EcomRLVE-GYM,这是一个提供八个可验证环境的框架,用于在复杂电商任务上训练强化学习智能体。该工具具备自适应难度课程和算法化奖励机制,以提升购物助手的任务完成率,并已通过训练 Qwen 3 8B 模型进行了验证。
OpenComputer:面向计算机使用智能体的可验证软件世界
OpenComputer 提出了一种框架,用于为计算机使用智能体创建可验证的软件环境,集成了状态验证器、自改进验证层、任务合成以及评估系统,覆盖33个桌面应用程序。实验表明,其验证器与人类判断的一致性优于LLM作为判断者,且前沿智能体在端到端完成方面仍面临困难。
计算机使用代理
# 计算机使用代理 来源: [https://openai.com/index/computer-using-agent/](https://openai.com/index/computer-using-agent/) 通过计算机使用代理(Computer-Using Agent)为Operator提供支持,这是AI与数字世界交互的通用接口。今天我们推出了[Operator\(在新窗口中打开\)](https://operator.chatgpt.com/)的研究预览版,这是一个能够在网络上为你执行任务的代理。Operator由计算机使用代理(CUA)驱动,这是一个结合了GPT-4o视觉功能的模型