CUA-Gym: 为计算机使用代理扩展可验证的训练环境与任务

Hugging Face Daily Papers 论文

摘要

CUA-Gym 引入了一个可扩展的流水线,用于为计算机使用代理生成可验证的训练环境和任务,从而解决数据稀缺问题。由此产生的数据集和模型在OSWorld-Verified和WebArena等基准测试上取得了强劲的性能。

具有可验证奖励的强化学习(RLVR)在数学、工具使用和软件工程等领域取得了突破,但其扩展到计算机使用代理(CUA)却受到具有确定性奖励的可扩展训练数据稀缺的瓶颈限制。为CUA构建此类数据需要一致的任务指令、可执行的环境和可验证的奖励。然而,手工策划的基准实现了高奖励保真度,但覆盖的应用很少;而基于LLM作为评判者的数据集虽然广泛扩展,但缺乏可靠的验证。我们提出了CUA-Gym,这是一个可扩展的流水线,可以共同生成任务指令、环境状态和奖励函数。具体来说,一个生成器代理构建初始环境和黄金环境状态,另一个独立的判别器代理根据任务规范编写奖励函数。一个协调器代理在执行过程中驱动两者进行迭代轮次。生成的元组然后通过一个结合了LLM多数投票和代理展开的最终过滤器,确保质量超出每个任务的对抗循环。为了应对训练环境的稀缺性,我们进一步合成了CUA-Gym-Hub,这是一个广泛的套件,包含基于真实世界软件使用分布的高保真模拟网络应用程序,将CUA RLVR数据的规模扩大了一个数量级。利用这一流水线,我们构建了CUA-Gym,这是一个包含32,112个经过验证的RLVR训练元组的数据集,这些元组基于110个环境。在CUA-Gym上使用GSPO训练后,我们的CUA-Gym-A3B和CUA-Gym-A17B在OSWorld-Verified上分别达到了62.1%和72.6%,在可比较的规模上优于先前的开源CUA,并且在数据量和环境多样性上性能都平滑扩展。相同的检查点还在留出的WebArena基准上有所改进,表明迁移到了训练环境之外。我们将开源完整的合成流水线、数据集、CUA-Gym-Hub环境和模型。
查看原文
查看缓存全文

缓存时间: 2026/05/26 14:44

Paper page - CUA-Gym: 为计算机使用智能体扩展可验证训练环境与任务

来源:https://huggingface.co/papers/2605.25624 作者:

摘要

面向计算机使用智能体的 RLVR 框架通过可扩展的生成流程和合成环境解决了数据稀缺问题,在验证和迁移基准测试上取得了优异表现。

基于可验证奖励的强化学习(https://huggingface.co/papers?q=Reinforcement%20learning%20with%20verifiable%20reward)(RLVR) 已在数学、工具使用和软件工程等领域取得突破,然而其在计算机使用智能体(https://huggingface.co/papers?q=computer-use%20agents)(CUA) 上的扩展一直受到缺乏具有确定性奖励的可扩展训练数据的瓶颈。为 CUA 构建此类数据需要一致的任务指令(https://huggingface.co/papers?q=task%20instruction)、可执行环境(https://huggingface.co/papers?q=executable%20environment)和可验证奖励(https://huggingface.co/papers?q=verifiable%20reward)。然而,手工整理的基准测试奖励保真度高但覆盖应用少,而基于 LLM 作为裁判的数据集扩展广泛但缺乏可靠验证。我们提出了 CUA-Gym,一个可扩展的流程,可协同生成任务指令(https://huggingface.co/papers?q=task%20instruction)、环境状态和奖励函数。具体来说,一个生成器智能体(https://huggingface.co/papers?q=Generator%20agent)构建初始状态和黄金状态,另一个独立的判别器智能体(https://huggingface.co/papers?q=Discriminator%20agent)根据任务描述编写奖励函数。一个编排器智能体(https://huggingface.co/papers?q=orchestrator%20agent)驱动两者进行迭代执行轮次。生成的元组随后通过最终过滤器,该过滤器结合了 LLM 多数投票(https://huggingface.co/papers?q=LLM%20majority%20voting)和智能体 rollout(https://huggingface.co/papers?q=agent%20rollouts),确保质量超越每任务对抗循环。为了应对训练环境稀缺的问题,我们进一步合成了 CUA-Gym-Hub(https://huggingface.co/papers?q=CUA-Gym-Hub),这是一套基于真实软件使用分布的高保真模拟 Web 应用套件,将 CUA RLVR 数据的规模提升了一个数量级。利用该流程,我们构建了 CUA-Gym 数据集,包含 32,112 个经过验证的 RLVR 训练元组,覆盖 110 个环境。使用 GSPO(https://huggingface.co/papers?q=GSPO)在 CUA-Gym 上训练后,我们的 CUA-Gym-A3B 和 CUA-Gym-A17B 在 OSWorld-Verified(https://huggingface.co/papers?q=OSWorld-Verified)上分别达到 62.1% 和 72.6% 的准确率,超越了同规模的开源 CUA,且性能随数据量和环境多样性平滑提升。相同的检查点还在保留的 WebArena(https://huggingface.co/papers?q=WebArena)基准上取得改进,表明具有超越训练环境的迁移能力。我们将开源完整的合成流程、数据集、CUA-Gym-Hub(https://huggingface.co/papers?q=CUA-Gym-Hub)环境和模型。

查看 arXiv 页面(https://arxiv.org/abs/2605.25624)查看 PDF(https://arxiv.org/pdf/2605.25624)项目页面(https://cua-gym.xlang.ai/)GitHub8(https://github.com/xlang-ai/CUA-Gym)加入收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.25624)

引用本文的模型0

没有模型关联本文

请在模型 README.md 中引用 arxiv.org/abs/2605.25624 以从本页面链接。

引用本文的数据集1

xlangai/CUA-Gym 查看器• 更新于约 7 小时前 • 7.9k • 145(https://huggingface.co/datasets/xlangai/CUA-Gym)

引用本文的空间0

没有空间关联本文

请在空间 README.md 中引用 arxiv.org/abs/2605.25624 以从本页面链接。

包含本文的收藏1

相似文章

Ecom-RLVE:面向电商对话代理的自适应可验证环境

Hugging Face Blog

Huggingface 推出 EcomRLVE-GYM,这是一个提供八个可验证环境的框架,用于在复杂电商任务上训练强化学习智能体。该工具具备自适应难度课程和算法化奖励机制,以提升购物助手的任务完成率,并已通过训练 Qwen 3 8B 模型进行了验证。

OpenComputer:面向计算机使用智能体的可验证软件世界

Hugging Face Daily Papers

OpenComputer 提出了一种框架,用于为计算机使用智能体创建可验证的软件环境,集成了状态验证器、自改进验证层、任务合成以及评估系统,覆盖33个桌面应用程序。实验表明,其验证器与人类判断的一致性优于LLM作为判断者,且前沿智能体在端到端完成方面仍面临困难。

计算机使用代理

OpenAI Blog

# 计算机使用代理 来源: [https://openai.com/index/computer-using-agent/](https://openai.com/index/computer-using-agent/) 通过计算机使用代理(Computer-Using Agent)为Operator提供支持,这是AI与数字世界交互的通用接口。今天我们推出了[Operator⁠\(在新窗口中打开\)](https://operator.chatgpt.com/)的研究预览版,这是一个能够在网络上为你执行任务的代理。Operator由计算机使用代理(CUA)驱动,这是一个结合了GPT-4o视觉功能的模型