CUA-Gym: 为计算机使用代理扩展可验证的训练环境与任务

Hugging Face Daily Papers 2026/05/25 00:00 论文

摘要

CUA-Gym 引入了一个可扩展的流水线，用于为计算机使用代理生成可验证的训练环境和任务，从而解决数据稀缺问题。由此产生的数据集和模型在OSWorld-Verified和WebArena等基准测试上取得了强劲的性能。

具有可验证奖励的强化学习（RLVR）在数学、工具使用和软件工程等领域取得了突破，但其扩展到计算机使用代理（CUA）却受到具有确定性奖励的可扩展训练数据稀缺的瓶颈限制。为CUA构建此类数据需要一致的任务指令、可执行的环境和可验证的奖励。然而，手工策划的基准实现了高奖励保真度，但覆盖的应用很少；而基于LLM作为评判者的数据集虽然广泛扩展，但缺乏可靠的验证。我们提出了CUA-Gym，这是一个可扩展的流水线，可以共同生成任务指令、环境状态和奖励函数。具体来说，一个生成器代理构建初始环境和黄金环境状态，另一个独立的判别器代理根据任务规范编写奖励函数。一个协调器代理在执行过程中驱动两者进行迭代轮次。生成的元组然后通过一个结合了LLM多数投票和代理展开的最终过滤器，确保质量超出每个任务的对抗循环。为了应对训练环境的稀缺性，我们进一步合成了CUA-Gym-Hub，这是一个广泛的套件，包含基于真实世界软件使用分布的高保真模拟网络应用程序，将CUA RLVR数据的规模扩大了一个数量级。利用这一流水线，我们构建了CUA-Gym，这是一个包含32,112个经过验证的RLVR训练元组的数据集，这些元组基于110个环境。在CUA-Gym上使用GSPO训练后，我们的CUA-Gym-A3B和CUA-Gym-A17B在OSWorld-Verified上分别达到了62.1%和72.6%，在可比较的规模上优于先前的开源CUA，并且在数据量和环境多样性上性能都平滑扩展。相同的检查点还在留出的WebArena基准上有所改进，表明迁移到了训练环境之外。我们将开源完整的合成流水线、数据集、CUA-Gym-Hub环境和模型。

查看原文

查看缓存全文

缓存时间: 2026/05/26 14:44

Paper page - CUA-Gym: 为计算机使用智能体扩展可验证训练环境与任务

来源：https://huggingface.co/papers/2605.25624 作者：

，

摘要

面向计算机使用智能体的 RLVR 框架通过可扩展的生成流程和合成环境解决了数据稀缺问题，在验证和迁移基准测试上取得了优异表现。

基于可验证奖励的强化学习（https://huggingface.co/papers?q=Reinforcement%20learning%20with%20verifiable%20reward）(RLVR) 已在数学、工具使用和软件工程等领域取得突破，然而其在计算机使用智能体（https://huggingface.co/papers?q=computer-use%20agents）(CUA) 上的扩展一直受到缺乏具有确定性奖励的可扩展训练数据的瓶颈。为 CUA 构建此类数据需要一致的任务指令（https://huggingface.co/papers?q=task%20instruction）、可执行环境（https://huggingface.co/papers?q=executable%20environment）和可验证奖励（https://huggingface.co/papers?q=verifiable%20reward）。然而，手工整理的基准测试奖励保真度高但覆盖应用少，而基于 LLM 作为裁判的数据集扩展广泛但缺乏可靠验证。我们提出了 CUA-Gym，一个可扩展的流程，可协同生成任务指令（https://huggingface.co/papers?q=task%20instruction）、环境状态和奖励函数。具体来说，一个生成器智能体（https://huggingface.co/papers?q=Generator%20agent）构建初始状态和黄金状态，另一个独立的判别器智能体（https://huggingface.co/papers?q=Discriminator%20agent）根据任务描述编写奖励函数。一个编排器智能体（https://huggingface.co/papers?q=orchestrator%20agent）驱动两者进行迭代执行轮次。生成的元组随后通过最终过滤器，该过滤器结合了 LLM 多数投票（https://huggingface.co/papers?q=LLM%20majority%20voting）和智能体 rollout（https://huggingface.co/papers?q=agent%20rollouts），确保质量超越每任务对抗循环。为了应对训练环境稀缺的问题，我们进一步合成了 CUA-Gym-Hub（https://huggingface.co/papers?q=CUA-Gym-Hub），这是一套基于真实软件使用分布的高保真模拟 Web 应用套件，将 CUA RLVR 数据的规模提升了一个数量级。利用该流程，我们构建了 CUA-Gym 数据集，包含 32,112 个经过验证的 RLVR 训练元组，覆盖 110 个环境。使用 GSPO（https://huggingface.co/papers?q=GSPO）在 CUA-Gym 上训练后，我们的 CUA-Gym-A3B 和 CUA-Gym-A17B 在 OSWorld-Verified（https://huggingface.co/papers?q=OSWorld-Verified）上分别达到 62.1% 和 72.6% 的准确率，超越了同规模的开源 CUA，且性能随数据量和环境多样性平滑提升。相同的检查点还在保留的 WebArena（https://huggingface.co/papers?q=WebArena）基准上取得改进，表明具有超越训练环境的迁移能力。我们将开源完整的合成流程、数据集、CUA-Gym-Hub（https://huggingface.co/papers?q=CUA-Gym-Hub）环境和模型。

查看 arXiv 页面（https://arxiv.org/abs/2605.25624）查看 PDF（https://arxiv.org/pdf/2605.25624）项目页面（https://cua-gym.xlang.ai/）GitHub8（https://github.com/xlang-ai/CUA-Gym）加入收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.25624）

引用本文的模型0

没有模型关联本文

请在模型 README.md 中引用 arxiv.org/abs/2605.25624 以从本页面链接。

引用本文的数据集1

xlangai/CUA-Gym 查看器• 更新于约 7 小时前 • 7.9k • 145（https://huggingface.co/datasets/xlangai/CUA-Gym）

引用本文的空间0

没有空间关联本文

请在空间 README.md 中引用 arxiv.org/abs/2605.25624 以从本页面链接。

CUA-Gym: 为计算机使用代理扩展可验证的训练环境与任务

Paper page - CUA-Gym: 为计算机使用智能体扩展可验证训练环境与任务

摘要

引用本文的模型0

引用本文的数据集1

xlangai/CUA-Gym 查看器• 更新于约 7 小时前 • 7.9k • 145（https://huggingface.co/datasets/xlangai/CUA-Gym）

引用本文的空间0

包含本文的收藏1

相似文章

OpenFinGym：一个可验证的多任务Gym环境，用于评估量化交易Agent

Workflow-GYM：面向真实世界专业领域中计算机使用代理任务的长期评估

ShopGym：一个用于电子商务网络代理的现实模拟和可扩展基准测试的集成框架

MobileGym: 一个可验证且高度并行的移动GUI代理研究仿真平台

Ecom-RLVE：面向电商对话代理的自适应可验证环境

提交意见反馈