PRO-CUA:面向计算机使用代理的过程奖励优化
摘要
本文介绍了PRO-CUA,一种使用迭代步骤级强化学习训练计算机使用代理(CUA)的过程奖励优化框架。该方法将同策略环境交互与策略优化解耦,实现了密集的信用分配,无需依赖专家轨迹,并在实时网络基准测试中展示了有效性。
查看缓存全文
缓存时间: 2026/05/29 09:13
# PRO-CUA:面向计算机使用智能体的过程奖励优化
来源:https://arxiv.org/html/2605.29119
Yifei He Rui Yang Hao Bai Tong Zhang Han Zhao
伊利诺伊大学厄巴纳-香槟分校
网站 (https://yifei-he.github.io/pro-cua-website/)
代码 (https://github.com/yifei-he/PRO-CUA)
[![[无标题图片]](https://arxiv.org/html/2605.29119v1/x1.png)模型](https://huggingface.co/PRO-CUA)
###### 摘要
计算机使用智能体(CUAs)在自动化复杂数字工作流方面展现出巨大潜力,但其训练仍受限于高成本的在线环境交互和稀缺的高质量监督。现有的过滤行为克隆流水线面临模仿瓶颈,包括专家示范的分布偏移以及负学习信号的缺失。同时,标准的轨迹级强化学习在长视距GUI交互中面临稀疏奖励、信用分配模糊和高基础设施成本等问题。在本文中,我们提出PRO-CUA,一种基于过程奖励优化的框架,通过迭代的步骤级强化学习训练CUAs。PRO-CUA将在策略环境交互与策略优化解耦:当前策略通过在线执行收集状态,为每个状态生成多样化候选动作,接收来自过程奖励模型(PRM)的步骤级反馈,并利用组相对优势进行优化。该设计无需依赖黄金答案或离线专家轨迹,即可实现密集且灵活的信用分配,同时通过在智能体自身执行状态上训练来减少分布偏移。在在线网页基准测试上的实验证明了PRO-CUA的有效性和PRM引导的步骤级训练的可靠性。
PRO-CUA:面向计算机使用智能体的过程奖励优化
Yifei He Rui Yang Hao Bai Tong Zhang Han Zhao
伊利诺伊大学厄巴纳-香槟分校
网站 (https://yifei-he.github.io/pro-cua-website/)
代码 (https://github.com/yifei-he/PRO-CUA)
[![[无标题图片]](https://arxiv.org/html/2605.29119v1/x2.png)模型](https://huggingface.co/PRO-CUA)
## 1 引言
在多模态推理快速突破的推动下,自主智能体正演变为具有经济价值的数字协作者。计算机使用智能体(CUAs)(OpenAI,2025 (https://arxiv.org/html/2605.29119#bib.bib7); Anthropic,2024 (https://arxiv.org/html/2605.29119#bib.bib6); Agasheet al.,2025 (https://arxiv.org/html/2605.29119#bib.bib15); Qinet al.,2025 (https://arxiv.org/html/2605.29119#bib.bib2); Wanget al.,2025a (https://arxiv.org/html/2605.29119#bib.bib26),c (https://arxiv.org/html/2605.29119#bib.bib35))已被证明能够无缝地自动化复杂的开放式工作流。通过感知视觉接口并执行顺序计划,这些智能体原生地跨越多种数字生态系统运作,包括网页浏览器(Denget al.,2023 (https://arxiv.org/html/2605.29119#bib.bib13); Heet al.,2024a (https://arxiv.org/html/2605.29119#bib.bib3); Xueet al.,2025 (https://arxiv.org/html/2605.29119#bib.bib8)) 和桌面环境 (Xieet al.,2024 (https://arxiv.org/html/2605.29119#bib.bib14); Bonattiet al.,2025 (https://arxiv.org/html/2605.29119#bib.bib12); Wuet al.,2025 (https://arxiv.org/html/2605.29119#bib.bib38))。
尽管具有巨大的商业价值和最近的能力跃升,创建可靠泛化的CUA仍然受制于其训练方式。具体来说,研究人员面临两个相互交织的挑战:与在线GUI环境交互的过高延迟和计算成本,以及高质量训练数据的严重稀缺。训练CUA最直观且普遍的方法是从专家示范进行过滤行为克隆(FBC)(Baiet al.,2024 (https://arxiv.org/html/2605.29119#bib.bib25); Xuet al.,2025 (https://arxiv.org/html/2605.29119#bib.bib1); Heet al.,2024b (https://arxiv.org/html/2605.29119#bib.bib4); Shenet al.,2025 (https://arxiv.org/html/2605.29119#bib.bib24); Heet al.,2026 (https://arxiv.org/html/2605.29119#bib.bib40))。然而,FBC天生存在模仿瓶颈:它过度惩罚推理多样性,不成比例地过拟合简单任务,且缺乏负学习信号让智能体从错误中学习。为克服这些限制,强化学习(RL)提供了一种原则性的替代方案。然而,将标准的轨迹级RL应用于CUA会引入优化和基础设施方面的困难。在长视距计算机使用任务中,仅在任务完成时收到单一稀疏奖励使得步骤级信用分配高度模糊,智能体无法推断是数十个动作中的哪一个导致了最终失败。此外,诸如verl (Shenget al.,2025 (https://arxiv.org/html/2605.29119#bib.bib44)) 等标准同步RL框架在计算上不足以应对多轮智能体工作流。在线GUI执行的延迟加上包含大量令牌的图像上下文所带来的累积内存成本,使得轨迹级优化尤其具有挑战性。
参照图注
图1:PRO-CUA流水线概览。PRO-CUA在多次训练迭代中交替两个阶段。在阶段1中,当前策略与在线环境交互以收集在策略状态。在阶段2中,在不进一步进行环境交互的情况下执行策略优化,分为三步:i) 步骤级生成:智能体为每个收集到的状态采样多个候选动作;ii) PRM评分:过程奖励模型分配二进制步骤级奖励;iii) GRPO更新:使用组相对优势优化策略。更新后的策略用于下一轮在策略状态收集。
为了绕过轨迹级学习中的稀疏奖励问题,最近的工作转向了步骤级RL范式 (Luoet al.,2025 (https://arxiv.org/html/2605.29119#bib.bib42); Yanget al.,2026 (https://arxiv.org/html/2605.29119#bib.bib41))。虽然步骤级优化使信用分配变得可行,但现有方法仍受限于其奖励设计和数据收集机制。它们主要依赖于基于规则的奖励,要求与黄金答案进行精确匹配,这一严格限制大大削弱了可行训练数据的可扩展性。此外,这些流水线主要是离策略的,即在由更强的教师模型而非目标策略自身收集的状态上进行优化。由于智能体的动作会顺序地改变未来的GUI观测,这种离策略收集会引入累积分布偏移 (Rosset al.,2011 (https://arxiv.org/html/2605.29119#bib.bib43))。离线训练数据可能与智能体实际遇到的次优状态产生偏差,导致性能脆弱且无法从错误中恢复。
为解决奖励稀缺和离策略分布偏移的双重挑战,我们提出一种在策略自我进化框架,称为PRO-CUA(计算机使用智能体的过程奖励优化)。如图1 (https://arxiv.org/html/2605.29119#S1.F1)所示,PRO-CUA在多次训练迭代中交替两个阶段。在阶段1中,当前策略以较高的采样温度与在线环境交互,收集在策略状态。在阶段2中,在不进行进一步环境交互的情况下执行策略优化:对于每个收集到的状态,智能体采样G个多样化的思想-动作对,过程奖励模型(PRM)分配二进制步骤级奖励,并使用GRPO更新策略。这种设计将在线环境交互与策略优化解耦,允许每个阶段使用适应其自身计算特征的基础设施来运行,同时在智能体自身的执行状态上训练。
经验上,我们在在线网页基准测试上验证了PRO-CUA流水线的有效性,包括WebVoyager(Heet al.,2024a (https://arxiv.org/html/2605.29119#bib.bib3))、Mind2Web-Live(Panet al.,2024 (https://arxiv.org/html/2605.29119#bib.bib19)) 和 Online Mind2Web(Xueet al.,2025 (https://arxiv.org/html/2605.29119#bib.bib8))。我们进一步展示了我们的PRM评分流水线的可靠性以及我们的训练方法对数据的有效利用。总的来说,我们的PRO-CUA框架为训练计算机使用智能体提供了一个可扩展的流水线。
总结而言,我们的主要贡献包括:
i) 定制化的CUA基础设施设计:我们将环境交互与模型训练解耦,避免了同时进行智能体运行、环境交互和策略优化所带来的系统挑战。
ii) 在策略状态收集:我们消除对离线专家示范的依赖,使智能体能够从其自身的执行分布中学习。
iii) 通过PRM实现密集且灵活的信用分配:我们从稀疏的轨迹级奖励过渡到由PRM评分的步骤级GRPO。这提供了细粒度的监督,而无需从专家示范中收集黄金答案。
## 2 预备知识
#### 计算机使用智能体(CUA)
CUA通过顺序步骤与图形用户界面(GUI)交互,以完成任务指令中定义的任务。遵循ReAct(Yaoet al.,2023 (https://arxiv.org/html/2605.29119#bib.bib5))范式,智能体通常生成交错的思想和动作,明确地外化其推理过程以改进任务执行。在任何给定步骤n,智能体接收状态上下文x_n,其中包含指令I、过去思想和动作的历史序列{(t_i, a_i)}_{i=1}^{n-1},以及最近的w个视觉观测(截图)的截断窗口{o_{n-j}}_{j=0}^{w-1}。截断仅应用于视觉输入,以管理多模态上下文所涉及的过高令牌成本。在本文中,我们设置w=1,因此智能体仅观察到最近的截图,这在内存上高效,并且已被证明足以用于GUI感知(Qinet al.,2025 (https://arxiv.org/html/2605.29119#bib.bib2))。智能体的目标是学习一个策略π_θ(t_n, a_n | x_n),该策略迭代地选择导致成功完成任务的行动。
#### 过滤行为克隆(FBC)
目前,CUA最流行的训练范式是FBC,它在概念上等同于拒绝采样微调(RFT)。在这种方法中,候选轨迹数据集被过滤,仅保留那些导致成功最终结果的轨迹,形成精选数据集D_succ。然后,通过标准的监督微调(SFT)来优化策略,以最大化专家思想和动作的对数似然:
L_SFT(θ) = - E_{τ ~ D_succ} [ Σ_{n=1}^{|τ|} log π_θ(t_n, a_n | x_n) ].
#### 强化学习(RL)
虽然FBC优化了思想令牌和动作令牌的似然,但RL只需要对生成的动作提供奖励信号。这一区别对CUA很重要:中间思想可能很长且多样化,而任务进展最终由执行的动作决定。因此,RL避免了强制策略复制参考推理轨迹,而是强化任何导致奖励动作的生成。在单轮领域(如数学推理)中,GRPO仅依赖于稀疏的结果奖励(例如,验证答案)。然而,由于信用分配挑战,这种轨迹级方法通常对于长视距计算机使用任务不是最优的。为解决该问题,最近的工作采用了步骤级RL。与SFT类似,给定步骤上下文x = {I, {t_{n-i}, a_{n-i}}_{i=1}^{n-1}, {o_{n-i}}_{i=1}^{w}},GRPO采样一组G个候选思想-动作对{t_k, a_k}_{k=1}^G ~ π_θ(·|x),并计算奖励r_k = R(x, a_k),其中R主要是基于规则的奖励,基于与通过专家示范获得的黄金答案进行比较,根据动作类型、输入文本和智能体交互的坐标来衡量动作的准确性(详细公式见附录C (https://arxiv.org/html/2605.29119#A3))。总体目标为:
L_GRPO(θ) = - E_{x ~ D, {a_k}_{k=1}^G ~ π_θ_old(·|x)} [ (1/G) Σ_{k=1}^G min(ρ_k Â_k, clip(ρ_k, 1-ε, 1+ε) Â_k) - β · KL(π_θ(·|x) || π_ref(·|x)) ] (1)
其中ρ_k = π_θ(a_k | x) / π_θ_old(a_k | x) 表示重要采样比率,Â_k 是在采样组内计算的相对优势,β控制对参考模型π_ref的KL散度惩罚以防止策略崩溃。
## 3 PRO-CUA
### 3.1 在策略状态收集
先前的工作主要依赖于从更强的教师模型或人类示范中进行蒸馏 (Heet al.,2026 (https://arxiv.org/html/2605.29119#bib.bib40); Yanget al.,2026 (https://arxiv.org/html/2605.29119#bib.bib41); Luoet al.,2025 (https://arxiv.org/html/2605.29119#bib.bib42))。然而,这些专家轨迹存在严重的分布偏移:它们未能代表一个发展中智能体实际遇到的次优状态。由于智能体的原始动作会改变后续观测,它不可避免地会漂移到专家数据中完全不存在的灾难性或分布外状态(例如,卡住的网站)。虽然在线RL通过允许智能体通过自身策略进行探索提供了原则性解决方案,但在CUA设置中引入了严重的基础设施瓶颈。将高吞吐量LLM推理(例如vLLM(Kwonet al.,2023 (https://arxiv.org/html/2605.29119#bib.bib46)))、高延迟网页浏览器交互和专用训练框架(例如verl(Shenget al.,2025 (https://arxiv.org/html/2605.29119#bib.bib44)))同步到一个循环中,会导致无法接受的延迟、I/O开销和硬件闲置。
为在克服这些瓶颈的同时保留在策略探索的必要性,我们提出了一种解耦的状态收集范式。如图1 (https://arxiv.org/html/2605.29119#S1.F1)的阶段1所示,我们将慢速的环境交互与计算密集的策略优化循环分离。我们部署当前智能体策略以较高的采样温度与在线环境交互,鼓励发现多样化的路径。在智能体运行期间,我们持续收集这些探索性轨迹,将任务指令、视觉观测和动作历史记录到状态数据集D_state中。形式上,令T表示一组收集到的轨迹(可能包含相似文章
ToolCUA:迈向计算机使用代理的 GUI-工具路径编排优化
ToolCUA 是一个全新的代理框架,通过分阶段训练和强化学习,优化计算机使用代理的 GUI-工具路径选择。它通过在 GUI 操作和高级工具调用之间进行有效交替,在 OSWorld-MCP 上达到了最先进的性能。
计算机使用代理
# 计算机使用代理 来源: [https://openai.com/index/computer-using-agent/](https://openai.com/index/computer-using-agent/) 通过计算机使用代理(Computer-Using Agent)为Operator提供支持,这是AI与数字世界交互的通用接口。今天我们推出了[Operator\(在新窗口中打开\)](https://operator.chatgpt.com/)的研究预览版,这是一个能够在网络上为你执行任务的代理。Operator由计算机使用代理(CUA)驱动,这是一个结合了GPT-4o视觉功能的模型
保障计算机使用代理的安全:面向部署落地可靠性的统一架构-生命周期框架
这篇学术论文提出了一种统一的架构-生命周期框架,旨在保障计算机使用代理(CUA)在从基准测试向真实软件环境过渡过程中的安全性。文章分析了感知层、决策层和执行层以及创建、部署、运行和维护等各个阶段中面临的可靠性挑战。
CUA-Gym: 为计算机使用代理扩展可验证的训练环境与任务
CUA-Gym 引入了一个可扩展的流水线,用于为计算机使用代理生成可验证的训练环境和任务,从而解决数据稀缺问题。由此产生的数据集和模型在OSWorld-Verified和WebArena等基准测试上取得了强劲的性能。
RICE-PO:将检索交互转化为推理代理的信用信号
RICE-PO 是一个无需评判器的策略优化框架,它将检索交互转化为局部化信用信号,用于训练推理代理。在相同检索器设置下,该框架在 BRIGHT 和 BEIR 基准测试中持续优于基于提示的代理和基于组的强化学习基线。