process-reward-optimization

#process-reward-optimization

PRO-CUA：面向计算机使用代理的过程奖励优化

arXiv cs.AI ↗ · 2026-05-29 缓存

本文介绍了PRO-CUA，一种使用迭代步骤级强化学习训练计算机使用代理（CUA）的过程奖励优化框架。该方法将同策略环境交互与策略优化解耦，实现了密集的信用分配，无需依赖专家轨迹，并在实时网络基准测试中展示了有效性。

0 人收藏 0 人点赞