结合自主评估的计算机操作代理强化学习

arXiv cs.AI 2026/06/24 04:00 论文

摘要

本文提出了一种面向计算机操作代理的强化学习框架，该框架利用自主视觉-语言评估作为可扩展的奖励信号，并对评估者噪声进行建模，以提高桌面环境中的任务成功率。

arXiv:2606.24515v1 Announce Type: new Abstract: 计算机操作代理（Computer-Use Agents, CUAs）通过直接感知图形用户界面并与之交互来执行高层次用户目标。然而，由于开放式的桌面环境很少能提供可扩展的机器可读奖励信号，强化学习在CUA中的应用仍然困难：任务成功通常依赖于视觉判断，很难通过手工设计的奖励函数或密集的手动标签来指定。我们提出了一种强化学习微调框架，该框架使用自主视觉-语言评估作为图形用户界面代理的可扩展监督信号。给定最终截图和原始指令，视觉-语言模型（Vision-Language Model）判断任务完成情况并提供终端反馈，在策略优化过程中无需任务特定的启发式规则或手动标签。由于自主评估器并不完美，我们将其反馈建模为带噪声的二元奖励通道，并推导出用于近端策略优化（Proximal Policy Optimization）的噪声校正奖励估计器。在macOSWorld、Windows Agent Arena和OSWorld上的实验表明，校正后的评估器奖励优于零样本基线和原始评估器奖励，成功率平均比零样本性能提高12.6个百分点，比原始评估器微调提高5.1个百分点。这些结果表明，当评估器噪声被明确建模和校正时，自主评估可以成为GUI环境中强化学习的实用奖励信号。

查看原文

查看缓存全文

缓存时间: 2026/06/24 07:48

# 基于自主评估的计算机使用智能体强化学习
已被第四届国际研讨会“开放世界中有限资源的泛化”接收（GLOW @ IJCAI 2026）：https://glow-ijcai-2026.github.io/glow-ijcai-2026/。
来源：https://arxiv.org/html/2606.24515
Oleksandr Kosovan1 1乌克兰天主教大学，乌克兰利沃夫 sumyk\.pn@ucu\.edu\.ua, o\.kosovan@ucu\.edu\.ua

###### 摘要

计算机使用智能体（CUA）通过直接感知图形用户界面并执行操作，来实现高级用户目标。然而，针对CUA的强化学习仍然困难，因为开放式的桌面环境很少能提供可扩展的、机器可读的奖励信号：任务成功通常依赖于视觉判断，难以通过手工设计的奖励函数或密集的人工标注来指定。

我们提出了一种强化学习微调框架，该框架利用自主的视觉-语言评估作为GUI智能体的可扩展监督信号。给定最终截图和原始指令，视觉-语言模型（VLM）判断任务完成情况，并提供终止反馈，无需在策略优化过程中使用任务相关的启发式规则或人工标注。

由于自主评估器并不完美，我们将其反馈建模为一个带噪声的二元奖励通道，并推导出一个噪声校正的奖励估计器，用于近端策略优化（PPO）。在macOSWorld、Windows Agent Arena和OSWorld上的实验表明，校正后的评估器奖励在零样本基线和原始评估器奖励上均有提升，平均成功率比零样本性能提升12.6个百分点，比原始评估器微调提升5.1个百分点。这些结果表明，当显式建模并校正评估器噪声时，自主评估可以作为GUI环境中强化学习的实用奖励信号。

参见图1图1：自主评估奖励的偏差校正框架。## 1 引言

计算机使用智能体（CUA）旨在通过视觉观察和执行操作，根据自然语言指令自主操作图形用户界面（GUI）Liu 等 (2025 (https://arxiv.org/html/2606.24515#bib.bib1))；Sun 等 (2025 (https://arxiv.org/html/2606.24515#bib.bib3))。最近的进展表明，CUA能够在不同应用和操作系统之间实现有希望的泛化，使其成为无服务依赖的桌面自动化的基础 Wang 等 (2025 (https://arxiv.org/html/2606.24515#bib.bib4))；Sager 等 (2025 (https://arxiv.org/html/2606.24515#bib.bib5))。尽管取得了这些进展，当前的CUA在不受约束的真实世界环境中仍然不可靠。具体来说，在OSWorld基准测试上 Xie 等 (2024 (https://arxiv.org/html/2606.24515#bib.bib6))，最先进的桌面智能体成功率仅约为60%，突显了当前能力与实际部署之间的显著差距。这一差距激励我们寻求更有效的学习机制，以提高在真实桌面环境中的鲁棒性和任务成功率。

强化学习（RL）提供了一个原则性框架，通过探索、从错误中恢复以及通过交互学习（而非依赖静态演示）来改进智能体行为 Sutton and Barto (2018 (https://arxiv.org/html/2606.24515#bib.bib7))。然而，将RL应用于基于GUI的环境仍然受到缺乏可靠奖励信号的根本限制 Sumyk and Kosovan (2025 (https://arxiv.org/html/2606.24515#bib.bib17))。与机器人模拟器 Tang 等 (2024 (https://arxiv.org/html/2606.24515#bib.bib8)) 或游戏环境 Koyamada 等 (2024 (https://arxiv.org/html/2606.24515#bib.bib9)) 不同，后者的成功标准明确定义且机器可读，桌面应用程序很少显式暴露任务完成的指示信号。相反，任务目标通常是隐式的、基于视觉的，且高度非结构化 Xie 等 (2024 (https://arxiv.org/html/2606.24515#bib.bib6))。

因此，先前的工作通常依赖于脆弱的、任务特定的启发式规则，例如基于Web的环境中的DOM元素检查 Qi 等 (2025 (https://arxiv.org/html/2606.24515#bib.bib10))，或手动标注的成功标签 Xie 等 (2024 (https://arxiv.org/html/2606.24515#bib.bib6))。这些方法无法在不同应用、操作系统和任务分布之间扩展，并且严重限制了在狭窄定义环境之外的泛化能力。另一种策略是在计算机使用智能体内部定义任务成功标准 Wang 等 (2025 (https://arxiv.org/html/2606.24515#bib.bib4))。然而，这引入了额外的可靠性问题，因为智能体自身的感知和推理本质上是不完善的，而正是RL旨在改进的组件。因此，缺乏可扩展且可靠的奖励机制仍然是有效RL微调计算机使用智能体的核心瓶颈。

一个有前途的替代方案是采用自主评估器来判断任务是否成功完成。最近的研究 Sumyk and Kosovan (2025 (https://arxiv.org/html/2606.24515#bib.bib17))；Lin 等 (2025 (https://arxiv.org/html/2606.24515#bib.bib15))；Sumyk and Kosovan (2026 (https://arxiv.org/html/2606.24515#bib.bib18))；Rosset 等 (2026 (https://arxiv.org/html/2606.24515#bib.bib16)) 表明，基于视觉-语言模型（VLM）的评估器可以达到高准确率，并泛化到各种应用。然而，这些评估器不可避免地会引入噪声：它们可能错误地将未完成的执行标记为完成（假阳性），或未能检测到成功（假阴性）。因此，天真地将评估器输出用作奖励信号会引入偏差，并导致不稳定的强化学习 Wang 等 (2020a (https://arxiv.org/html/2606.24515#bib.bib19))；Li 等 (2024a (https://arxiv.org/html/2606.24515#bib.bib21))。

在本文中，我们通过引入一个原则性框架来解决这一挑战，该框架将自主评估器集成到CUA的强化学习中。我们不将评估器输出视为真实值，而是显式建模评估器噪声，并推导出一个统计上有依据的、渐近无偏的奖励估计器。这种公式使得在不完美反馈下进行有效的RL微调成为可能，使CUA能够从大规模交互数据中学习，而无需人工标注。

本研究探讨以下研究问题：

- •RQ1：自主的基于VLM的评估能否作为CUA强化学习微调的可扩展奖励信号？
- •RQ2：与使用原始评估器奖励相比，建模和校正评估器噪声能否改进策略学习？

为了回答这些问题，我们提出一个原则性框架，通过显式建模自主评估器的误差特征，将其集成到强化学习循环中。我们的方法推导出一个统计上稳健的、渐近无偏的奖励估计器，校正评估器引起的噪声，并实现稳定的策略优化。实验表明，该框架在三个操作系统（Windows、macOS和Linux）上提高了鲁棒性和任务成功率，而无需依赖人工标注或任务特定的启发式规则。实现代码可在 https://github.com/martasumyk/rl_with_autonomous_feedback 获取。

## 2 相关工作

### 2.1 计算机使用智能体

计算机使用智能体（CUA）是端到端的自主系统，通过感知渲染的桌面GUI（通常通过截图）并执行点击、输入、滚动和拖动等操作，完成自然语言任务 Sager 等 (2025 (https://arxiv.org/html/2606.24515#bib.bib5))。最近的CUA架构将视觉-语言推理与显式动作接地相结合，以规划并执行跨多个应用和操作系统的长周期工作流 Liu 等 (2025 (https://arxiv.org/html/2606.24515#bib.bib1))；Sun 等 (2025 (https://arxiv.org/html/2606.24515#bib.bib3))；Wang 等 (2025 (https://arxiv.org/html/2606.24515#bib.bib4))；Qin 等 (2025 (https://arxiv.org/html/2606.24515#bib.bib2))。

与需要明确服务集成的基于API或函数调用的智能体不同，CUA采用无服务依赖的交互模型：它们完全通过渲染的界面来感知和操作软件。这种设计使其无需定制工程即可与任意应用交互，并允许单个智能体跨不同软件应用和操作系统进行泛化 Sun 等 (2025 (https://arxiv.org/html/2606.24515#bib.bib3))；Sager 等 (2025 (https://arxiv.org/html/2606.24515#bib.bib5))。因此，CUA越来越被认为是通用计算机自动化的一个有前途的基础。

然而，这种通用性给推理和验证带来了重大挑战。由于CUA仅依赖视觉反馈，它们容易受到静默或部分失败的影响，这些失败可能由意外的界面状态、异步渲染、视觉遮挡或UI布局的细微分布变化引起 Gur 等 (2023 (https://arxiv.org/html/2606.24515#bib.bib11))；Humphreys 等 (2024 (https://arxiv.org/html/2606.24515#bib.bib12))；Li 等 (2024b (https://arxiv.org/html/2606.24515#bib.bib13))。此外，许多现实世界的任务缺乏显式的、机器可读的成功标准，这使得可靠地判断智能体是否真正完成了预期目标变得困难 Sumyk and Kosovan (2025 (https://arxiv.org/html/2606.24515#bib.bib17))。

而且，最先进的桌面智能体在OSWorld上的成功率仅约为60% Xie 等 (2024 (https://arxiv.org/html/2606.24515#bib.bib6))，在macOSWorld上约为40% Yang 等 (2025 (https://arxiv.org/html/2606.24515#bib.bib29))。这一性能差距突显了CUA需要更鲁棒的训练和微调方法。

### 2.2 计算机使用智能体的训练与微调

训练CUA通常结合监督学习和强化学习 Lai 等 (2025 (https://arxiv.org/html/2606.24515#bib.bib31))；Wang 等 (2025 (https://arxiv.org/html/2606.24515#bib.bib4))。许多系统首先使用行为克隆，从人类演示或脚本轨迹中学习将视觉观察和指令映射到低级GUI动作 Gur 等 (2023 (https://arxiv.org/html/2606.24515#bib.bib11))；Li 等 (2024b (https://arxiv.org/html/2606.24515#bib.bib13))；Humphreys 等 (2024 (https://arxiv.org/html/2606.24515#bib.bib12))。这种方法对于短周期动作预测和指令跟随是有效的，但常常在需要恢复、探索和验证的长周期任务中遇到复合错误和困难 Humphreys 等 (2024 (https://arxiv.org/html/2606.24515#bib.bib12))。

为了解决这些局限性，最近的工作探索了基于RL的微调，以提高超越演示的鲁棒性和任务成功率 Liu 等 (2025 (https://arxiv.org/html/2606.24515#bib.bib1))；Sun 等 (2025 (https://arxiv.org/html/2606.24515#bib.bib3))；Qin 等 (2025 (https://arxiv.org/html/2606.24515#bib.bib2))。在实践中，RL流水线要么在奖励可以程序化定义的环境中运行，例如合成网络界面 Gur 等 (2023 (https://arxiv.org/html/2606.24515#bib.bib11))；Humphreys 等 (2024 (https://arxiv.org/html/2606.24515#bib.bib12))，要么依赖于任务和平台特定的启发式规则，如DOM解析或字符串匹配，这些方法无法推广到通用的桌面设置 Xie 等 (2024 (https://arxiv.org/html/2606.24515#bib.bib6))。更广泛地说，现有方法仍然受限于对可靠任务完成信号的依赖，而在真实桌面GUI中这种信号很少可用，这激励了自主评估的研究。

### 2.3 自主评估

自主评估旨在仅基于观察到的GUI状态来判断智能体是否成功完成了用户的指令，产生适用于基准测试和学习的反馈 Pan 等 (2024 (https://arxiv.org/html/2606.24515#bib.bib14))。在真实桌面环境中，任务成功很少伴随显式的、机器可读的信号，因为目标通常是隐式的且基于视觉 Sumyk and Kosovan (2025 (https://arxiv.org/html/2606.24515#bib.bib17))。因此，许多现有的基准测试和训练流水线依赖于人工验证最终状态，这成本高昂、耗时，并且难以扩展到不同的应用和操作系统 Xie 等 (2024 (https://arxiv.org/html/2606.24515#bib.bib6))。

最近的研究提出了自主评估器，通常基于视觉-语言模型（VLM），通过联合分析最终GUI状态和自然语言指令来评估任务完成情况，并输出二元成功判断 Sumyk and Kosovan (2025 (https://arxiv.org/html/2606.24515#bib.bib17))；Lin 等 (2025 (https://arxiv.org/html/2606.24515#bib.bib15))。这些评估器实现了可扩展的自动成功标注，并可以作为智能体改进的奖励或反馈提供者。然而，它们的预测并不完美，可能存在假阳性和假阴性。因此，天真地将评估器输出视为真实奖励会引入偏差并破坏策略优化的稳定性 Wang 等 (2020a (https://arxiv.org/html/2606.24515#bib.bib19))。这激励了显式建模评估器错误并纳入噪声感知奖励校正的方法，这正是我们方法的重点。

### 2.4 带噪声反馈的强化学习

大量的研究探讨了当智能体无法观察到真实奖励，而是接收到由测量伪影、不完美标注者或自动验证系统产生的噪声代理时的强化学习问题 Wang 等 (2020a (https://arxiv.org/html/2606.24515#bib.bib19))；Cai 等 (2025a (https://arxiv.org/html/2606.24515#bib.bib22))；Wang 等 (2020b (https://arxiv.org/html/2606.24515#bib.bib20))。

Wang 等 Wang 等 (2020a (https://arxiv.org/html/2606.24515#bib.bib19)) 使用离散奖励值的混淆矩阵形式化了奖励损坏问题。他们证明，给定对损坏过程的估计，可以构造一个无偏的奖励估计器。这使得标准RL算法尽管只观察到损坏的反馈，也能恢复最优策略。

补充性工作研究了从人类或教师提供的噪声评估信号中学习。例如，CANDERE-COACH Li 等 (2024a (https://arxiv.org/html/2606.24515#bib.bib21)) 考虑了不可靠的二元批准/不批准反馈，并提出了在线去噪机制，在策略更新前过滤反馈，在大量噪声下展示了鲁棒性。

与我们的设置最相关的是，Cai 等 Cai 等 (2025b (https://arxiv.org/html/2606.24515#bib.bib23)) 研究了使用可验证奖励的强化学习，其中策略从自动验证器生成的噪声二元信号中训练。他们建模了非对称的假阳性和假阴性错误，并推导出校正策略，通过适当变换观察到的反馈来去偏策略梯度更新。

我们的方法将这些思想实例化到计算机使用智能体，将基于视觉的任务完成判断器视为一个带噪声的二元奖励通道。借鉴先前的工作 Wang 等 (2020a (https://arxiv.org/html/2606.24515#bib.bib23))，我们推导出一个简单的校正方法，在温和的可分离性条件下产生一个渐近无偏的奖励估计器，并将其直接集成到PPO中。---

结合自主评估的计算机操作代理强化学习

相似文章

自动化智能体评估的实证研究

AgentCL: 面向语言代理中持续学习的严谨评估

论计算机使用智能体的可靠性

PRO-CUA：面向计算机使用代理的过程奖励优化

SENTINEL：面向训练工具使用语言模型代理的失败驱动强化学习

提交意见反馈