ToolCUA:迈向计算机使用代理的 GUI-工具路径编排优化
摘要
ToolCUA 是一个全新的代理框架,通过分阶段训练和强化学习,优化计算机使用代理的 GUI-工具路径选择。它通过在 GUI 操作和高级工具调用之间进行有效交替,在 OSWorld-MCP 上达到了最先进的性能。
查看缓存全文
缓存时间: 2026/05/13 08:12
论文页面 - ToolCUA:面向计算机使用代理的最优 GUI-工具路径编排
来源:https://huggingface.co/papers/2605.12481
摘要
ToolCUA 是一种端到端代理,通过分阶段训练学习最优的 GUI-工具路径选择,在混合动作空间环境中取得了卓越的性能。
计算机使用代理(Computer Use Agents,简称 CUAs)既可以通过点击和输入等原子级 GUI 动作(GUI actions)进行操作,也可以进行基于 API 的文件操作等高层工具调用(tool calls)。然而,这种混合动作空间(hybrid action space)往往使它们难以判断何时继续执行 GUI 动作,何时切换到工具调用,从而导致执行路径次优。这一困难源于高质量交错式 GUI-工具轨迹(interleaved GUI-Tool trajectories)的稀缺性、收集真实工具轨迹的高昂成本和脆弱性,以及缺乏针对 GUI-工具路径选择的轨迹级监督。在本文中,我们提出了 ToolCUA,这是一种端到端代理,旨在通过分阶段训练范式(staged training paradigm)学习最优的 GUI-工具路径选择。我们首先介绍了一种交错式 GUI-工具轨迹扩展流水线(Interleaved GUI-Tool Trajectory Scaling Pipeline),它利用丰富的静态 GUI 轨迹并合成一个接地化的工具库(tool library),从而无需人工工程或真实工具轨迹收集即可生成多样化的 GUI-工具轨迹。随后,我们执行基于工具引导的 GUI 强化微调(Tool-Bootstrapped GUI RFT),结合预热监督微调(SFT)与单轮强化学习(RL),以改进关键 GUI-工具切换点的决策。最后,我们在高保真 GUI-工具环境中通过在线智能体强化学习(Online Agentic RL)优化 ToolCUA,并采用工具高效路径奖励(Tool-Efficient Path Reward)作为引导,以鼓励恰当的工具使用和更短的执行路径。在 OSWorld-MCP 上的实验表明,ToolCUA 达到了 46.85% 的准确率,相比基线模型相对提升了约 66%,在同等规模模型中确立了新的最先进水平(SOTA)。它还比仅使用 GUI 的设置提升了 3.9%,展示了有效的 GUI-工具编排能力。结果进一步表明,在混合动作空间中进行训练是现实世界数字代理的一个有前景的范式。开源地址:https://x-plug.github.io/ToolCUA/
查看 arXiv 页面 (https://arxiv.org/abs/2605.12481) 查看 PDF (https://arxiv.org/pdf/2605.12481) 项目页面 (https://x-plug.github.io/ToolCUA/) GitHub (https://github.com/X-PLUG/ToolCUA) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.12481)
在您的代理中获取此论文:
hf papers read 2605.12481
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 1
mPLUG/ToolCUA-8B 图像-文本到文本 • 9B • 约 3 小时前更新 • 78 (https://huggingface.co/mPLUG/ToolCUA-8B)
引用此论文的数据集 0
没有链接此论文的数据集
在数据集的 README.md 中引用 arxiv.org/abs/2605.12481 即可从本页建立链接。
引用此论文的 Spaces 0
没有链接此论文的 Space
在 Space 的 README.md 中引用 arxiv.org/abs/2605.12481 即可从本页建立链接。
包含此论文的收藏 0
没有包含此论文的收藏
将本论文添加到收藏集 (https://huggingface.co/new-collection) 即可从本页建立链接。
相似文章
PRO-CUA:面向计算机使用代理的过程奖励优化
本文介绍了PRO-CUA,一种使用迭代步骤级强化学习训练计算机使用代理(CUA)的过程奖励优化框架。该方法将同策略环境交互与策略优化解耦,实现了密集的信用分配,无需依赖专家轨迹,并在实时网络基准测试中展示了有效性。
计算机使用代理
# 计算机使用代理 来源: [https://openai.com/index/computer-using-agent/](https://openai.com/index/computer-using-agent/) 通过计算机使用代理(Computer-Using Agent)为Operator提供支持,这是AI与数字世界交互的通用接口。今天我们推出了[Operator\(在新窗口中打开\)](https://operator.chatgpt.com/)的研究预览版,这是一个能够在网络上为你执行任务的代理。Operator由计算机使用代理(CUA)驱动,这是一个结合了GPT-4o视觉功能的模型
GUICrafter:弱监督GUI智能体,利用海量未标注截图
GUICrafter提出了一种弱监督GUI智能体,利用海量未标注截图和两阶段课程学习框架,减少对昂贵人工标注的依赖,仅用UI-TARS系统0.1%的数据即达到了与之竞争的性能。
保障计算机使用代理的安全:面向部署落地可靠性的统一架构-生命周期框架
这篇学术论文提出了一种统一的架构-生命周期框架,旨在保障计算机使用代理(CUA)在从基准测试向真实软件环境过渡过程中的安全性。文章分析了感知层、决策层和执行层以及创建、部署、运行和维护等各个阶段中面临的可靠性挑战。
CUA-Gym: 为计算机使用代理扩展可验证的训练环境与任务
CUA-Gym 引入了一个可扩展的流水线,用于为计算机使用代理生成可验证的训练环境和任务,从而解决数据稀缺问题。由此产生的数据集和模型在OSWorld-Verified和WebArena等基准测试上取得了强劲的性能。