ToolCUA:迈向计算机使用代理的 GUI-工具路径编排优化

Hugging Face Daily Papers 论文

摘要

ToolCUA 是一个全新的代理框架,通过分阶段训练和强化学习,优化计算机使用代理的 GUI-工具路径选择。它通过在 GUI 操作和高级工具调用之间进行有效交替,在 OSWorld-MCP 上达到了最先进的性能。

计算机使用代理(Computer Use Agents, CUAs)既可以通过原子的 GUI 操作(如点击和键入)行动,也可以通过高级工具调用(如基于 API 的文件操作)行动,但这种混合动作空间往往使代理不确定是继续执行 GUI 操作还是切换到工具,从而导致次优的执行路径。这一难题源于高质量交织型 GUI-工具轨迹的稀缺性、收集真实工具轨迹的高成本与脆弱性,以及缺乏针对 GUI-工具路径选择的轨迹级监督。在本文中,我们提出了 ToolCUA,这是一种端到端的代理,旨在通过分阶段训练范式学习最优的 GUI-工具路径选择。我们首先引入了一种交织型 GUI-工具轨迹扩展管道,重新利用了丰富的静态 GUI 轨迹并合成了一个接地的工具库,从而无需人工工程或收集真实工具轨迹即可生成多样化的 GUI-工具轨迹。随后,我们执行了工具引导的 GUI RFT(Reinforcement Fine-Tuning),结合热身阶段的监督微调(SFT)和单轮强化学习(RL),以改进关键 GUI-工具切换点的决策。最后,我们在高保真的 GUI-工具环境中通过在线代理强化学习优化 ToolCUA,并采用一种工具高效路径奖励来鼓励适当的工具使用和更短的执行路径。在 OSWorld-MCP 上的实验表明,ToolCUA 的准确率达到 46.85%,相比基线模型相对提升了约 66%,在同等规模的模型中确立了新的最先进水平。它还比仅使用 GUI 的设置提升了 3.9%,证明了其有效的 GUI-工具编排能力。结果进一步表明,在混合动作空间中进行训练是面向现实世界数字代理的一种极具前景的范式。开源项目地址:https://x-plug.github.io/ToolCUA/
查看原文
查看缓存全文

缓存时间: 2026/05/13 08:12

论文页面 - ToolCUA:面向计算机使用代理的最优 GUI-工具路径编排

来源:https://huggingface.co/papers/2605.12481

摘要

ToolCUA 是一种端到端代理,通过分阶段训练学习最优的 GUI-工具路径选择,在混合动作空间环境中取得了卓越的性能。

计算机使用代理(Computer Use Agents,简称 CUAs)既可以通过点击和输入等原子级 GUI 动作(GUI actions)进行操作,也可以进行基于 API 的文件操作等高层工具调用(tool calls)。然而,这种混合动作空间(hybrid action space)往往使它们难以判断何时继续执行 GUI 动作,何时切换到工具调用,从而导致执行路径次优。这一困难源于高质量交错式 GUI-工具轨迹(interleaved GUI-Tool trajectories)的稀缺性、收集真实工具轨迹的高昂成本和脆弱性,以及缺乏针对 GUI-工具路径选择的轨迹级监督。在本文中,我们提出了 ToolCUA,这是一种端到端代理,旨在通过分阶段训练范式(staged training paradigm)学习最优的 GUI-工具路径选择。我们首先介绍了一种交错式 GUI-工具轨迹扩展流水线(Interleaved GUI-Tool Trajectory Scaling Pipeline),它利用丰富的静态 GUI 轨迹并合成一个接地化的工具库(tool library),从而无需人工工程或真实工具轨迹收集即可生成多样化的 GUI-工具轨迹。随后,我们执行基于工具引导的 GUI 强化微调(Tool-Bootstrapped GUI RFT),结合预热监督微调(SFT)与单轮强化学习(RL),以改进关键 GUI-工具切换点的决策。最后,我们在高保真 GUI-工具环境中通过在线智能体强化学习(Online Agentic RL)优化 ToolCUA,并采用工具高效路径奖励(Tool-Efficient Path Reward)作为引导,以鼓励恰当的工具使用和更短的执行路径。在 OSWorld-MCP 上的实验表明,ToolCUA 达到了 46.85% 的准确率,相比基线模型相对提升了约 66%,在同等规模模型中确立了新的最先进水平(SOTA)。它还比仅使用 GUI 的设置提升了 3.9%,展示了有效的 GUI-工具编排能力。结果进一步表明,在混合动作空间中进行训练是现实世界数字代理的一个有前景的范式。开源地址:https://x-plug.github.io/ToolCUA/

查看 arXiv 页面 (https://arxiv.org/abs/2605.12481) 查看 PDF (https://arxiv.org/pdf/2605.12481) 项目页面 (https://x-plug.github.io/ToolCUA/) GitHub (https://github.com/X-PLUG/ToolCUA) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.12481)

在您的代理中获取此论文:

hf papers read 2605.12481

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 1

mPLUG/ToolCUA-8B 图像-文本到文本 • 9B • 约 3 小时前更新 • 78 (https://huggingface.co/mPLUG/ToolCUA-8B)

引用此论文的数据集 0

没有链接此论文的数据集

在数据集的 README.md 中引用 arxiv.org/abs/2605.12481 即可从本页建立链接。

引用此论文的 Spaces 0

没有链接此论文的 Space

在 Space 的 README.md 中引用 arxiv.org/abs/2605.12481 即可从本页建立链接。

包含此论文的收藏 0

没有包含此论文的收藏

将本论文添加到收藏集 (https://huggingface.co/new-collection) 即可从本页建立链接。

相似文章

PRO-CUA:面向计算机使用代理的过程奖励优化

arXiv cs.AI

本文介绍了PRO-CUA,一种使用迭代步骤级强化学习训练计算机使用代理(CUA)的过程奖励优化框架。该方法将同策略环境交互与策略优化解耦,实现了密集的信用分配,无需依赖专家轨迹,并在实时网络基准测试中展示了有效性。

计算机使用代理

OpenAI Blog

# 计算机使用代理 来源: [https://openai.com/index/computer-using-agent/](https://openai.com/index/computer-using-agent/) 通过计算机使用代理(Computer-Using Agent)为Operator提供支持,这是AI与数字世界交互的通用接口。今天我们推出了[Operator⁠\(在新窗口中打开\)](https://operator.chatgpt.com/)的研究预览版,这是一个能够在网络上为你执行任务的代理。Operator由计算机使用代理(CUA)驱动,这是一个结合了GPT-4o视觉功能的模型

CUA-Gym: 为计算机使用代理扩展可验证的训练环境与任务

Hugging Face Daily Papers

CUA-Gym 引入了一个可扩展的流水线,用于为计算机使用代理生成可验证的训练环境和任务,从而解决数据稀缺问题。由此产生的数据集和模型在OSWorld-Verified和WebArena等基准测试上取得了强劲的性能。