ProCUA-SFT 技术报告

Hugging Face Daily Papers 论文

摘要

ProCUA-SFT 是一个大规模合成数据集,包含 310 万个步骤级别的 SFT 样本,用于训练计算机使用代理。该数据集通过使用单一 VLM(Kimi-K2.5)的自动化流程生成。在其上微调 UI-TARS 7B 在 OSWorld 上达到 45.0%,比基础模型提高了 18.7 个百分点。

训练计算机使用代理(CUA)——通过屏幕截图和键盘/鼠标操作与图形桌面交互的模型——需要在完整的桌面环境中收集大规模、多样化的轨迹数据。最大的公开资源 AgentNet(22.5K 条人类轨迹)在被用于监督微调(SFT)时会导致负迁移:继续在 AgentNet 上训练 UI-TARS 7B 会导致 OSWorld 成功率从 26.3% 下降到 8-10%。我们提出了 ProCUA-SFT,这是一个包含 310 万个步骤级别 SFT 样本的数据集,这些样本从 2,484 个应用组合中的 93K 条合成轨迹中蒸馏而来。该数据集通过全自动化流程生成,该流程(i)在注入真实世界内容的实时桌面上合成接地任务——包含来自 SpreadsheetBench 的 912 个电子表格、来自 Zenodo10K 的约 10K 个宽松许可的演示文稿,以及多应用 OSWorld 配置——以及(ii)在部署前通过二元前提条件检查验证每个任务的可行性。一个单一的 VLM(Kimi-K2.5)充当目标生成器、前提条件判断器和轨迹执行器,消除了规划器与执行器之间的能力差距。每条轨迹被扩展为步骤前缀样本,精确复现推理时看到的上下文布局。在 ProCUA-SFT 上微调 UI-TARS 7B 一个 epoch 后,在 OSWorld 上达到 45.0%——比基础模型提高了 18.7 个百分点,比经过 AgentNet 训练的对应模型高出 35% 以上。ProCUA 的一个子集被纳入 Nemotron 3 Nano Omni 模型的训练数据中,为其计算机使用能力做出了贡献。
查看原文
查看缓存全文

缓存时间: 2026/06/17 03:35

论文页面 - ProCUA-SFT 技术报告

来源:https://huggingface.co/papers/2606.17321
作者:
,
,
,
,
,
,
,
,
,
,
,

摘要

利用大规模合成数据集,通过自动化任务生成与验证来训练计算机操作代理,可在桌面交互基准测试中实现性能的显著提升。

训练计算机操作代理(CUAs)——通过截图和键盘/鼠标操作与图形桌面交互的模型——需要在大规模、多样化的完整桌面环境轨迹数据上进行。当前最大的公开资源 AgentNet(22.5K 条人类轨迹)在用于监督微调(SFT)时会导致负迁移:在 AgentNet 上继续训练 UI-TARS 7B 后,OSWorld 的成功率从 26.3% 降至 8-10%。我们提出了 ProCUA-SFT 数据集,其中包含 310 万个步骤级 SFT 样本,这些样本从 93K 条合成轨迹中蒸馏而来,覆盖 2,484 种应用组合。该数据集由全自动流水线生成,该流水线(i)在包含真实世界内容的实时桌面上合成有基础的任务——包括来自 SpreadsheetBench 的 912 个电子表格、来自 Zenodo10K 的约 10K 个宽松许可的演示文稿,以及多应用 OSWorld 配置——并且(ii)在推演之前通过二元前提条件检查来验证每个任务的可行性。单个 VLM(Kimi-K2.5)同时充当目标生成器、前提条件判断器和轨迹执行器,消除了规划器与执行器之间的能力差距。每条轨迹被扩展为步骤前缀样本,精确复现推理时看到的上下文布局。在 ProCUA-SFT 上对 UI-TARS 7B 进行一个 epoch 的微调后,OSWorld 上的成绩达到 45.0%——相比基础模型提升 18.7 个百分点,且比 AgentNet 训练的模型高出超过 35%。ProCUA 的一个子集已被纳入 Nemotron 3 Nano Omni 模型的训练数据中,为其计算机操作能力做出了贡献。

查看 arXiv 页面 (https://arxiv.org/abs/2606.17321) 查看 PDF (https://arxiv.org/pdf/2606.17321) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.17321)

在你的代理中获取这篇论文:

hf papers read 2606.17321

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2606.17321 即可从此页面链接。

引用此论文的数据集 0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.17321 即可从此页面链接。

引用此论文的 Space 0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2606.17321 即可从此页面链接。

包含此论文的集合 0

没有集合包含此论文

将这篇论文添加到集合 (https://huggingface.co/new-collection) 即可从此页面链接。

相似文章

CLI-Universe:面向终端代理的可验证任务合成引擎

Hugging Face Daily Papers

CLI-Universe是一个合成引擎,通过多维能力分类体系和证据引导的研究生成可验证的终端代理任务,并产生包含6000条轨迹的精炼数据集。在该数据集上微调Qwen3-32B,在Terminal-Bench 2.0上达到了33.4%,为参数量在32B及以下的开源模型树立了新的最优水平。