ProCUA-SFT 技术报告

Hugging Face Daily Papers 2026/06/15 00:00 论文

computer-use synthetic-data fine-tuning desktop-automation ui-agents vlm

摘要

ProCUA-SFT 是一个大规模合成数据集，包含 310 万个步骤级别的 SFT 样本，用于训练计算机使用代理。该数据集通过使用单一 VLM（Kimi-K2.5）的自动化流程生成。在其上微调 UI-TARS 7B 在 OSWorld 上达到 45.0%，比基础模型提高了 18.7 个百分点。

训练计算机使用代理（CUA）——通过屏幕截图和键盘/鼠标操作与图形桌面交互的模型——需要在完整的桌面环境中收集大规模、多样化的轨迹数据。最大的公开资源 AgentNet（22.5K 条人类轨迹）在被用于监督微调（SFT）时会导致负迁移：继续在 AgentNet 上训练 UI-TARS 7B 会导致 OSWorld 成功率从 26.3% 下降到 8-10%。我们提出了 ProCUA-SFT，这是一个包含 310 万个步骤级别 SFT 样本的数据集，这些样本从 2,484 个应用组合中的 93K 条合成轨迹中蒸馏而来。该数据集通过全自动化流程生成，该流程（i）在注入真实世界内容的实时桌面上合成接地任务——包含来自 SpreadsheetBench 的 912 个电子表格、来自 Zenodo10K 的约 10K 个宽松许可的演示文稿，以及多应用 OSWorld 配置——以及（ii）在部署前通过二元前提条件检查验证每个任务的可行性。一个单一的 VLM（Kimi-K2.5）充当目标生成器、前提条件判断器和轨迹执行器，消除了规划器与执行器之间的能力差距。每条轨迹被扩展为步骤前缀样本，精确复现推理时看到的上下文布局。在 ProCUA-SFT 上微调 UI-TARS 7B 一个 epoch 后，在 OSWorld 上达到 45.0%——比基础模型提高了 18.7 个百分点，比经过 AgentNet 训练的对应模型高出 35% 以上。ProCUA 的一个子集被纳入 Nemotron 3 Nano Omni 模型的训练数据中，为其计算机使用能力做出了贡献。

查看原文

查看缓存全文

缓存时间: 2026/06/17 03:35

论文页面 - ProCUA-SFT 技术报告

来源：https://huggingface.co/papers/2606.17321
作者：
,
,
,
,
,
,
,
,
,
,
,

摘要

利用大规模合成数据集，通过自动化任务生成与验证来训练计算机操作代理，可在桌面交互基准测试中实现性能的显著提升。

训练计算机操作代理（CUAs）——通过截图和键盘/鼠标操作与图形桌面交互的模型——需要在大规模、多样化的完整桌面环境轨迹数据上进行。当前最大的公开资源 AgentNet（22.5K 条人类轨迹）在用于监督微调（SFT）时会导致负迁移：在 AgentNet 上继续训练 UI-TARS 7B 后，OSWorld 的成功率从 26.3% 降至 8-10%。我们提出了 ProCUA-SFT 数据集，其中包含 310 万个步骤级 SFT 样本，这些样本从 93K 条合成轨迹中蒸馏而来，覆盖 2,484 种应用组合。该数据集由全自动流水线生成，该流水线（i）在包含真实世界内容的实时桌面上合成有基础的任务——包括来自 SpreadsheetBench 的 912 个电子表格、来自 Zenodo10K 的约 10K 个宽松许可的演示文稿，以及多应用 OSWorld 配置——并且（ii）在推演之前通过二元前提条件检查来验证每个任务的可行性。单个 VLM（Kimi-K2.5）同时充当目标生成器、前提条件判断器和轨迹执行器，消除了规划器与执行器之间的能力差距。每条轨迹被扩展为步骤前缀样本，精确复现推理时看到的上下文布局。在 ProCUA-SFT 上对 UI-TARS 7B 进行一个 epoch 的微调后，OSWorld 上的成绩达到 45.0%——相比基础模型提升 18.7 个百分点，且比 AgentNet 训练的模型高出超过 35%。ProCUA 的一个子集已被纳入 Nemotron 3 Nano Omni 模型的训练数据中，为其计算机操作能力做出了贡献。

查看 arXiv 页面 (https://arxiv.org/abs/2606.17321) 查看 PDF (https://arxiv.org/pdf/2606.17321) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.17321)

在你的代理中获取这篇论文：

hf papers read 2606.17321

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2606.17321 即可从此页面链接。

引用此论文的数据集 0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.17321 即可从此页面链接。

引用此论文的 Space 0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2606.17321 即可从此页面链接。

包含此论文的集合 0

没有集合包含此论文

将这篇论文添加到集合 (https://huggingface.co/new-collection) 即可从此页面链接。

ProCUA-SFT 技术报告

论文页面 - ProCUA-SFT 技术报告

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Space 0

包含此论文的集合 0

相似文章

@cjzafir: 今天微调你的第一个AI模型。运行GPT4o级别的模型，并在你的手机或笔记本电脑上运行。@OpenBMB发布了15M样本…

覆盖计算机使用的人类动作空间：数据合成与基准测试

@lhoestq: 未来是将代理轨迹转换为SFT数据集。为此有一个很棒的库：pip install teich

CLI-Universe：面向终端代理的可验证任务合成引擎

@AdinaYakup: OpenBMB 刚刚发布了一个令人印象深刻的有监督微调数据集 UltraData-SFT-2605，包含 1500 万以上高质量样本，覆盖深度思考与非思考等类型……

提交意见反馈