ProCUA-SFT 技术报告
摘要
ProCUA-SFT 是一个大规模合成数据集,包含 310 万个步骤级别的 SFT 样本,用于训练计算机使用代理。该数据集通过使用单一 VLM(Kimi-K2.5)的自动化流程生成。在其上微调 UI-TARS 7B 在 OSWorld 上达到 45.0%,比基础模型提高了 18.7 个百分点。
查看缓存全文
缓存时间: 2026/06/17 03:35
论文页面 - ProCUA-SFT 技术报告
来源:https://huggingface.co/papers/2606.17321
作者:
,
,
,
,
,
,
,
,
,
,
,
摘要
利用大规模合成数据集,通过自动化任务生成与验证来训练计算机操作代理,可在桌面交互基准测试中实现性能的显著提升。
训练计算机操作代理(CUAs)——通过截图和键盘/鼠标操作与图形桌面交互的模型——需要在大规模、多样化的完整桌面环境轨迹数据上进行。当前最大的公开资源 AgentNet(22.5K 条人类轨迹)在用于监督微调(SFT)时会导致负迁移:在 AgentNet 上继续训练 UI-TARS 7B 后,OSWorld 的成功率从 26.3% 降至 8-10%。我们提出了 ProCUA-SFT 数据集,其中包含 310 万个步骤级 SFT 样本,这些样本从 93K 条合成轨迹中蒸馏而来,覆盖 2,484 种应用组合。该数据集由全自动流水线生成,该流水线(i)在包含真实世界内容的实时桌面上合成有基础的任务——包括来自 SpreadsheetBench 的 912 个电子表格、来自 Zenodo10K 的约 10K 个宽松许可的演示文稿,以及多应用 OSWorld 配置——并且(ii)在推演之前通过二元前提条件检查来验证每个任务的可行性。单个 VLM(Kimi-K2.5)同时充当目标生成器、前提条件判断器和轨迹执行器,消除了规划器与执行器之间的能力差距。每条轨迹被扩展为步骤前缀样本,精确复现推理时看到的上下文布局。在 ProCUA-SFT 上对 UI-TARS 7B 进行一个 epoch 的微调后,OSWorld 上的成绩达到 45.0%——相比基础模型提升 18.7 个百分点,且比 AgentNet 训练的模型高出超过 35%。ProCUA 的一个子集已被纳入 Nemotron 3 Nano Omni 模型的训练数据中,为其计算机操作能力做出了贡献。
查看 arXiv 页面 (https://arxiv.org/abs/2606.17321) 查看 PDF (https://arxiv.org/pdf/2606.17321) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.17321)
在你的代理中获取这篇论文:
hf papers read 2606.17321
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2606.17321 即可从此页面链接。
引用此论文的数据集 0
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.17321 即可从此页面链接。
引用此论文的 Space 0
没有 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2606.17321 即可从此页面链接。
包含此论文的集合 0
没有集合包含此论文
将这篇论文添加到集合 (https://huggingface.co/new-collection) 即可从此页面链接。
相似文章
@cjzafir: 今天微调你的第一个AI模型。运行GPT4o级别的模型,并在你的手机或笔记本电脑上运行。@OpenBMB发布了15M样本…
OpenBMB发布了UltraData-SFT-2605,一个包含1500万样本的高质量SFT数据集,用于微调如MiniCPM5-1B等AI模型,使其能在手机或笔记本电脑上运行。
覆盖计算机使用的人类动作空间:数据合成与基准测试
本文介绍了CUActSpot,一个用于评估计算机使用代理的多模态基准测试,以及一个基于渲染器的数据合成流程。提出的Phi-Ground-Any-4B模型在32B参数以下的开源模型中表现最佳。
@lhoestq: 未来是将代理轨迹转换为SFT数据集。为此有一个很棒的库:pip install teich
一个名为teich的库可以将代理轨迹转换为有监督微调(SFT)数据集,简化了AI训练的数据集准备。
CLI-Universe:面向终端代理的可验证任务合成引擎
CLI-Universe是一个合成引擎,通过多维能力分类体系和证据引导的研究生成可验证的终端代理任务,并产生包含6000条轨迹的精炼数据集。在该数据集上微调Qwen3-32B,在Terminal-Bench 2.0上达到了33.4%,为参数量在32B及以下的开源模型树立了新的最优水平。
@AdinaYakup: OpenBMB 刚刚发布了一个令人印象深刻的有监督微调数据集 UltraData-SFT-2605,包含 1500 万以上高质量样本,覆盖深度思考与非思考等类型……
OpenBMB 发布了 UltraData-SFT-2605,这是一个大规模数据集,包含超过 1500 万高质量样本,用于推理型大语言模型的监督微调(SFT),涵盖深度思考、非思考、数学、代码、知识、指令遵循和多语言数据。