CLI-Universe:面向终端代理的可验证任务合成引擎

Hugging Face Daily Papers 论文

摘要

CLI-Universe是一个合成引擎,通过多维能力分类体系和证据引导的研究生成可验证的终端代理任务,并产生包含6000条轨迹的精炼数据集。在该数据集上微调Qwen3-32B,在Terminal-Bench 2.0上达到了33.4%,为参数量在32B及以下的开源模型树立了新的最优水平。

虽然近期基于LLM的终端代理展示了有前景的能力,但高质量可执行训练数据的稀缺仍然是一个关键瓶颈。现有的合成流水线通常通过将表面层产物改造为任务来扩展,这常常导致模糊的指令、浅层的执行路径和脆弱的测试,从而提供弱学习信号。为了解决这个问题,我们引入了CLI-Universe,一个原则性的合成引擎,用于构建终端代理任务。CLI-Universe通过在多维能力分类体系(领域、技能类型、能力和工程支柱)中采样组合来生成候选任务,然后通过基于真实技术材料的证据引导深度研究来验证每个候选任务。为了确保严格的监督,验证后的蓝图被实例化到Docker化环境中,并经过多阶段可执行验证流水线,包括基于评分标准的测试构建、提示条件过滤和严格的失败到通过检查。在整个流水线中,从候选生成到验证,大约三分之二的候选任务被丢弃,只保留那些真实、可验证且具有非平凡挑战性的任务。为了验证我们的框架,我们实例化了一个高度精炼的包含6000条轨迹的数据集CLI-Universe-6K。值得注意的是,在CLI-Universe-6K上微调Qwen3-32B在Terminal-Bench 2.0上达到了33.4%。这为在开源数据上训练的参数量在32B及以下的模型树立了新的最优水平,并超过了几个大一个数量级的模型,展示了结构化、高保真合成的深刻数据效率。
查看原文
查看缓存全文

缓存时间: 2026/06/23 05:40

论文页面 - CLI-Universe:面向终端智能体的可验证任务合成引擎

来源:https://huggingface.co/papers/2606.22883 作者:

摘要

一种原则性的合成引擎通过多维能力分类法和证据引导的研究,生成高质量的终端智能体任务,并创建出精炼的数据集,从而在LLM训练中带来显著的性能提升。

尽管近期基于LLM的终端智能体(https://huggingface.co/papers?q=LLM-based%20terminal%20agents)已展现出令人期待的能力,但高质量、可执行训练数据(https://huggingface.co/papers?q=executable%20training%20data)的稀缺仍是关键瓶颈。现有的合成流程通常通过将表层工件改造为任务来进行规模扩展,往往产生模糊的指令、浅层的执行路径以及脆弱的测试,导致学习信号薄弱。为解决这一问题,我们引入CLI-Universe,一种构建终端智能体任务的原则性合成引擎(https://huggingface.co/papers?q=synthesis%20engine)。CLI-Universe通过在多维能力分类法(https://huggingface.co/papers?q=capability%20taxonomy)(领域、技能类型、能力与工程支柱)上进行组合采样生成候选任务,然后通过证据引导的深度研究(https://huggingface.co/papers?q=evidence-guided%20deep%20research)对真实世界技术材料进行验证。为确保严格的监督,经过验证的蓝图会被实例化为Docker化环境(https://huggingface.co/papers?q=Dockerized%20environments),并接受多阶段可执行验证流程(https://huggingface.co/papers?q=executable%20verification%20pipeline),该流程包含基于评分标准的测试构建(https://huggingface.co/papers?q=rubric-gated%20test%20construction)、提示条件过滤和严格的失败-通过检查(https://huggingface.co/papers?q=fail-to-pass%20checking)。在整个流程中,从候选生成到验证,大约三分之二的候选任务被丢弃,仅保留那些真实、可验证且具有一定挑战性的任务。为验证我们的框架,我们实例化了一个高度精炼的数据集,包含6,000条轨迹,称为CLI-Universe-6K(https://huggingface.co/papers?q=CLI-Universe-6K)。值得注意的是,在CLI-Universe-6K(https://huggingface.co/papers?q=CLI-Universe-6K)上微调Qwen3-32B(https://huggingface.co/papers?q=Qwen3-32B)在Terminal-Bench 2.0(https://huggingface.co/papers?q=Terminal-Bench%202.0)上达到了33.4%的成绩。这为使用32B或以下参数、基于开源数据训练的模型树立了新的最佳水平,并且超越了多个规模大一个数量级的模型,展示了结构化、高保真合成的深度数据效率。

查看arXiv页面(https://arxiv.org/abs/2606.22883)查看PDF(https://arxiv.org/pdf/2606.22883)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.22883)

在您的智能体中获取此论文:

hf papers read 2606.22883

没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

尚无模型链接到此论文

请在模型README.md中引用arxiv.org/abs/2606.22883以在此页面关联它。

引用此论文的数据集0

尚无数据集链接到此论文

请在数据集README.md中引用arxiv.org/abs/2606.22883以在此页面关联它。

引用此论文的Spaces0

尚无Space链接到此论文

请在Space README.md中引用arxiv.org/abs/2606.22883以在此页面关联它。

包含此论文的收藏集0

尚无收藏集包含此论文

请将此论文添加到一个收藏集(https://huggingface.co/new-collection)以在此页面关联它。

相似文章

Terminal-World: 通过智能体技能扩展终端代理环境

arXiv cs.CL

Terminal-World 引入了一个全自动流水线,利用智能体技能为终端代理合成高质量的训练数据,使得模型仅使用 1.2% 的训练数据就能超越基线。该方法从技能原语中共同推导出任务指令、环境和教师轨迹。

WildClawBench:真实世界长周期智能体评估基准

Hugging Face Daily Papers

WildClawBench 使用真实的命令行界面环境和实际工具,评估语言和视觉-语言模型在现实长周期任务上的表现。该基准测试显示,即使最佳模型也仅达到62.2%的准确率,表明长周期智能体评估仍具有挑战性。