CLI-Universe:面向终端代理的可验证任务合成引擎
摘要
CLI-Universe是一个合成引擎,通过多维能力分类体系和证据引导的研究生成可验证的终端代理任务,并产生包含6000条轨迹的精炼数据集。在该数据集上微调Qwen3-32B,在Terminal-Bench 2.0上达到了33.4%,为参数量在32B及以下的开源模型树立了新的最优水平。
查看缓存全文
缓存时间: 2026/06/23 05:40
论文页面 - CLI-Universe:面向终端智能体的可验证任务合成引擎
来源:https://huggingface.co/papers/2606.22883 作者:
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
摘要
一种原则性的合成引擎通过多维能力分类法和证据引导的研究,生成高质量的终端智能体任务,并创建出精炼的数据集,从而在LLM训练中带来显著的性能提升。
尽管近期基于LLM的终端智能体(https://huggingface.co/papers?q=LLM-based%20terminal%20agents)已展现出令人期待的能力,但高质量、可执行训练数据(https://huggingface.co/papers?q=executable%20training%20data)的稀缺仍是关键瓶颈。现有的合成流程通常通过将表层工件改造为任务来进行规模扩展,往往产生模糊的指令、浅层的执行路径以及脆弱的测试,导致学习信号薄弱。为解决这一问题,我们引入CLI-Universe,一种构建终端智能体任务的原则性合成引擎(https://huggingface.co/papers?q=synthesis%20engine)。CLI-Universe通过在多维能力分类法(https://huggingface.co/papers?q=capability%20taxonomy)(领域、技能类型、能力与工程支柱)上进行组合采样生成候选任务,然后通过证据引导的深度研究(https://huggingface.co/papers?q=evidence-guided%20deep%20research)对真实世界技术材料进行验证。为确保严格的监督,经过验证的蓝图会被实例化为Docker化环境(https://huggingface.co/papers?q=Dockerized%20environments),并接受多阶段可执行验证流程(https://huggingface.co/papers?q=executable%20verification%20pipeline),该流程包含基于评分标准的测试构建(https://huggingface.co/papers?q=rubric-gated%20test%20construction)、提示条件过滤和严格的失败-通过检查(https://huggingface.co/papers?q=fail-to-pass%20checking)。在整个流程中,从候选生成到验证,大约三分之二的候选任务被丢弃,仅保留那些真实、可验证且具有一定挑战性的任务。为验证我们的框架,我们实例化了一个高度精炼的数据集,包含6,000条轨迹,称为CLI-Universe-6K(https://huggingface.co/papers?q=CLI-Universe-6K)。值得注意的是,在CLI-Universe-6K(https://huggingface.co/papers?q=CLI-Universe-6K)上微调Qwen3-32B(https://huggingface.co/papers?q=Qwen3-32B)在Terminal-Bench 2.0(https://huggingface.co/papers?q=Terminal-Bench%202.0)上达到了33.4%的成绩。这为使用32B或以下参数、基于开源数据训练的模型树立了新的最佳水平,并且超越了多个规模大一个数量级的模型,展示了结构化、高保真合成的深度数据效率。
查看arXiv页面(https://arxiv.org/abs/2606.22883)查看PDF(https://arxiv.org/pdf/2606.22883)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.22883)
在您的智能体中获取此论文:
hf papers read 2606.22883
没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
尚无模型链接到此论文
请在模型README.md中引用arxiv.org/abs/2606.22883以在此页面关联它。
引用此论文的数据集0
尚无数据集链接到此论文
请在数据集README.md中引用arxiv.org/abs/2606.22883以在此页面关联它。
引用此论文的Spaces0
尚无Space链接到此论文
请在Space README.md中引用arxiv.org/abs/2606.22883以在此页面关联它。
包含此论文的收藏集0
尚无收藏集包含此论文
请将此论文添加到一个收藏集(https://huggingface.co/new-collection)以在此页面关联它。
相似文章
Terminal-World: 通过智能体技能扩展终端代理环境
Terminal-World 引入了一个全自动流水线,利用智能体技能为终端代理合成高质量的训练数据,使得模型仅使用 1.2% 的训练数据就能超越基线。该方法从技能原语中共同推导出任务指令、环境和教师轨迹。
LiteCoder-Terminal:扩展用于学习语言智能体的长程终端环境
LiteCoder-Terminal-Gen 引入了一种零依赖的合成管道,可生成可执行的终端训练环境,并产出 SFT 和 RL 数据集,使语言智能体在 Terminal Bench 基准测试上取得显著的性能提升。
WildClawBench:真实世界长周期智能体评估基准
WildClawBench 使用真实的命令行界面环境和实际工具,评估语言和视觉-语言模型在现实长周期任务上的表现。该基准测试显示,即使最佳模型也仅达到62.2%的准确率,表明长周期智能体评估仍具有挑战性。
覆盖计算机使用的人类动作空间:数据合成与基准测试
本文介绍了CUActSpot,一个用于评估计算机使用代理的多模态基准测试,以及一个基于渲染器的数据合成流程。提出的Phi-Ground-Any-4B模型在32B参数以下的开源模型中表现最佳。
TOBench:面向真实世界工具使用智能体的任务导向全模态基准
TOBench是一个新的基准测试,用于评估AI智能体在真实世界、任务导向的工具使用中的表现,涉及多模态输入和闭环验证。实验表明,像Qwen 3.5 Plus这样的顶级模型仅达到41%的成功率,远低于94%的人类基准,凸显了显著的差距。