Terminal-World: 通过智能体技能扩展终端代理环境

arXiv cs.CL 2026/05/21 04:00 论文

terminal-agents large-language-models agent-skills data-synthesis command-line training-data benchmark

摘要

Terminal-World 引入了一个全自动流水线，利用智能体技能为终端代理合成高质量的训练数据，使得模型仅使用 1.2% 的训练数据就能超越基线。该方法从技能原语中共同推导出任务指令、环境和教师轨迹。

arXiv:2605.20876v1 Announce Type: new 摘要：终端代理扩展了大语言模型，使其能够直接在命令行环境中执行任务，但其进展受限于高质量训练数据的稀缺。现有方法从部分来源（如人工定义的种子或 GitHub 仓库）引导生成一个组件，然后补全其余部分，这产生了局限于狭窄种子分布的任务、与任务语义不匹配的环境以及无引导探索产生的低效轨迹。为了解决这些限制，我们引入了 Terminal-World，一个全自动流水线，使用智能体技能作为核心合成原语，这些技能共同编码了要完成什么、何时应用（前置条件和环境状态）以及如何执行，从而能够共同推导出任务指令、环境和教师轨迹。为了进一步拓宽合成空间，Terminal-World 将技能组合成技能团队和技能图，用于多角色和跨域任务合成。利用该流水线，我们构建了 5,723 个训练环境，并训练了 Terminal-World-8B/14B/32B，在 6 个基准上评估，Terminal-World 系列持续优于终端代理基线。值得注意的是，使用相同的教师模型且仅使用 1.2% 的训练数据，Terminal-World-32B 在 Terminal-Bench 2.0 上以 +4.5 Pass@1（31.5）超越 Nemotron-Terminal-32B，并达到 43.8 Pass@3。

查看原文

查看缓存全文

缓存时间: 2026/05/21 06:35

# Terminal-World: 通过智能体技能扩展终端智能体环境 来源：https://arxiv.org/html/2605.20876 Zihao Cheng¹，\*Hongru Wang²，\*Zeming Liu¹，†\\daggerXinyi Wang² Xiangrong Zhu² Yuhang Guo³ Wei Lin² Jeff Z． Pan⁴Yunhong Wang¹ ¹北京航空航天大学计算机科学与工程学院 ²独立研究者 ³北京理工大学 ⁴爱丁堡大学 \*共同第一作者 †\\dagger通讯作者 邮箱：\{zihaocheng, zmliu\}@buaa．edu．cn ###### 摘要 终端智能体通过将大语言模型扩展至命令行环境直接执行任务，但其进展受限于高质量训练数据的稀缺性。现有方法从部分来源（如人工定义的种子或GitHub仓库）引导，先实例化数据的一个组件，再完成其余部分，由此产生的任务局限于狭窄的种子分布、环境与任务语义错位，以及来自无引导探索的低效轨迹。为应对这些限制，我们提出Terminal-World，一个全自动流水线，以智能体技能为核心合成原语，该原语联合编码了任务完成目标、执行时机（前提条件与环境状态）以及执行方式，使得任务指令、环境和教师轨迹能够协同派生。为进一步扩展合成空间，Terminal-World将技能组合成技能团队和技能图，用于多角色和跨域任务合成。利用该流水线，我们构建了5,723个训练环境，并训练了Terminal-World-8B/14B/32B模型系列。在6个基准测试上的评估结果显示，Terminal-World系列持续优于现有终端智能体基线。值得注意的是，在相同教师模型和仅1.2%训练数据的情况下，Terminal-World-32B在Terminal-Bench 2.0上以+4.5 Pass@1（31.5）超越Nemotron-Terminal-32B，并达到43.8 Pass@3。详见说明图1：Terminal-World概览（左）与智能体性能（右）。Terminal-World以智能体技能作为终端智能体数据构建的合成原语。每个技能编码了智能体应完成的任务、技能应用的时机以及任务的执行方式。通过解码这三个方面，Terminal-World以自上而下的方式统一合成任务指令、环境和轨迹。在数据量仅为Nemotron-Terminal的1/85的情况下，Terminal-World在Terminal-Bench 2.0上实现了4.5%的绝对提升。## 1 引言 基于LLM的智能体正从预定义的API调用（Patil 等，2024 (https://arxiv.org/html/2605.20876#bib.bib6)；Liu 等，2024 (https://arxiv.org/html/2605.20876#bib.bib8)，https://arxiv.org/html/2605.20876#bib.bib15；Jin 等，2024 (https://arxiv.org/html/2605.20876#bib.bib7)；Prabhakar 等，2025 (https://arxiv.org/html/2605.20876#bib.bib19)；Yang 等，2025b (https://arxiv.org/html/2605.20876#bib.bib16)；Li 等，2025 (https://arxiv.org/html/2605.20876#bib.bib17)；Dong 等，2026 (https://arxiv.org/html/2605.20876#bib.bib41)）转向直接操作终端。诸如Claude Code（Anthropic，2025 (https://arxiv.org/html/2605.20876#bib.bib1)）和Codex（OpenAI，2025 (https://arxiv.org/html/2605.20876#bib.bib2)）等系统在实际执行环境中发出shell命令，用组合式的动作空间替代了固定的工具架构，从而提供了更强大的通用性（Meng 等，2026 (https://arxiv.org/html/2605.20876#bib.bib33)；Bui，2026 (https://arxiv.org/html/2605.20876#bib.bib34)）和自主性（Wang 等，2025a (https://arxiv.org/html/2605.20876#bib.bib51)）。尽管潜力巨大，终端智能体的进展从根本上受限于高质量训练数据的稀缺性。与基于API的智能体（只需选择和参数化预定义工具，Qu 等，2025 (https://arxiv.org/html/2605.20876#bib.bib50)）不同，终端智能体在真实的文件系统和运行时环境中运行（Merrill 等，2026 (https://arxiv.org/html/2605.20876#bib.bib27)；Gandhi 等，2026 (https://arxiv.org/html/2605.20876#bib.bib25)）。每个训练示例需联合指定任务指令、一个包含初始文件、依赖项和系统配置的可执行环境，以及一条高质量的多轮轨迹。这些组件之间的紧密耦合使得人工策划此类数据成本高昂且难以扩展，从而激发了越来越多关于自动终端智能体数据合成的探索工作。现有方法通过从部分来源（如人工定义的种子数据，即手动指定的关键词或简短描述符）（Gandhi 等，2026 (https://arxiv.org/html/2605.20876#bib.bib25)；Zhu 等，2026 (https://arxiv.org/html/2605.20876#bib.bib23)；Pi 等，2026 (https://arxiv.org/html/2605.20876#bib.bib24)）或GitHub仓库（Wu 等，2026 (https://arxiv.org/html/2605.20876#bib.bib32)）开始，实例化数据的一个组件，然后依赖LLM完成其余部分。尽管这种范式能够合成终端智能体数据，但仍存在三个关键限制：(1) 任务有限：任务直接来自人工定义的种子或仓库，导致分布受限，无法捕捉真实世界任务的多样性和复杂性；(2) 环境错位：任务语义和执行环境并非从一开始就联合指定，因此环境是围绕任务事后改造的，产生脆弱或与预期任务只有松散对齐的配置；(3) 轨迹低效：缺乏显式的程序化指导，教师模型通常依赖自主探索来解决每个沙箱，产生带有冗余探索、次优解决方案路径和严重依赖教师内在终端解决能力的轨迹。我们的关键观察是，开源生态系统中已经存在一种用于终端智能体数据的天然合成原语：智能体技能（Xia 等，2026 (https://arxiv.org/html/2605.20876#bib.bib39)；Lu 等，2026 (https://arxiv.org/html/2605.20876#bib.bib40)），例如ClawHub（ClawHub，2026 (https://arxiv.org/html/2605.20876#bib.bib44)）和SkillMP（SkillsMP，2026 (https://arxiv.org/html/2605.20876#bib.bib43)）中收集的那些。这些由人工撰写的指导包封装了从真实实践中提炼的终端工作流。如图1（左）所示，每个技能联合编码了一个端到端终端任务的三个方面：1) 应完成什么，2) 技能应何时应用（即执行所需的前提条件、输入和环境状态），以及3) 应如何执行。因此，智能体技能构成了任务语义、环境约束和执行程序的预对齐规范，直接解决了上述三个限制。基于这一原语，我们提出了Terminal-World，一个全自动流水线，编排多智能体架构，将每个智能体技能实例化为统一的任务指令-可执行环境-教师轨迹三元组。为进一步扩展合成空间，Terminal-World将单个技能扩展为智能体技能团队和智能体技能图，从而实现更复杂的多角色和跨域任务合成。为拓宽每个技能的使用场景，Terminal-World将技能与用户画像（Chan 等，2024 (https://arxiv.org/html/2605.20876#bib.bib4)）配对，使得相同底层能力能够跨越不同用户背景、目标和偏好实例化。利用Terminal-World，我们构建了5,723个高保真终端智能体训练环境，并以平均仅0.17美元的成本使用DeepSeek-V3.2收集了教师轨迹，展示了自动构建框架的高效性。我们进一步训练了一系列模型：Terminal-World-8B/14B/32B。在6个基准测试上，Terminal-World系列在可比模型规模下持续优于现有终端智能体基线。值得注意的是，在相同教师模型和仅1.2%训练数据的情况下，Terminal-World-32B在Terminal-Bench 2.0上以+4.5 Pass@1（31.5）超越Nemotron-Terminal-32B（Pi 等，2026 (https://arxiv.org/html/2605.20876#bib.bib24)），并达到43.8 Pass@3。它还表现出更高效的任务执行行为（第5.1节），需要更少的步骤和命令，同时保持更低的命令失败率。这些结果表明，我们的流水线能够以低成本产生多样化、高质量的终端环境和有效的轨迹。总体而言，我们的贡献总结如下： - •我们提出了Terminal-World，一个全自动合成流水线，以智能体技能为核心合成原语，联合驱动任务指令合成、环境构建和教师轨迹收集。 - •利用Terminal-World，我们构建了5,723个高保真终端智能体训练环境，每个环境配有一条技能引导的教师轨迹，并在该数据上训练了Terminal-World-8B/14B/32B模型系列。 - •在6个基准测试上的广泛实验表明，Terminal-World系列优于现有终端智能体基线。值得注意的是，在相同教师模型和仅1.2%训练数据的情况下，Terminal-World-32B在Terminal-Bench 2.0上以+4.5 Pass@1（31.5）超越Nemotron-Terminal-32B，并达到43.8 Pass@3。 ## 2 相关工作 表1：现有数据集比较。Align．表示任务语义和环境是否是联合设计的，而非事后适配。Open File Space表示环境是否支持任意文件类型。Exec．Verif．表示是否可以通过执行评估脚本来验证任务完成情况。沙箱：![[Uncaptioned image]](https://arxiv.org/html/2605.20876v1/figures/web.png)网页搜索，![[Uncaptioned image]](https://arxiv.org/html/2605.20876v1/figures/python.png)Python，![[Uncaptioned image]](https://arxiv.org/html/2605.20876v1/figures/sql.png)SQL引擎，以及![[Uncaptioned image]](https://arxiv.org/html/2605.20876v1/figures/bash.png)终端。工具空间对于预定义工具集是Fixed，对于可扩展工具空间是Open。教师来源表示轨迹是通过自求解生成，还是由额外的结构化指南引导生成。数据集 | 任务 | 环境 | 工具 | 轨迹 | 原语 | 人工 | 对齐 | 无预定义 | 真实世界 | 开放文件空间 | 可执行验证 | 沙箱 | 工具生成 | 工具空间 | 工具数 | 教师来源 | 轨迹数 Gorilla（Patil 等，2024） | API规范 | ✗ | – | ✗ | ✗ | ✗ | ✗ | – | ✗ | Fixed | 1,645 | 自求解 | 16,450 ToolBridge（Jin 等，2024） | API规范 | ✗ | – | ✗ | ✗ | ✗ | ✓ | ![[Uncaptioned image]](https://arxiv.org/html/2605.20876v1/figures/python.png) | ✗ | Fixed | ∞ | 自求解 | 178,023 APIGen（Liu 等，2024） | API规范 | ✓ | – | ✗ | ✓ | ✗ | ✓ | ![[Uncaptioned image]](https://arxiv.org/html/2605.20876v1/figures/python.png) | ✗ | Fixed | 3,673 | 自求解 | 60,000 WebExplorer（Liu 等，2025b） | 网页实体 | ✓ | – | ✓ | ✓ | ✗ | ✗ | ![[Uncaptioned image]](https://arxiv.org/html/2605.20876v1/figures/web.png) | ✗ | Fixed | 2 | 自求解 | 13,000 ProgSearch（Pandit 等，2025） | 网页实体 | ✓ | – | ✓ | ✓ | ✗ | ✗ | ![[Uncaptioned image]](https://arxiv.org/html/2605.20876v1/figures/web.png) + ![[Uncaptioned image]](https://arxiv.org/html/2605.20876v1/figures/python.png) | ✓ | Fixed | 3 | 引导 | 5,500 Aseacher（Gao 等，） | 网页实体 | ✗ | – | ✗ | ✓ | ✗ | ✗ | ![[Uncaptioned image]](https://arxiv.org/html/2605.20876v1/figures/web.png) | ✗ | Fixed | 2 | 自求解 | 35,000 ToolACE（Liu 等，） | API规范 | ✗ | – | ✗ | ✗ | ✗ | ✗ | – | ✗ | Fixed | 26,507 | 引导 | 11,300 ToolMind（Yang 等，2025b） | API规范 | ✓ | – | ✗ | ✗ | ✗ | ✗ | – | ✗ | Fixed | 20,000 | 引导 | 111,941 InfTool（Li 等，2025） | API规范 | ✓ | – | ✗ | ✗ | ✗ | ✗ | – | ✗ | Fixed | 3,059 | 自求解 | 4,965 DataMind（Qiao 等，2025） | 数据文件 | ✔ | ✗ | ✓ | ✓ | ✓ | ✗ | ✓ | ![[Uncaptioned image]](https://arxiv.org/html/2605.20876v1/figures/python.png) + ![[Uncaptioned image]](https://arxiv.org/html/2605.20876v1/figures/sql.png) | ✓ | Open | ∞ | 引导 | 11,707 APIGen-MT（Prabhakar 等，2025） | API规范 | ✓ | – | ✗ | ✗ | ✗ | ✓ | – | ✗ | Fixed | 28 | 引导 | 5,000 TaskCraft（Shi 等，2025） | 种子 | ✗ | ✓ | ✗ | ✗ | ✗ | ✗ | ![[Uncaptioned image]](https://arxiv.org/html/2605.20876v1/figures/python.png) | ✗ | Open | ∞ | 引导 | 36,000 GEM（Xu 等，2026） | 原始文本 | ✓ | ✓ | ✓ | ✗ | ✗ | ✗ | – | ✗ | Open | ∞ | 引导 | 10,000 Endless Terminal（Gandhi 等，2026） | 种子 | ✗ | ✗ | ✓ | ✓ | ✔ | ✗ | ✓ | ![[Uncaptioned image]](https://arxiv.org/html/2605.20876v1/figures/bash.png) | ✓ | Open | 420 | – | – TermiGen（Zhu 等，2026） | 种子 | ✗ | ✗ | ✓ | ✓ | ✔ | ✗ | ✓ | ![[Uncaptioned image]](https://arxiv.org/html/2605.20876v1/figures/bash.png) | ✓ | Open | 420 | 引导 | 3,291 Nemotron-Terminal（Pi 等，2026） | 种子 | ✗ | ✗ | ✓ | ✓ | ✔ | ✗ | ✓ | ![[Uncaptioned image]](https://arxiv.org/html/2605.20876v1/figures/bash.png) | ✓ | Open | ∞ | 自求解 | 490,520 Terminal-World（我们的） | 智能体技能 | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ![[Uncaptioned image]](https://arxiv.org/html/2605.20876v1/figures/bash.png) | ✓ | Open | ∞ | 引导 | 5,723 #### 工具使用智能体 基于LLM的智能体通过工具使用与外部世界交互，使其能够在参数化知识范围之外执行动作（Qu 等，2025 (https://arxiv.org/html/2605.20876#bib.bib50)）。为增强这一能力，早期工作合成了用于API选择和参数填充的训练数据（Patil 等，2024 (https://arxiv.org/html/2605.20876#bib.bib6)；Liu 等，2024 (https://arxiv.org/html/2605.20876#bib.bib8)）。后续工作扩展了API和工具覆盖范围（Jin 等，2024 (https://arxiv.org/html/2605.20876#bib.bib7)；Liu 等， (https://arxiv.org/html/2605.20876#bib.bib15)），增加了工具使用的交互轮数和编排复杂度（Yang 等，2025b (https://arxiv.org/html/2605.20876#bib.bib16)；Prabhakar 等，2025 (https://arxiv.org/html/2605.20876#bib.bib19)；Li 等，2025 (https://arxiv.org/html/2605.20876#bib.bib17)），并通过从原始文本中挖掘潜在的工具使用模式来拓宽工作流来源（Xu 等，2026 (https://arxiv.org/html/2605.20876#bib.bib22)）。另一条并行的工作流研究网页搜索智能体，并在网页内容上合成搜索轨迹（Zhang 等，2025 (https://arxiv.org/html/2605.20876#bib.bib9)；Tao 等，2025 (https://arxiv.org/html/2605.20876#bib.bib10)；Liu 等，2025b (https://arxiv.org/html/2605.20876#bib.bib11)；Sun 等，2025 (https://arxiv.org/html/2605.20876#bib.bib12)；Pandit 等，2025 (https://arxiv.org/html/2605.20876#bib.bib13)；Gao 等， (https://arxiv.org/html/2605.20876#bib.bib14)；Wang 等，2025b (https://arxiv.org/html/2605.20876#bib.bib21)）。尽管取得了这些进展，这些数据集通常操作于预定义的工具集，导致动作空间封闭，无法完全捕捉真实世界任务的开放性和组合性。相比之下，Terminal-World将智能体锚定在Bash终端中，其动作空间不再受预定义工具集的限制，而是跨越真实执行环境中可组合系统命令的完整谱系。 #### 基于终端的智能体 基于CLI的编码智能体（如Codex（OpenAI，2025 (https://arxiv.org/html/2605.20876#bib.bib2)）和Claude Code（Anthropic，2025 (https://arxiv.org/html/2605.20876#bib.bib1)））的兴起，将智能体交互转向终端环境的直接操作，这激发了近期合成终端智能体训练数据的努力。Endless Terminal（Gandhi

Terminal-World: 通过智能体技能扩展终端代理环境

相似文章

LiteCoder-Terminal：扩展用于学习语言智能体的长程终端环境

基于Docker化环境的大规模终端智能体轨迹生成

是什么使交互轨迹对训练终端智能体有效？

CLI-Universe：面向终端代理的可验证任务合成引擎

将本地代理转变为自我优化代理

提交意见反馈