是什么使交互轨迹对训练终端智能体有效？

arXiv cs.AI 2026/06/03 04:00 论文

摘要

本文研究了什么使交互轨迹对训练基于终端的AI智能体有效，介绍了Terminal-Lego流程，并揭示了一个教学悖论：较弱的智能体可以产生更好的训练数据。研究发现，环境基础监督（而非教师性能）是学生泛化能力的关键。

arXiv:2606.03461v1 Announce Type: new 摘要：通常认为更强的代码智能体是后训练中更优的教师，然而这一假设尚未与任务难度、约束设计和学生能力进行清晰分离。我们利用Terminal-Lego——一个可扩展的流程，将多领域现实问题转化为环境可验证的智能体任务——来研究这一教学联系。令人惊讶的是，独立性能并不能决定教学效果：尽管Claude Opus 4.6在Terminal-Bench 2.0上取得更高分数，但基于较低评分智能体DeepSeek-V3.2的轨迹进行微调的学生，却表现出明显更强的泛化能力。我们将这一“教学悖论”归因于环境基础监督（EGS）：那些通过约束可见交互明确展示“观察-行动-验证”行为的轨迹，使学生能够内化稳健的问题解决流程，而非脆弱的动作序列。规模分析揭示了卓越的数据效率：例如，仅使用15.3k条Terminal-Lego轨迹，Qwen3-32B就在Terminal-Bench 2.0上达到了24.3%的分数，与之前使用超过30倍数据量取得的SOTA性能相当。我们的结果表明，智能体后训练的前沿已超越单纯的结果匹配，转向“约束工程”，即环境基础交互结构的系统设计，作为可复现、可泛化的智能体智能的主要催化剂。

查看原文

查看缓存全文

缓存时间: 2026/06/03 09:43

# 什么使交互轨迹对训练终端智能体有效？ 来源：https://arxiv.org/html/2606.03461 Sidi Yang1,Chaofan Tao2,†,Jierun Chen2,Tiezheng Yu2,Ruoyu Wang3,Yuxin Jiang2, Yiming Du2,Wendong Xu1,Jing Xiong1,Taiqiang Wu1,Lifeng Shang2,Xiao\-Hui Li2, Ngai Wong1,Haoli Bai2,† 1香港大学2华为技术有限公司3南洋理工大学 †通讯作者 项目主页：https://stephen0808.github.io/terminal-lego.github.io/

###### 摘要 通常认为，更强的代码智能体是后训练的更好教师，但这一假设与任务难度、交互框架设计和学生能力等因素并未清晰剥离。我们利用Terminal-Lego（一个可扩展的流水线，将多领域现实世界问题转化为环境验证的智能体任务）来研究这种教学关联。令人惊讶的是，独立表现并不能决定教学效果：虽然Claude Opus 4.6在Terminal-Bench 2.0上取得了更高分数，但使用得分较低的智能体DeepSeek-V3.2的轨迹进行微调的学生，却展现出明显更强的泛化能力。我们将这种“教学悖论”归因于环境接地监督（EGS）：那些通过框架可见的交互明确展示“检查-行动-验证”行为的轨迹，使学生能够内化稳健的问题解决流程，而非脆弱的动作序列。规模分析揭示了卓越的数据效率：例如，仅使用15.3k条Terminal-Lego轨迹，Qwen3-32B就在Terminal-Bench 2.0上取得了24.3%的分数，与之前需要超过30×数据量的SOTA性能相当。我们的结果表明，智能体后训练的前沿不仅仅是匹配结果，而应转向“框架工程”，即系统性地设计环境接地的交互结构，作为可复现且可泛化的智能体智能的主要催化剂。请参见图1说明：教学悖论：独立表现与教学效果之间的差异。虽然Claude Opus 4.6在Terminal-Bench 2.0上取得了最高的独立分数，但其轨迹培养出的学生远不如DeepSeek-V3.2的轨迹。我们将这种差距归因于动作与环境反馈之间的一致性：优先考虑由先前观察严格支持的教师动作（环境接地监督的核心属性），提供了稳健、可泛化的问题解决流程，对学生模仿学习更为有效。

## 1 引言

代码智能体正经历从静态代码生成到与开发环境进行自主、闭环交互的根本性范式转变merrill2026terminal;kwa2025measuring;xie2025swe;wang2025swe;jimenez2024swebench;badertdinov2025swerebench;Deng2025SWEBenchPC;yang2024swe。在现代智能体工作流程中（以Cursor、Codex CLIopenai2026codex和Claude Codeanthropic2026claude为例），对模型的评判不再仅凭其最终输出，而是看其感知复杂环境状态、执行交错动作以及迭代验证结果的能力。终端环境是这一转变的典型测试平台；它通过统一的、框架中介的接口，暴露诸如依赖解析、多文件操作和测试驱动调试等高难度技能，为研究智能体推理机制提供了精确的视角。这一转变从根本上重新定义了后训练的目标。智能体解决问题轨迹不再是单一响应，而是环境接地行为的顺序追踪，捕捉了智能体如何检查、反思和适应。当前的蒸馏和微调实践通常遵循“越强越好”的假设：教师越强，学生越好。我们通过提出一个关键但被忽视的问题来挑战这一观点：*在代码智能体领域，模型完成任务的能力真的等同于其教学能力吗？* 我们在受控且现实的条件下研究这个问题。现有的终端智能体数据流水线提供了有价值但不同的基础：TermiGenzhu2026termigen向生成的任务中注入错误，TerminalTrajwu2026large挖掘可执行的仓库轨迹，CLI-Gymlin2026cliconstructs通过环境逆构构造任务，Nemotron-Terminalpi2026data扩展基于技能的任务合成。为了隔离不同教师轨迹的可教性，我们构建了Terminal-Lego：一个可扩展的流水线，从海量真实StackOverflow问题中提取内容，并将其转化为Docker验证的*智能体终端任务*。结合固定的Terminus-2框架，Terminal-Lego为我们提供了一个受控的基础，可以在相同的任务难度和交互界面下比较终端智能体轨迹。我们的研究揭示了一个引人注目的教学悖论：独立的精通并不能保证教学成功。在匹配任务条件下，Claude Opus 4.6（anthropic2026inta）作为独立智能体达到了最先进的（SOTA）性能，但它的轨迹却产生了能力最弱的Qwen3（yang2025qwen3）学生。相反，DeepSeek-V3.2（liu2025deepseek）尽管独立得分较低，却在8B和32B两种学生规模下都成为了更优的教师。这一发现表明，任务解决和知识迁移是智能体智能中不同、甚至可能正交的维度，其中教师解决方案的“效率”可能与其“可教性”呈负相关。我们将这种现象追溯至环境接地监督（EGS）。我们发现，可教的轨迹以明确的“检查-行动-验证”循环为特征，通过框架可见的交互使内部推理过程透明化。而高性能模型常常采取最小化交互的“捷径”，富含EGS的轨迹则提供了稳健、可泛化的问题解决流程，使学生能够内化“如何适应”，而不仅仅是“输出什么”。为了量化这一点，我们提出了目标观察比（TOR），一个衡量智能体动作与环境反馈之间对齐程度的指标，能够有效预测训练前的数据效用。我们的发现具有重要的实际意义。通过根据交互质量而非单纯的数量来策划数据，我们实现了卓越的数据效率。仅使用15.3k条Terminal-Lego轨迹，Qwen3-32B在Terminal-Bench 2.0（TB 2.0）上取得了24.3%的分数，较其基础性能提升了7×，与使用超过30×数据量建立的SOTA性能相当。我们的结果表明，智能体后训练的前沿在于“框架工程”，即系统性地设计交互结构，作为可复现的智能体智能的主要催化剂。我们的贡献有三方面：
- **Terminal-Lego智能体数据流水线**：我们引入了一个可扩展的流水线，将大规模的StackOverflow问题转化为涵盖90多个领域的Docker验证任务，为受控的、现实世界的智能体数据合成建立了新标准。
- **教学悖论与EGS**：我们识别出智能体性能与可教性之间的根本性不匹配，引入环境接地监督（EGS）作为策划有效后训练数据的关键框架。
- **目标观察比（TOR）**：我们提出并验证了TOR作为轨迹质量的预测指标，证明以交互为中心的策划能够以前所未有的数据效率（比现有方法最多节省30×的数据）实现SOTA级别的性能提升。

## 2 匹配任务教师蒸馏

本节定义了全文使用的蒸馏设置。我们的目标是比较轨迹的*可教性*，而非教师智能体的原始问题解决能力。为此，在比较教师生成的轨迹时，我们固定任务基础、框架、学生主干网络、训练方案和评估基准。我们考虑在多轮终端智能体轨迹上进行监督微调（SFT）。每个训练示例记录教师通过固定智能体框架Terminus-2（merrill2026terminal）与Docker化任务环境交互的过程。该系统在Docker容器内通过一个无头终端操作。在每一轮，模型发出结构化字段，包括analysis、plan和shellcommands；框架在tmux会话中执行命令并返回捕获的终端输出。我们使用这个固定的、与模型无关的框架来收集所有教师轨迹和评估学生，因此轨迹之间的差异主要反映教师的交互行为，而非脚手架专用工具或模型特定的智能体工程。Terminus-2的完整细节见附录LABEL:sec:terminus2。我们使用Terminal-Lego（第3节 (https://arxiv.org/html/2606.03461#S3)）从四个教师模型收集轨迹：DeepSeek-V3.2、Claude Opus 4.6、Qwen3.5-Plus（qwen2026towards）和GLM-5（ZhipuAI2026GLM5）。为了将轨迹质量与任务难度分离开来，我们将重点放在任务对齐的子集上，即所有教师模型都成功解决了相同实例的子集，然后训练Qwen3-8B和Qwen3-32B学生。我们在Terminal-Bench 2.0上评估学生性能，并报告三次独立试验的平均通过率。

## 3 Terminal-Lego：来自真实终端问题的受控基础

研究轨迹可教性需要这样的任务：足够真实以引发真正的终端交互，但又足够受控以支持匹配的教师比较。因此，我们构建了Terminal-Lego，一个可扩展的流水线，将真实的用户技术问题转化为可执行的、Docker验证的智能体任务。请参见图2说明：Terminal-Lego构建流水线。StackOverflow问题被筛选为真实来源，通过级联任务构建进行转换，并在Docker往返验证后保留。

### 3.1 从StackOverflow收集来源

我们从覆盖90多个技术领域的StackOverflow问题中取样。每个问题必须有一个被接受的答案，这提供了来自原始提问者的实际解决方案信号。我们进一步通过社区投票阈值筛选高质量数据。这种来源分布对于研究代码智能体很有用，因为StackOverflow问题编码了真实的失败模式：依赖冲突、路径错误、Shell行为、包安装问题、文件格式转换、网络配置和库特定错误。这些问题比以仓库为中心的软件工程任务更广泛，比纯粹合成的技能模板更接地气。它们还涵盖了各种终端面对代码智能体的场景，使StackOverflow成为构建需要模型检查、修改、执行和验证真实环境状态的智能体数据的可扩展来源。

### 3.2 级联任务构建

每个StackOverflow问题通过级联的大语言模型（LLM）生成被转换为Terminal-Bench风格的任务。关键设计选择是每个阶段都依赖于上游产物，使任务构建成为一个一致性问题，而非独立生成不相关的文件。由于指令、环境、解决方案、Dockerfile和测试是作为依赖链生成的，因此每个保留的任务必须描述一个连贯的可执行终端问题，而不是一组松散相关的文件。

### 3.3 测试审查和Docker往返验证

LLM生成的测试可能以系统性的方式失败：它们可能重新运行解决方案、假设脆弱的路径、遗漏导入、硬编码不一致的值，或者断言当前任务无法推导出的属性。因此，我们使用生成-再审查循环。候选测试由独立的LLM检查并针对常见缺陷类别进行审查。失败的审查结果被反馈到下一轮生成中。最后，每个保留的任务必须通过Docker往返验证。验证器构建Docker镜像，运行参考解决方案，在容器内执行生成的测试，并且只保留解决方案后奖励为正的任务。这个完整的生命周期对我们的轨迹研究很重要：教师与可执行、可自动检查且跨模型可比较的任务进行交互。更多细节见附录LABEL:app:pipeline-complete。

## 4 为什么更强的教师可能教得更差

### 4.1 匹配任务蒸馏中的教学悖论

我们首先测试更强的基准模型是否产生更好的SFT轨迹。一个自然的假设是，更强的模型应该为学生智能体产生更好的训练轨迹。直观而言，任务成功率更高的模型预计会产生更准确、更高效的交互序列，这些序列应该在SFT期间作为更高质量的监督信号。在我们的实验中，为了消除任务差异可能引起的偏差，我们从每个教师的共同任务集中筛选出8.1k条成功通过的轨迹，并训练相同的学生模型。

表1：Qwen3-8B和Qwen3-32B在不同教师蒸馏轨迹下的性能。尽管Claude Opus 4.6在TB 2.0上的独立得分最高，但DeepSeek-V3.2培养了最强的学生模型。

令人惊讶的是，表1 (https://arxiv.org/html/2606.03461#S4.T1) 中的结果与直觉相悖。Claude Opus 4.6是该组中最强的独立任务求解器，但其轨迹却是最弱的模仿数据。DeepSeek-V3.2是最弱的独立任务求解器，但它却在两种模型规模上都产生了最强的学生。这表明轨迹质量并不反映教师的基准分数。我们接下来排除两种更简单的解释——轨迹长度和显式错误恢复——然后将环境接地监督作为更强的机制。

### 4.2 轨迹长度和错误恢复真的决定性吗？

DeepSeek-V3.2的轨迹平均比其他教师的更长。一种可能的解释是，更长的轨迹包含更多的错误和恢复，这可以教会学生如何处理失败zhu2026termigen。我们通过两种方式测试这一解释。我们识别出1.1k个困难实例，并对每个实例生成五个DeepSeek-V3.2的运行。在成功尝试中，我们比较同一任务的最短和最长成功轨迹。更长的轨迹包含更多的错误轮次，因此可以作为更高恢复密度的代理。结果如表2 (https://arxiv.org/html/2606.03461#S4.T2) 所示：最长的轨迹并不会改善训练，且性能低于最短的成功轨迹。基于这些结果，我们发现简单地延长轨迹长度或引入错误恢复可能无法有效提高轨迹质量。另一方面，我们进一步过滤8.1k条成功通过的轨迹，移除那些终端输出包含错误消息的轨迹，得到一个1.7k的无错误共同集合（所有四个教师轨迹集中的相同任务）。然而，即使在这种受控设置下，DeepSeek-V3.2仍然产生了最强的学生模型。更重要的是，与表1 (https://arxiv.org/html/2606.03461#S4.T1) 中的完整集相比，基于DeepSeek-V3.2训练的学生模型仅表现出很小的性能下降（在Qwen3-32B上下降1.5%），而所有其他教师都表现出超过5%的下降。这表明，DeepSeek-V3.2作为教师具有内在的一致性，使其教学质量不受任务难度的影响。

表2：排除轨迹长度和显式错误恢复。左：更长的成功 DeepSeek-V3.2 轨迹

是什么使交互轨迹对训练终端智能体有效？

相似文章

Terminal-World: 通过智能体技能扩展终端代理环境

LiteCoder-Terminal：扩展用于学习语言智能体的长程终端环境

@athleticKoder: https://x.com/athleticKoder/status/2057091692235481560

将本地代理转变为自我优化代理

可解释的教学示例

提交意见反馈