ACC:编译智能体轨迹以实现长上下文训练
摘要
ACC将多轮智能体轨迹转化为长上下文问答对,用于训练LLMs在无需额外标注的情况下进行长程推理,在MRCR和GraphWalks基准测试上取得了显著提升,同时保持通用能力。
arXiv:2605.21850v1 公告类型:新论文
摘要:近期智能体的发展重新激发了对LLMs长上下文推理能力的需求。然而,训练LLMs具备此能力需要昂贵的长文档整理或启发式上下文合成。我们观察到智能体在解决问题时产生大量轨迹,调用工具并在多轮中接收环境观测。回答原始问题所需的证据因此分散在这些轮次中,需要整合远距离的上下文片段。尽管如此,标准智能体SFT会掩盖工具响应,仅训练轮次级别的工具选择,造成监督盲点,这些分散的信号未被利用。我们提出智能体上下文编译(ACC),将搜索、软件工程和数据库查询等智能体的轨迹转化为长上下文问答对,将原始问题与跨多轮收集的工具响应和环境观测相结合,训练模型直接回答而无需使用工具。这使得问题与证据之间的依赖关系明确,无需额外标注即可直接监督远距离段上的长上下文推理。ACC是一种简单有效的方法,可与任何现有的长上下文扩展或训练方法结合,提供可扩展的监督微调数据。我们通过MRCR和GraphWalks验证了ACC在长距离依赖建模任务上的效果,这些基准测试要求跨轮共指解析和扩展上下文上的图遍历。使用ACC训练Qwen3-30B-A3B在MRCR上达到68.3(+18.1),在GraphWalks上达到77.5(+7.6),结果与Qwen3-235B-A22B相当,同时在GPQA、MMLU-Pro、AIME和IFEval上保持通用能力。进一步的机制分析表明,ACC训练的模型展现出任务自适应的注意力重构和专家专业化。
查看缓存全文
缓存时间: 2026/05/22 08:44
# ACC:编译智能体轨迹用于长上下文训练
来源:https://arxiv.org/html/2605.21850
Qisheng Su¹², Zhen Fang¹, Shiting Huang¹, Yu Zeng¹, Yiming Zhao¹, Kou Shi¹, Ziao Zhang¹, Lin Chen¹, Zehui Chen¹, Lijun Wu³, Feng Zhao¹
¹中国科学技术大学 MoE 关键实验室 BIPC
²上海创新研究院
³上海人工智能实验室
nicksu@mail\.ustc\.edu\.cn
fzhao956@ustc\.edu\.cn
数据集:https://huggingface.co/datasets/groundhogLLM/ACC-dataset
检查点:https://huggingface.co/groundhogLLM/ACC-Qwen3-30B-A3B
###### 摘要
近期智能体的发展重新激发了对大语言模型长上下文推理能力的需求。然而,训练大语言模型具备此能力需要昂贵的长文档整理或启发式上下文合成。我们观察到,智能体在解决问题时会产生大量的轨迹,在多个轮次中调用工具并接收环境观察结果。回答原始问题所需的证据分散在这些轮次中,需要整合远距离的上下文片段。然而,标准的智能体监督微调会屏蔽工具响应,仅训练轮次级别的工具选择,这造成了一个监督盲区,使得这些分散的信号未被利用。我们提出智能体上下文编译(Agent Context Compilation, ACC),该方法将来自搜索、软件工程和数据库查询智能体的轨迹转换为长上下文问答对,将原始问题与多个轮次中收集的工具响应和环境观察结果相结合,训练模型直接回答问题而无需使用工具。这使得问题与证据之间的依赖关系变得明确,无需额外标注即可直接监督对远距离片段的长上下文推理。ACC 是一种简单有效的方法,可与任何现有的长上下文扩展或训练方法结合,提供可扩展的监督微调数据。我们通过 MRCR 和 GraphWalks 在长距离依赖建模任务上验证了 ACC,这两个基准挑战需要跨轮次指代消解和在扩展上下文上进行图遍历。使用 ACC 训练 Qwen3-30B-A3B 在 MRCR 上达到 68.3(+18.1),在 GraphWalks 上达到 77.5(+7.6),结果与 Qwen3-235B-A22B 相当,同时在 GPQA、MMLU-Pro、AIME 和 IFEval 上保持了通用能力。进一步的机制分析表明,ACC 训练的模型展现出任务自适应的注意力结构重组和专家专业化。数据集和检查点已公开发布。
## 1 引言
近年来,智能体的兴起重新引起了业界对大语言模型长上下文推理的关注OpenAI (2026 (https://arxiv.org/html/2605.21850#bib.bib10)); Anthropic (2026 (https://arxiv.org/html/2605.21850#bib.bib11)); Google DeepMind (2026 (https://arxiv.org/html/2605.21850#bib.bib12)); Qwen Team (2026 (https://arxiv.org/html/2605.21850#bib.bib13)),因为智能体需要通过多轮工具调用来工作,模型需要处理越来越长的输入。然而,为此能力训练大语言模型的传统方法依赖于昂贵的长文档整理或启发式上下文合成。整理带注释的长文档需要精确的证据标注和严格的质量过滤。启发式合成生成的上下文缺乏实际解决问题所产生的复杂依赖关系。这些限制严重制约了长跨度推理的可扩展训练,并促使我们探索替代的监督来源。
智能体在解决问题时会产生大量的多轮轨迹,在多个轮次中调用工具并接收工具响应。回答原始问题所需的证据分散在这些轮次中,需要整合远距离的上下文片段。尽管这些轨迹可以直接用于监督微调,但标准做法会屏蔽工具响应,仅监督轮次级别的工具选择。这造成了一个监督盲区,使得分散的证据信号未被利用,严重限制了长上下文能力的发展。
通过组装工具响应和环境上下文被编译成长上下文问答对。)
为了解决这个问题,我们提出了**智能体上下文编译(Agent Context Compilation, ACC)**,该方法无需额外的人工标注即可将智能体轨迹转换为长上下文训练数据。通过将原始问题与多个轮次中收集的工具响应和环境观察结果组装成一个上下文,ACC 使得问题与分散证据之间的依赖关系变得明确,无需额外标注即可直接监督长上下文推理。
ACC 是一种简单有效的方法,可与任何现有的长上下文扩展或训练方法结合,提供可扩展的监督微调数据。图1 (https://arxiv.org/html/2605.21850#S1.F1) 展示了 ACC 流程。我们将 ACC 应用于三类有代表性的智能体,包括检索网页以回答复杂问题的搜索智能体、检查源文件以解决问题的 SWE 智能体,以及查询关系表以进行结构化分析的 SQL 智能体。在每种情况下,我们将**答案验证过的轨迹**编译成长上下文训练对,直接从最终输出中获取答案,无需额外的人工标注。我们通过 MRCR 和 GraphWalksOpenAI (2025 (https://arxiv.org/html/2605.21850#bib.bib8)) 在长距离依赖建模任务上验证了 ACC,这两个基准挑战需要跨轮次指代消解和在扩展上下文上进行图遍历。使用 ACC 训练 Qwen3-30B-A3B 在 MRCR 上达到 68.3(+18.1),在 GraphWalks 上达到 77.5(+7.6),结果与 Qwen3-235B-A22B 相当,同时在 GPQA、MMLU-Pro、AIME 和 IFEval 上保持了通用能力。机制分析进一步表明,ACC 训练的模型展现出任务自适应的注意力结构重组和专家专业化,反映了对不同长距离推理需求的灵活适应。
**贡献。** 我们的主要贡献总结如下。 (1) 我们提出了智能体上下文编译(ACC),一种将多轮智能体轨迹转换为长上下文训练问答对的方法。 (2) 我们展示了 ACC 训练的 Qwen3-30B-A3B 在包括 MRCR 和 GraphWalks 在内的长距离依赖建模基准上达到了与 Qwen3-235B-A22B 相当的结果,同时保持了通用能力。 (3) 通过机制分析,我们观察到 ACC 训练后出现了任务自适应的注意力结构重组和专家专业化,表明获得的长距离能力表现为灵活的、特定于任务的模式。
## 2 相关工作
### 2.1 长上下文能力评估
长上下文能力的评估已经有了显著发展。早期的基准如 NIAHKamradt (2023 (https://arxiv.org/html/2605.21850#bib.bib9)) 通过将特定事实嵌入到干扰文本中测试表层检索能力。RULERHsieh等人 (2024 (https://arxiv.org/html/2605.21850#bib.bib4)) 通过引入变量跟踪、聚合和多跳推理任务扩展了这一点。LongBenchBai等人 (2025 (https://arxiv.org/html/2605.21850#bib.bib3)) 引入了多样化的真实场景任务,包括问答、摘要和代码理解。然而,这些基准的性能已基本饱和,因为它们主要测试长上下文内的局部检索或单轮推理。经典基准如 MusiqueTrivedi等人 (2022 (https://arxiv.org/html/2605.21850#bib.bib6)) 和 NarrativeQAKočiský等人 (2017 (https://arxiv.org/html/2605.21850#bib.bib7)) 进一步针对多跳推理和长文档叙事理解。最近,OpenAI 发布了 MRCR(多轮指代消解)和 GraphWalksOpenAI (2025 (https://arxiv.org/html/2605.21850#bib.bib8)) 作为长距离依赖建模的直接测试。通过要求跨轮次指代消解和在扩展上下文上进行图遍历,它们比之前的单轮或检索任务困难得多,并已成为主流大模型发布的标准基准。
### 2.2 长上下文扩展与训练
近期改进长上下文能力的努力通常分为四类。首先,预训练方法修改位置嵌入或注意力机制。MrRoPeTian等人 (2026 (https://arxiv.org/html/2605.21850#bib.bib14)) 应用 RoPE 插值和 NTK 感知频率缩放以扩展上下文窗口。ROPE++Liu等人 (2025 (https://arxiv.org/html/2605.21850#bib.bib15)) 重用 RoPE 复数形式中被丢弃的虚部来构建并行注意力头,以改进长度外推。原生稀疏注意力Yuan等人 (2025 (https://arxiv.org/html/2605.21850#bib.bib24)) 和 Mamba-3Lahoti等人 (2026 (https://arxiv.org/html/2605.21850#bib.bib25)) 通过稀疏和线性注意力降低复杂度。其次,一些工作专注于为预训练数据构建高质量的长文档。LongwanjuanLv等人 (2024 (https://arxiv.org/html/2605.21850#bib.bib21)) 通过连贯性、衔接性和复杂性过滤文本。LiteLongJia等人 (2025 (https://arxiv.org/html/2605.21850#bib.bib19)) 利用图书分类法和多智能体辩论进行语料库检索和拼接。QuestTang等人 (2024 (https://arxiv.org/html/2605.21850#bib.bib23)) 预测可能的问题并聚类核心关键词以拼接短文档。这些方法合成长文本而非训练后的问答对。第三,后训练方法结合合成数据与强化学习。longRLVRChen等人 (2026 (https://arxiv.org/html/2605.21850#bib.bib20)) 从长文本生成带有精确证据块注释的问答对。LongPOChen等人 (2025 (https://arxiv.org/html/2605.21850#bib.bib22)) 提取关键短块以构建短-长偏好对,并在 DPO 中应用短到长的 KL 约束。LoongRLWang等人 (2025 (https://arxiv.org/html/2605.21850#bib.bib18)) 提出 KeyChain 插入不相关文档以进行困难的长上下文合成,并通过规则奖励和无熵项稳定 GRPO。第四,在推理时采用智能体框架来管理长上下文记忆。QwenLong-L1.5Shen等人 (2025 (https://arxiv.org/html/2605.21850#bib.bib17)) 清理多源文档,构建知识图谱,并应用 AEPO 进行动态熵控制。MemAgentYu等人 (2025 (https://arxiv.org/html/2605.21850#bib.bib16)) 混合不相关的 HotpotQA 文档,并使用 Multi-Conv DAPO 将长问题分解为具有内存更新的多个独立对话。我们的工作与之不同,我们使用智能体轨迹作为长上下文推理训练的直接数据源,而不是修改架构、合成预训练文档或依赖复杂的后训练强化学习流程。
## 3 方法
### 3.1 智能体监督微调的监督盲区
标准的智能体监督微调会屏蔽所有工具响应(观察结果),仅监督轮次级别的推理和动作。因此,模型从未学习整合分布在多个轮次中的证据。一个智能体轨迹包含 k-1 个交互轮次后跟一个最终答案轮次 τ=\(q, (r₁, a₁, o₁), ..., (r_{k-1}, a_{k-1}, o_{k-1}), (r_k, y)\),其中 r_t 是推理,a_t 是动作,o_t 是工具响应(观察结果),(r_k, y) 是最终的推理-答案对。到第 t 轮的累积历史为 H<t。
[**搜索智能体轨迹编译示例**]
顶部部分显示原始问题和真实答案。中间部分显示原始的智能体轨迹(访问过的文档以蓝色高亮,搜索返回但从未访问的文档以红色高亮)。底部部分显示 ACC 编译的问答对。SWE 和 SQL 智能体的示例在附录 A 中提供。
## 4 实验
### 4.1 实验设置
**基础模型。** 我们使用 Qwen3-30B-A3B-ThinkingYang等人 (2025 (https://arxiv.org/html/2605.21850#bib.bib1)) 作为我们的基础模型。
[图3: ACC 训练数据的令牌长度分布。我们将样本按令牌计数分箱,并绘制从每种智能体类型编译的训练数据的每箱频率。]
**训练配置。** 我们总共编译了 10,802 条轨迹(搜索:3,369;SWE:4,368;SQL:3,065),编译后的上下文长度范围从 2K 到 128K 令牌,并按智能体类型呈现不同的长度分布(图3 (https://arxiv.org/html/2605.21850#S4.F3))。训练参数的细节总结在表3 (https://arxiv.org/html/2605.21850#S4.F3) 中。
| 表1:监督微调的训练参数 | |
| :--- | :--- |
| 超参数 | 值 |
| 序列长度 | 131,072 令牌 |
| 全局批次大小 | 16 |
| 学习率 | 1×10⁻⁵ (最小 1×10⁻⁶) |
| 学习率调度 | 余弦,含 5% 热身 |
| 优化器 | AdamW (β₁=0.9, β₂=0.999, 权重衰减 0.1) |
| 损失 | 交叉熵(块大小 1024) |
| 序列并行度 | 8 |
| 专家并行度 | 1 |
| 训练轮次 | 4 |
**评估基准。** 我们主要在长距离依赖建模基准上进行评估,包括 MRCROpenAI (2025 (https://arxiv.org/html/2605.21850#bib.bib8))(多轮指代消解)和 GraphWalksOpenAI (2025 (https://arxiv.org/html/2605.21850#bib.bib8))(图遍历),这些基准需要追踪远距离关相似文章
LongAttnComp: 面向长上下文推理的跨家族上下文压缩
LongAttnComp 通过微调轻量级交叉注意力层并引入 token 级分块、top-p 算法、位置重排序和查询解析器,将 AttnComp 适配到长上下文推理。它在代码调试等长上下文任务上取得了强劲性能,并能跨多个模型家族迁移。
面向长周期任务的智能体兼容上下文管理
介绍AdaCoM,一种基于外部LLM的上下文管理器,适用于冻结的智能体。通过保留任务约束和修剪过时内容,利用强化学习提升长周期任务性能,并在网络搜索和深度研究基准上进行了实验。
AMATA:面向知识密集型问答的自适应多智能体轨迹对齐框架
提出AMATA,一种用于知识密集型问答的多智能体轨迹对齐框架,通过引入轨迹内偏好学习和智能体间依赖学习,提升事实依据和可解释性,在五个基准测试中优于基线方法。
ACIL: 用于上下文学习的自动Chain-of-Thought
本文介绍了ACIL,一种自动Chain-of-Thought框架,通过生成和修剪推理链来增强上下文学习,从而提升LLM在复杂任务上的表现。
自适应潜在智能体推理
本文介绍了自适应潜在智能体推理(ALAR),一种针对LLM智能体的双模式框架,它使用紧凑的潜在推理处理常规轮次,并选择性地升级为显式思维链以应对更困难的决策,实现了高达84.6%的令牌减少,同时保持任务准确性。