ACC：编译智能体轨迹以进行长上下文训练

Hugging Face Daily Papers 2026/05/21 00:00 论文

摘要

智能体上下文编译（ACC）通过将多轮智能体轨迹转化为结构化问答对，增强了大语言模型的长上下文推理能力，使得无需额外标注即可直接监督远距离上下文整合。

近期智能体的发展重新激发了对大语言模型长上下文推理能力的需求。然而，为此训练大语言模型需要昂贵的长时间文档整理或启发式上下文合成。我们观察到，智能体在解决问题时会产生大量轨迹，涉及多轮工具调用和环境观察。回答原始问题所需的证据分散在这些轮次中，需要整合远距离的上下文片段。然而，标准的智能体监督微调（SFT）会掩盖工具响应，仅训练轮次级别的工具选择，造成了监督盲点，使得这些分散的信号未被利用。为此，我们提出智能体上下文编译（ACC），将来自搜索、软件工程和数据库查询智能体的轨迹转化为长上下文问答对，将原始问题与多轮收集的工具响应和环境观察相结合，训练模型无需工具直接作答。这使得问题与证据之间的依赖关系明确化，无需额外标注即可直接监督远距离片段上的长上下文推理。ACC是一种简单而有效的方法，可与任何现有的长上下文扩展或训练方法结合，提供可扩展的监督微调数据。我们在MRCR和GraphWalks上验证了ACC对长程依赖建模任务的效果，这些基准测试要求跨轮次共指消解和图遍历，且上下文较长。使用ACC训练Qwen3-30B-A3B模型，在MRCR上达到68.3（+18.1），在GraphWalks上达到77.5（+7.6），结果与Qwen3-235B-A22B相当，同时在GPQA、MMLU-Pro、AIME和IFEval上保持了通用能力。进一步的机制分析表明，ACC训练的模型展现出任务自适应的注意力重组织与专家专业化。

查看原文

查看缓存全文

缓存时间: 2026/05/22 02:30

论文页面 - ACC: 编译智能体轨迹用于长上下文训练

来源：https://huggingface.co/papers/2605.21850

摘要

智能体上下文编译（Agent Context Compilation, ACC）通过将多轮智能体轨迹转换为结构化问答对，增强了大语言模型的长上下文推理能力，从而无需额外标注即可直接监督远距离上下文整合。

近期智能体的发展重新激发了对大语言模型长上下文推理（https://huggingface.co/papers?q=long-context%20reasoning）能力的需求。然而，训练大语言模型具备这种能力需要昂贵的长文档整理或启发式上下文合成。我们观察到，智能体在解决问题时会生成大量轨迹，它们跨多轮调用工具并接收环境观察（https://huggingface.co/papers?q=environment%20observations）。回答原始问题所需的证据分散在这些轮次中，需要整合远距离的上下文片段。然而，标准的智能体监督微调（SFT）（https://huggingface.co/papers?q=agent%20SFT）会屏蔽工具响应（https://huggingface.co/papers?q=tool%20responses），仅训练轮次级别的工具选择，导致这些分散的信号未被利用，造成监督盲区。我们提出智能体上下文编译（ACC），将从搜索、软件工程和数据库查询智能体获得的轨迹转换为长上下文问答对，这些问答对将原始问题与跨多轮收集的工具响应（https://huggingface.co/papers?q=tool%20responses）和环境观察（https://huggingface.co/papers?q=environment%20observations）相结合，训练模型直接回答而无需使用工具。这使得问题与证据之间的依赖关系变得明确，从而无需额外标注即可直接监督远距离段落的长期上下文推理（https://huggingface.co/papers?q=long-context%20reasoning）。ACC是一种简单但有效的方法，可与任何现有的长上下文扩展或训练方法结合使用，提供可扩展的监督微调（https://huggingface.co/papers?q=supervised%20fine-tuning）数据。我们通过MRCR和GraphWalks这两个具有挑战性的基准验证了ACC在长程依赖建模（https://huggingface.co/papers?q=long-range%20dependency%20modeling）任务上的效果，这些基准需要跨轮共指消解（https://huggingface.co/papers?q=cross-turn%20coreference%20resolution）和扩展上下文上的图遍历（https://huggingface.co/papers?q=graph%20traversal）。使用ACC训练的Qwen3-30B-A3B在MRCR上达到68.3（+18.1），在GraphWalks上达到77.5（+7.6），结果与Qwen3-235B-A22B相当，同时在GPQA、MMLU-Pro、AIME和IFEval上保持了通用能力。进一步的机制分析表明，ACC训练的模型展现出任务自适应的注意力重构（https://huggingface.co/papers?q=attention%20restructuring）和专家专业化（https://huggingface.co/papers?q=expert%20specialization）。

查看arXiv页面（https://arxiv.org/abs/2605.21850）查看PDF（https://arxiv.org/pdf/2605.21850）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.21850）

在您的智能体中获取这篇论文：

hf papers read 2605\.21850

没有最新CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用本论文的模型0

暂无模型链接本论文

请在模型 README.md 中引用 arxiv.org/abs/2605.21850 以从本页面链接。

引用本论文的数据集0

暂无数据集链接本论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.21850 以从本页面链接。

引用本论文的Spaces0

暂无Space链接本论文

请在Space README.md 中引用 arxiv.org/abs/2605.21850 以从本页面链接。

包含本论文的收藏集0

暂无收藏集包含本论文

请将本论文添加到一个收藏集（https://huggingface.co/new-collection）中以从本页面链接。

ACC：编译智能体轨迹以进行长上下文训练

论文页面 - ACC: 编译智能体轨迹用于长上下文训练

摘要

引用本论文的模型0

引用本论文的数据集0

引用本论文的Spaces0

包含本论文的收藏集0

相似文章

提示引导的多样化策略优化用于LLM推理

ARCA：令牌信号退化时的适配器残差信用分配

@swyx: 完整文章和链接在此

LinTree: 通过显式结构化搜索历史提升LLM推理能力

TraceGraph：用于诊断和改进智能体轨迹的共享决策景观

提交意见反馈