ACC:编译智能体轨迹以进行长上下文训练
摘要
智能体上下文编译(ACC)通过将多轮智能体轨迹转化为结构化问答对,增强了大语言模型的长上下文推理能力,使得无需额外标注即可直接监督远距离上下文整合。
查看缓存全文
缓存时间: 2026/05/22 02:30
论文页面 - ACC: 编译智能体轨迹用于长上下文训练
来源:https://huggingface.co/papers/2605.21850
摘要
智能体上下文编译(Agent Context Compilation, ACC)通过将多轮智能体轨迹转换为结构化问答对,增强了大语言模型的长上下文推理能力,从而无需额外标注即可直接监督远距离上下文整合。
近期智能体的发展重新激发了对大语言模型长上下文推理(https://huggingface.co/papers?q=long-context%20reasoning)能力的需求。然而,训练大语言模型具备这种能力需要昂贵的长文档整理或启发式上下文合成。我们观察到,智能体在解决问题时会生成大量轨迹,它们跨多轮调用工具并接收环境观察(https://huggingface.co/papers?q=environment%20observations)。回答原始问题所需的证据分散在这些轮次中,需要整合远距离的上下文片段。然而,标准的智能体监督微调(SFT)(https://huggingface.co/papers?q=agent%20SFT)会屏蔽工具响应(https://huggingface.co/papers?q=tool%20responses),仅训练轮次级别的工具选择,导致这些分散的信号未被利用,造成监督盲区。我们提出智能体上下文编译(ACC),将从搜索、软件工程和数据库查询智能体获得的轨迹转换为长上下文问答对,这些问答对将原始问题与跨多轮收集的工具响应(https://huggingface.co/papers?q=tool%20responses)和环境观察(https://huggingface.co/papers?q=environment%20observations)相结合,训练模型直接回答而无需使用工具。这使得问题与证据之间的依赖关系变得明确,从而无需额外标注即可直接监督远距离段落的长期上下文推理(https://huggingface.co/papers?q=long-context%20reasoning)。ACC是一种简单但有效的方法,可与任何现有的长上下文扩展或训练方法结合使用,提供可扩展的监督微调(https://huggingface.co/papers?q=supervised%20fine-tuning)数据。我们通过MRCR和GraphWalks这两个具有挑战性的基准验证了ACC在长程依赖建模(https://huggingface.co/papers?q=long-range%20dependency%20modeling)任务上的效果,这些基准需要跨轮共指消解(https://huggingface.co/papers?q=cross-turn%20coreference%20resolution)和扩展上下文上的图遍历(https://huggingface.co/papers?q=graph%20traversal)。使用ACC训练的Qwen3-30B-A3B在MRCR上达到68.3(+18.1),在GraphWalks上达到77.5(+7.6),结果与Qwen3-235B-A22B相当,同时在GPQA、MMLU-Pro、AIME和IFEval上保持了通用能力。进一步的机制分析表明,ACC训练的模型展现出任务自适应的注意力重构(https://huggingface.co/papers?q=attention%20restructuring)和专家专业化(https://huggingface.co/papers?q=expert%20specialization)。
查看arXiv页面(https://arxiv.org/abs/2605.21850)查看PDF(https://arxiv.org/pdf/2605.21850)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.21850)
在您的智能体中获取这篇论文:
hf papers read 2605\.21850
没有最新CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用本论文的模型0
暂无模型链接本论文
请在模型 README.md 中引用 arxiv.org/abs/2605.21850 以从本页面链接。
引用本论文的数据集0
暂无数据集链接本论文
请在数据集 README.md 中引用 arxiv.org/abs/2605.21850 以从本页面链接。
引用本论文的Spaces0
暂无Space链接本论文
请在Space README.md 中引用 arxiv.org/abs/2605.21850 以从本页面链接。
包含本论文的收藏集0
暂无收藏集包含本论文
请将本论文添加到一个收藏集(https://huggingface.co/new-collection)中以从本页面链接。
相似文章
提示引导的多样化策略优化用于LLM推理
本文介绍了提示引导的多样化策略优化(HDPO),这是一个两阶段强化学习框架,鼓励LLMs首先生成多个候选解决方案大纲(提示),然后选择最可靠的一个进行详细推理,从而提升推理的多样性和可靠性。
ARCA:令牌信号退化时的适配器残差信用分配
本文指出了在使用LoRA进行LLM强化学习时,令牌级信用分配中存在的一种结构性失效模式,即内在信号退化。它提出了适配器残差信用分配(ARCA),该方法从适配器的隐藏状态残差中推导令牌显著性,并与基线方法保持竞争力。
@swyx: 完整文章和链接在此
Latent Space 播客的一集讨论了这样一个论点:视频模型从大语言模型(LLM)中获取智能,下一个前沿是视频智能体。嘉宾 Ethan He(曾在 xAI 构建 Grok Imagine)分享了构建前沿图像和视频系统的见解。
LinTree: 通过显式结构化搜索历史提升LLM推理能力
本文介绍LinTree,通过在线性化搜索历史中添加显式父指针来提升LLM推理能力,表明与隐式推理和启发式引导搜索相比,使树结构显式化能同时提升任务性能和搜索效率。
TraceGraph:用于诊断和改进智能体轨迹的共享决策景观
TraceGraph是一个基于图的框架,它从多模型智能体轨迹中构建共享决策景观,从而能够诊断故障区域并通过陷阱感知恢复流水线进行改进。