面向长周期任务的智能体兼容上下文管理

arXiv cs.AI 2026/06/01 04:00 论文

long-context context-management llm-agents reinforcement-learning frozen-agents adaptive-context benchmarks

摘要

介绍AdaCoM，一种基于外部LLM的上下文管理器，适用于冻结的智能体。通过保留任务约束和修剪过时内容，利用强化学习提升长周期任务性能，并在网络搜索和深度研究基准上进行了实验。

arXiv:2605.30785v1 公告类型：新摘要：在现实应用中的网络搜索和深度研究等长周期任务中，LLM智能体面临累积上下文导致的长上下文退化和推理失败问题。先前的工作通过智能体侧上下文控制或固定策略（如摘要）来缓解此问题，但需要训练智能体自身进行适配——这对闭源智能体不切实际，且忽略了不同智能体可能需要不同策略。我们提出自适应上下文管理（AdaCoM），通过灵活的修改操作和端到端强化学习，训练外部LLM来管理冻结智能体的上下文。在网络搜索和深度研究基准上，AdaCoM通过保留任务约束和进展同时修剪过时内容，显著提升了多种智能体的性能。学习到的策略揭示了忠实度-可靠性权衡：原始ReAct性能较高的智能体受益于更高忠实度的上下文保留，而性能较低的智能体则需要更激进的压缩以保持在可靠的推理范围内。迁移实验表明，AdaCoM在能力相似（以原始ReAct性能衡量）的智能体之间泛化效果最好，这为智能体系统实现可复用的上下文管理器提供了实用路径。

查看原文

查看缓存全文

缓存时间: 2026/06/01 09:25

# 面向长周期任务的智能体兼容上下文管理

来源: https://arxiv.org/html/2605.30785

鲁毅1\*, 雷润林1\*, 姚柳毅2, 谢跃祥2, 李宇阳3, 张文浩2, 张泽蔚1†\\dagger, 李亚亮2†\\dagger, 聂建云4

1中国人民大学, 2通义实验室, 阿里巴巴集团, 3北京邮电大学, 4蒙特利尔大学

###### 摘要

LLM智能体越来越多地面临长周期任务，例如现实世界应用中的网络搜索和深度研究，其中累积的上下文可能导致长期上下文退化与推理失败。先前的研究通过智能体侧上下文控制或固定策略（如摘要）的上下文管理来缓解这一问题，但这些方法需要训练智能体本身以适应——这使得对于闭源智能体而言不切实际，并忽略了不同智能体可能需要不同策略的问题。我们提出**自适应上下文管理**（Adaptive Context Management, AdaCoM），该方法通过灵活修改操作和端到端强化学习训练一个外部LLM来管理冻结智能体的上下文。通过在网络搜索和深度研究基准测试中针对多种智能体进行的实验，AdaCoM通过保留任务约束和进度，同时剪除陈旧内容，显著提升了性能。学习到的策略揭示了一种**保真度-可靠性权衡**：原始ReAct性能较高的智能体更受益于高保真度的上下文保留，而性能较低的智能体则需要更激进的压缩以保持在可靠的推理区间内。迁移实验表明，AdaCoM在能力相近的智能体（以原始ReAct性能衡量）之间迁移效果最佳，这为智能体系统复用上下文管理器提供了一条实用路径。

学习智能体兼容的上下文管理用于长周期任务

11footnotetext:鲁毅和雷润林为共同第一作者。本工作完成于阿里巴巴通义实验室实习期间。

22footnotetext:张泽蔚和李亚亮为通讯作者。

## 1 引言

参考标题：图1

图1：自适应上下文管理（AdaCoM）概述。在每个智能体步骤之前，外部LLM管理呈现给冻结智能体的上下文。任务反馈仅更新管理器，使AdaCoM能够在无需训练底层智能体的情况下发现与智能体兼容的上下文管理策略。

随着语义理解、工具使用和交互式决策的进步，通用LLM智能体应用如OpenClaw和Hermes Agent已经出现（Steinberger and contributors, 2025; Nous Research, 2025）。此类应用通常涉及长周期推理，例如回答多约束搜索查询（Wei et al., 2025; Li et al., 2025）或生成深度研究报告（Du et al., 2025; Wang et al., 2025），这些任务需要在不断增长的上下文中执行许多相互依赖的步骤。LLM在此类长周期任务中的一个核心瓶颈是长上下文退化。随着工具结果和中间推理的积累，陈旧或无关的内容可能掩盖显著证据，放大位置偏差，并降低后续决策的可靠性（Xiao et al., 2024; Liu et al., 2024; Shi et al., 2023）。先前的工作通过**上下文管理**来解决这个问题，但通常将管理上下文的负担放在智能体本身。智能体被提示在行动前总结其轨迹（Zhou et al., 2025; Chen et al., 2025a），或调用上下文管理工具（Zhang et al., 2025）。由于这些机制要求智能体遵循其在训练期间可能未遇到过的新上下文模式或工具使用协议，先前的工作通常将其与智能体训练相结合以实现性能提升（Wu et al., 2025）。这种依赖训练的设计与部署场景不匹配，因为广泛使用的智能体通常是闭源的，并且训练每个用户选择的模型是不可行的。此外，诸如摘要之类的预定义操作强加了一种一刀切的策略，而忽略了不同智能体在架构、训练数据和推理风格上的巨大差异。这引出了一个自然的问题：*我们能否在不训练智能体本身的情况下，为每个智能体发现其偏好的上下文管理策略？*

我们提出**自适应上下文管理**（Adaptive Context Management, AdaCoM），一个基于两个原则的框架。首先，**架构解耦**：上下文管理由一个外部管理器（通常是较小的LLM）处理，而智能体本身保持不变。这种解耦使得AdaCoM即使在无法训练智能体时也适用。其次，**操作级别灵活性**：管理器不必预先提交给摘要等预定义操作，而是可以自由修改上下文的任何部分，从而发现与智能体兼容的管理策略。为了学习此类策略，我们在保持智能体冻结的情况下，使用强化学习训练管理器。图1展示了AdaCoM的过程：在每个智能体步骤之前，管理器更新运行中的上下文，然后智能体在生成的已管理上下文上行动。在多种智能体上，AdaCoM显著提升了网络搜索和深度研究任务的性能，通过保留任务相关上下文，减少了约束遗忘、过早放弃和冗余探索。对AdaCoM学习到的策略的进一步分析揭示了一致的**保真度-可靠性权衡**。使用原始ReAct（Yao et al., 2022）性能作为智能体能力的度量，我们发现，对于更强智能体的管理器会保留更多原始轨迹上下文以保持保真度，而针对较弱智能体的管理器则更激进地压缩以保持推理可靠。这表明每个智能体都有一个有效上下文长度，超过该长度后额外的原始上下文会产生危害，而理想的上下文管理必须平衡上下文保真度与推理可靠性。进一步的迁移实验表明，经过训练的管理器在能力相当的智能体之间迁移效果最佳，这表明实践者可以在能力相似的智能体之间复用训练好的管理器，而无需重新训练管理器。

总体而言，我们的主要贡献如下：

- • 我们提出AdaCoM，一种自适应上下文管理框架，它将上下文管理与智能体解耦，并在不重新训练智能体本身的情况下学习与智能体兼容的策略。
- • AdaCoM显著改进了网络搜索和深度研究任务中的多种智能体，缓解了约束遗忘、过早放弃和冗余探索。
- • 我们识别出**保真度-可靠性权衡**，并表明AdaCoM在能力相近的智能体之间迁移效果最佳，为现实世界智能体应用中部署上下文管理提供了实用指导。

## 2 相关工作

**长周期任务的上下文管理。** 现有上下文管理方法通常通过预定义操作来减少长轨迹。摘要方法如IterResearch（Chen et al., 2025a）和MEM1（Zhou et al., 2025）在任务求解过程中维护一个紧凑的进度摘要。每次观察后，智能体基于之前的摘要和最新的动作-观察对进行条件生成，然后更新摘要并在同一生成中发出下一个动作。ReSum（Wu et al., 2025）在上下文接近长度限制时使用单独的摘要工具，在智能体继续之前压缩先前交互历史。基于工具的方法如MemAct（Zhang et al., 2025）通过一个剪枝工具向智能体暴露上下文管理，使其能够总结选定的历史消息、删除原始消息并附加摘要。这些方法预先指定管理操作，和/或要求智能体学习何时以及如何管理自己的上下文，通常将上下文管理与智能体训练耦合在一起。相比之下，AdaCoM训练一个外部管理器来管理上下文，同时保持底层智能体不变。

**LLM智能体的长期记忆。** 一条相关但独立的线工作是研究LLM智能体的长期记忆（Hu et al., 2025）。这些方法专注于跨会话、任务或用户存储和检索信息，包括事实知识和经验记忆。代表性系统包括Mem0（Chhikara et al., 2025）、A-Mem（Xu et al., 2026）、Memory-R1（Yan et al., 2025）和G-Memory（Zhang et al., 2026）。我们的工作与此方向互补。我们研究的是单个长周期任务中的**工作记忆管理**，旨在保持智能体活跃上下文对任务完成有用，而不是构建跨对话的持久记忆。

## 3 自适应上下文管理

本节介绍AdaCoM，一个用于长周期智能体任务的自适应上下文管理框架。我们首先描述其工作流程和灵活修改操作空间（第3.1节），然后介绍训练上下文管理器的强化学习过程（第3.2节）。

### 3.1 灵活上下文管理范式

**智能体的原始工作流程。** 给定一个任务查询qq，一个ReAct风格智能体A\\mathcal\{A\}在轮次tt维护累积上下文ctvanilla=\(q,a1,o1,...,at,ot\)c\_\{t\}^\{\\mathrm\{vanilla\}\}=\(q,a\_\{1\},o\_\{1\},\\ldots,a\_\{t\},o\_\{t\}\)，其中aia\_\{i\}包含智能体的推理和工具调用，oio\_\{i\}是相应的环境观察。智能体通过基于整个上下文的条件生成生成下一个动作：at\+1∼A\(ctvanilla\)a\_\{t\+1\}\\sim\\mathcal\{A\}\(c\_\{t\}^\{\\mathrm\{vanilla\}\}\)。这种仅追加的工作流程在长周期任务中常见，但随着上下文积累，容易遭受长上下文退化。

**AdaCoM增强的工作流程。** AdaCoM使用外部管理器修改智能体的运行上下文，保持底层智能体A\\mathcal\{A\}冻结。我们用πθ\(⋅∣p\)\\pi\_\{\\theta\}\\\(\\cdot\\mid p\)表示上下文管理器的策略，该策略根据管理提示pp选择结构化修改操作。令c~t−1\\tilde\{c\}\_\{t\-1\}表示轮次t−1t-1之后的已管理上下文，其中c~0=\(q\)\\tilde\{c\}\_\{0\}=\(q\)。在轮次tt，智能体首先基于已管理上下文行动，at∼A\(c~t−1\)a\_\{t\}\\sim\\mathcal\{A\}\(\\tilde\{c\}\_\{t\-1\}\)，环境返回观察oto\_\{t\}。我们将新的动作和观察追加，得到管理前上下文ct=Append\(c~t−1,at,ot\)c\_\{t\}=\\mathrm\{Append\}\(\\tilde\{c\}\_\{t\-1\},a\_\{t\},o\_\{t\}\)。管理器采样结构化修改操作mt∼πθ\(⋅∣pt\)m\_\{t\}\\sim\\pi\_\{\\theta\}\(\\cdot\\mid p\_\{t\}\)，其中pt=P\(ct\)p\_\{t\}=\\mathcal\{P\}\(c\_\{t\}\)，P\\mathcal\{P\}构造带有管理指令和输出模式的提示。将mtm\_\{t\}应用于ctc\_\{t\}产生下一个已管理上下文c~t\\tilde\{c\}\_\{t\}。下一个智能体动作随后从c~t\\tilde\{c\}\_\{t\}生成。

**AdaCoM的操作空间。** AdaCoM的一个核心设计目标是操作级别的灵活性。我们不预先提交给摘要等预定义操作，而是将上下文管理公式化为对消息序列的通用修改。在每一轮，管理前上下文ctc\_\{t\}表示为带有唯一消息ID的有序消息列表。管理器操作mtm\_\{t\}是修改操作的结构化列表，以JSON形式表示为：

mt=\[δt\(1\),δt\(2\),...,δt\(nt\)\],m\_\{t\}=\\bigl\[\\delta\_\{t\}^\{\(1\)\},\\delta\_\{t\}^\{\(2\)\},\\ldots,\\delta\_\{t\}^\{\(n\_\{t\}\)\}\\bigr\],

其中每个操作δt\(j\)\\delta\_\{t\}^\{\(j\)\}选择一个或多个消息，并指定如何重写、删除或合并它们；它还可以指定结果消息的角色。每个操作包含四个字段：(1) ids\(j\)\\mathrm\{ids\}^\{\(j\)\}，目标消息的ID；(2) role\(j\)∈{system,user,assistant}\\mathrm\{role\}^\{\(j\)\}\\in\\\{\\textsc\{system\},\\textsc\{user\},\\textsc\{assistant\}\\\}，结果消息的角色；(3) justification\(j\)\\mathrm\{justification\}^\{\(j\)\}，一个简短的理由，引出管理器对修改的推理，鼓励更高质量的编辑；在将已管理上下文展示给智能体之前会被移除；(4) new\_content\(j\)\\mathrm\{new\\\_content\}^\{\(j\)\}，结果内容，其中空内容删除目标消息，非空内容重写或合并它们。未被任何操作选择的消息保持不变，空操作列表使上下文保持不变。完整的管理器提示见附录H。

该操作空间支持超越固定策略的多种上下文管理操作。AdaCoM可以移除过时信息、压缩冗余证据、合并相关消息，或在需要保真时保持上下文不变。

### 3.2 训练上下文管理器

**问题形式化。** 我们将管理器学习形式化为由冻结智能体和环境诱导的马尔可夫决策过程（MDP）。在每个管理步骤tt，当前管理前上下文ctc\_\{t\}格式化为提示pt=P\(ct\)p\_\{t\}=\\mathcal\{P\}\(c\_\{t\}\)。管理器策略发出结构化修改操作mt∼πθ\(⋅∣pt\)m\_\{t\}\\sim\\pi\_\{\\theta\}\(\\cdot\\mid p\_\{t\}\)，然后应用于ctc\_\{t\}以更新已管理上下文。一次展开（rollout）产生一系列管理器决策点τ=\(\(p1,m1\),...,\(pT,mT\)\)\\tau=\(\(p\_\{1\},m\_\{1\}\),\\ldots,\(p\_\{T\},m\_\{T\}\)\)。展开在冻结智能体发出最终答案或超过最大交互步骤数时终止。轨迹级别的结果奖励是智能体最终答案的任务奖励。

**训练概览。** 我们首先使用监督微调（SFT）来初始化管理器以具备所需输出格式，然后使用组相对策略优化（GRPO）（Shao et al., 2024）进行优化。对于每个查询，我们从当前管理器策略中采样多个展开，并评估由冻结智能体产生的最终答案。对于具有确定性答案的任务，LLM评判器将最终答案与真实答案比较并产生二进制分数；对于开放式的任务，则根据任务特定的评分标准对答案评分。

**过程奖励设计。** 我们额外引入了过程奖励，以改善长周期交互中的信用分配。我们使用基于规则的过程奖励，直接从轨迹计算，无需调用额外的LLM评判器。如果已管理上下文超过给定的上下文长度限制，我们对导致超长上下文的那个管理步骤施加**令牌惩罚**。当智能体连续两次使用相同工具名称进行工具调用时...

面向长周期任务的智能体兼容上下文管理

相似文章

GenericAgent：一种通过上下文信息密度最大化实现高效自我演进的通用LLM智能体（V1.0）

CoMIC：云边系统中面向长时任务的大语言模型代理的协作记忆与洞察循环

GoLongRL：面向能力的长上下文强化学习与多任务对齐

ACC：编译智能体轨迹以实现长上下文训练

从历史到状态：面向 LLM 智能体的恒定上下文技能学习

提交意见反馈