计划不持久:为何上下文管理对LLM智能体至关重要
摘要
本文研究了LLM智能体在长时间交互过程中如何因计划信息被从上下文中驱逐而丢失。通过重放配对和压缩压力测试,作者展示了标准智能体不会将计划作为持久状态携带,并提出了衡量计划信号衰减的诊断方法。
查看缓存全文
缓存时间: 2026/06/25 17:13
论文页面 - 计划不会持续:为何上下文管理对 LLM 智能体至关重要
来源:https://huggingface.co/papers/2606.22953
摘要
标准 LLM 智能体依赖计划内容保留在上下文中,而非将其作为持久化状态维护,这一结论通过重放配对诊断和压缩压力测试得到验证。长程智能体依赖于上下文管理(https://huggingface.co/papers?q=context%20management):系统会压缩、总结并驱逐旧 token,以便任务能在有限窗口之外继续。这仅在丢弃的信息不再需要或已被内化时才是安全的。计划是压力案例:它们在早期被编写,用于多个步骤,并且最先被驱逐。我们引入了重放配对(replay pairing),这是一种诊断方法,用于在包含和不包含计划历史的相同轨迹上运行,并测量隐藏状态余弦距离(https://huggingface.co/papers?q=hidden-state%20cosine%20distance)。在 Llama-3.1-70B 上,计划信号(https://huggingface.co/papers?q=plan%20signal)在计划后一步骤飙升至 0.453,然后在单个动作-观察步骤中下降 4.1 倍;HotpotQA 则下降 12.4 倍。这证明了标准 LLM 智能体不会将计划作为持久化状态向前传递,而是依赖计划保留在上下文中。一个层-L32 探针(https://huggingface.co/papers?q=layer-L32%20probe)检测到这种衰减作为诊断,而非证明它能读取计划内容本身。推理模型引入了一个测量混杂因素:它们的 迹会重新推导计划内容,因此标准剥离会在剥离条件下留下计划证据。我们将此命名为推理-迹混杂因素(https://huggingface.co/papers?q=reasoning-trace%20confound),并使用严格剥离(https://huggingface.co/papers?q=strict%20stripping)来修复它,该方法仅从剥离的运行中移除先前的 块。它在样本内恢复了 +163% 的步骤+1 信号,在样本外恢复了 +153%,同时未显著改变非推理型 Llama(+4.8%)。在 DeepSeek-R1-Distill-Llama-70B 上,一个 Llama 训练的探针以 AUROC(https://huggingface.co/papers?q=AUROC)0.748(p=6e-4)迁移,而 R1 专用探针达到 1.000,表明 R1 以不同的隐藏状态方向编码了计划信号(https://huggingface.co/papers?q=plan%20signal)。最后,一个压缩压力测试显示了实际代价:简单计划驱逐使 ALFWorld(https://huggingface.co/papers?q=ALFWorld)成功率下降 34.7 个百分点,而探针门控的重新浮现并未恢复。本贡献是一个测量和压力测试框架,表明智能体关键信息可能是上下文驻留而非持久化的。上下文管理(https://huggingface.co/papers?q=Context%20management)是承重的,但仅保护计划是不够的。
查看 arXiv 页面(https://arxiv.org/abs/2606.22953)
查看 PDF(https://arxiv.org/pdf/2606.22953)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.22953)
在您的智能体中获取此论文:hf papers read 2606.22953
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型
0
没有模型链接此论文。在模型 README.md 中引用 arxiv.org/abs/2606.22953 以将其链接到此页面。
引用此论文的数据集
0
没有数据集链接此论文。在数据集 README.md 中引用 arxiv.org/abs/2606.22953 以将其链接到此页面。
引用此论文的 Space
0
没有 Space 链接此论文。在 Space README.md 中引用 arxiv.org/abs/2606.22953 以将其链接到此页面。
包含此论文的收藏
0
没有收藏包含此论文。将这篇论文添加到收藏(https://huggingface.co/new-collection)以将其链接到此页面。
相似文章
更少上下文,更智能代理:面向长周期工具使用的LLM代理的高效上下文工程
本文评估了企业工具使用工作流中LLM代理的上下文工程配置,表明选择性修剪的摘要化相比全上下文基线实现了91.6%的准确率,同时将令牌使用量减少了60%以上。
@omarsar0: // LLM 智能体中的记忆诅咒 //(建议收藏)过长的历史记录显然会导致智能体性能下降,因为它们变得越来越…
本研究论文揭示了 LLM 智能体中的“记忆诅咒”现象,证明扩大的上下文窗口会通过削弱前瞻性意图,系统性地破坏多智能体社会困境中的合作行为。作者表明,通过定向微调、合成记忆净化以及减少显式思维链(Chain-of-Thought)推理,可有效缓解此类行为衰退。
当工具失灵:LLM智能体动态重新规划与异常恢复的基准测试
ToolMaze基准测试评估了LLM智能体处理真实世界工具故障的能力,揭示了隐式语义故障导致的性能下降最为显著,而动态重新规划仍是模型扩展或提示工程无法解决的关键瓶颈。
为何重试会失败:LLM 智能体流水线中的上下文污染
本文提出了上下文污染重启模型(Context-Contaminated Restart Model, CCRM),以形式化分析 LLM 智能体流水线中失败的尝试如何污染上下文并在重试期间增加错误率。文章提供了理论证明,并针对 SWE-bench 数据验证了该模型,结果显示其与标准独立模型存在显著差异。
智能体是否需要逐步规划?重新思考以数据为中心的工具调用中的规划视野
本文认为,在以数据为中心的大语言模型智能体任务中,采用延迟重规划的全视野规划比逐步执行更为高效,在保持准确率的同时大幅减少了Token消耗。