计划不持久:为何上下文管理对LLM智能体至关重要

Hugging Face Daily Papers 论文

摘要

本文研究了LLM智能体在长时间交互过程中如何因计划信息被从上下文中驱逐而丢失。通过重放配对和压缩压力测试,作者展示了标准智能体不会将计划作为持久状态携带,并提出了衡量计划信号衰减的诊断方法。

长周期智能体依赖于上下文管理:系统会压缩、总结和驱逐旧token,以便任务能在有限窗口之外继续进行。只有当被丢弃的信息不再需要或已被内化时,这才是安全的。计划是压力测试案例:它们被早期写入,用于许多步骤,并且最先被驱逐。我们引入了重放配对(replay pairing)这一诊断方法,该方法在有无计划的历史中运行相同的轨迹,并测量隐藏状态的余弦距离。在Llama-3.1-70B上,计划信号在计划后一步骤飙升至0.453,然后在单个行动-观察步骤中下降4.1倍;HotpotQA下降12.4倍。这表明标准LLM智能体不会将计划作为持久状态向前传递,而是依赖于计划保留在上下文中。层L32探针检测到这种衰减作为诊断,而不是作为它读取计划内容本身的证明。推理模型增加了一个测量混淆:它们的<think>痕迹会重新推导计划内容,因此标准剥离会在剥离条件下留下计划证据。我们将其命名为推理痕迹混淆(reasoning-trace confound),并通过严格剥离来修复它,仅从剥离运行中移除先前的<think>块。它在样本内恢复了步骤+1信号的163%,在样本外恢复了153%,而对非推理的Llama(+4.8%)没有显著改变。在DeepSeek-R1-Distill-Llama-70B上,Llama训练的探针以AUROC 0.748(p=6e-4)迁移,而R1特定探针达到1.000,表明R1以不同的隐藏状态方向编码计划信号。最后,压缩压力测试显示了实际成本:朴素计划驱逐使ALFWorld成功率下降34.7个百分点,而探针门控的重新浮现并未恢复它。贡献在于一个测量和压力测试框架,显示了智能体关键信息可能是上下文驻留而非持久的。上下文管理至关重要,但仅保护计划是不够的。
查看原文
查看缓存全文

缓存时间: 2026/06/25 17:13

论文页面 - 计划不会持续:为何上下文管理对 LLM 智能体至关重要

来源:https://huggingface.co/papers/2606.22953

摘要

标准 LLM 智能体依赖计划内容保留在上下文中,而非将其作为持久化状态维护,这一结论通过重放配对诊断和压缩压力测试得到验证。长程智能体依赖于上下文管理(https://huggingface.co/papers?q=context%20management):系统会压缩、总结并驱逐旧 token,以便任务能在有限窗口之外继续。这仅在丢弃的信息不再需要或已被内化时才是安全的。计划是压力案例:它们在早期被编写,用于多个步骤,并且最先被驱逐。我们引入了重放配对(replay pairing),这是一种诊断方法,用于在包含和不包含计划历史的相同轨迹上运行,并测量隐藏状态余弦距离(https://huggingface.co/papers?q=hidden-state%20cosine%20distance)。在 Llama-3.1-70B 上,计划信号(https://huggingface.co/papers?q=plan%20signal)在计划后一步骤飙升至 0.453,然后在单个动作-观察步骤中下降 4.1 倍;HotpotQA 则下降 12.4 倍。这证明了标准 LLM 智能体不会将计划作为持久化状态向前传递,而是依赖计划保留在上下文中。一个层-L32 探针(https://huggingface.co/papers?q=layer-L32%20probe)检测到这种衰减作为诊断,而非证明它能读取计划内容本身。推理模型引入了一个测量混杂因素:它们的 迹会重新推导计划内容,因此标准剥离会在剥离条件下留下计划证据。我们将此命名为推理-迹混杂因素(https://huggingface.co/papers?q=reasoning-trace%20confound),并使用严格剥离(https://huggingface.co/papers?q=strict%20stripping)来修复它,该方法仅从剥离的运行中移除先前的 块。它在样本内恢复了 +163% 的步骤+1 信号,在样本外恢复了 +153%,同时未显著改变非推理型 Llama(+4.8%)。在 DeepSeek-R1-Distill-Llama-70B 上,一个 Llama 训练的探针以 AUROC(https://huggingface.co/papers?q=AUROC)0.748(p=6e-4)迁移,而 R1 专用探针达到 1.000,表明 R1 以不同的隐藏状态方向编码了计划信号(https://huggingface.co/papers?q=plan%20signal)。最后,一个压缩压力测试显示了实际代价:简单计划驱逐使 ALFWorld(https://huggingface.co/papers?q=ALFWorld)成功率下降 34.7 个百分点,而探针门控的重新浮现并未恢复。本贡献是一个测量和压力测试框架,表明智能体关键信息可能是上下文驻留而非持久化的。上下文管理(https://huggingface.co/papers?q=Context%20management)是承重的,但仅保护计划是不够的。
查看 arXiv 页面(https://arxiv.org/abs/2606.22953)
查看 PDF(https://arxiv.org/pdf/2606.22953)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.22953)
在您的智能体中获取此论文:hf papers read 2606.22953
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型

0
没有模型链接此论文。在模型 README.md 中引用 arxiv.org/abs/2606.22953 以将其链接到此页面。

引用此论文的数据集

0
没有数据集链接此论文。在数据集 README.md 中引用 arxiv.org/abs/2606.22953 以将其链接到此页面。

引用此论文的 Space

0
没有 Space 链接此论文。在 Space README.md 中引用 arxiv.org/abs/2606.22953 以将其链接到此页面。

包含此论文的收藏

0
没有收藏包含此论文。将这篇论文添加到收藏(https://huggingface.co/new-collection)以将其链接到此页面。

相似文章

@omarsar0: // LLM 智能体中的记忆诅咒 //(建议收藏)过长的历史记录显然会导致智能体性能下降,因为它们变得越来越…

X AI KOLs Following

本研究论文揭示了 LLM 智能体中的“记忆诅咒”现象,证明扩大的上下文窗口会通过削弱前瞻性意图,系统性地破坏多智能体社会困境中的合作行为。作者表明,通过定向微调、合成记忆净化以及减少显式思维链(Chain-of-Thought)推理,可有效缓解此类行为衰退。

为何重试会失败:LLM 智能体流水线中的上下文污染

arXiv cs.AI

本文提出了上下文污染重启模型(Context-Contaminated Restart Model, CCRM),以形式化分析 LLM 智能体流水线中失败的尝试如何污染上下文并在重试期间增加错误率。文章提供了理论证明,并针对 SWE-bench 数据验证了该模型,结果显示其与标准独立模型存在显著差异。