内存增强型LLM智能体中的状态污染

arXiv cs.AI 论文

摘要

本文识别并研究了LLM智能体中的“记忆洗白”现象,即有毒或对抗性上下文被压缩成记忆摘要后,能够逃避标准毒性检测器,同时仍影响后续生成。文章引入了亚阈值传播间隙(SPG)来衡量隐藏的下游影响,并表明在摘要之前对有毒状态进行消毒比事后清理更有效。

arXiv:2605.16746v1 公告类型:新 摘要:LLM智能体越来越依赖持久状态,包括记录、摘要、检索上下文和记忆缓冲区,以支持长程交互。这使得安全性不仅取决于单个模型输出,还取决于智能体存储和后续重用的内容。我们研究了一种称为“记忆洗白”的故障模式:有毒或对抗性上下文可以被压缩成记忆摘要,这些摘要在标准检测器下不再显示毒性,但仍保留敌意框架或冲突结构,从而影响后续生成。通过使用配对反事实多智能体推演,我们表明,有毒来源的记忆摘要可以保持在常见毒性阈值以下,同时相对于匹配的中性基线增加下游毒性。为了衡量这种隐藏影响,我们引入了亚阈值传播间隙(SPG),它量化了在部署监控器会判定为安全的记忆状态下的下游行为差异。我们的实验表明,毒性通过不同的状态通道传播:原始记录的重复使用驱动显性下游毒性,而压缩记忆携带隐藏的亚阈值影响。我们进一步发现,缓解措施的关键在于干预位置。在摘要之前对有毒状态进行消毒可以大幅减少隐藏传播间隙,而仅清理已完成摘要则可能使洗白的影响保持完整。这些结果表明,内存增强型智能体的安全性应被视为一个对演化上下文的状态控制问题,并且消毒应在不安全信息被压缩到持久内存之前进行。
查看原文
查看缓存全文

缓存时间: 2026/05/19 06:35

# 记忆增强型 LLM 智能体中的状态污染 来源:https://arxiv.org/html/2605.16746 王一安 Agam Goyal Yuen Chen Hari Sundaram 伊利诺伊大学厄巴纳-香槟分校计算机科学系 ###### 摘要 LLM 智能体越来越依赖于持久状态,包括对话记录、摘要、检索到的上下文和记忆缓冲区,以支持长程交互。这使得安全性不仅取决于单个模型的输出,还取决于智能体存储和后续重用的内容。我们研究了一种我们称之为记忆清洗的失效模式:有毒或对抗性上下文可以被压缩成记忆摘要,这些摘要不再被标准检测器视为有毒,但仍保留了影响未来生成的敌对框架或冲突结构。通过使用配对的、反事实的多智能体 rollout,我们表明,源于有毒内容的记忆摘要可以保持在常见毒性阈值以下,同时相对于匹配的中性基线,仍会增加下游毒性。为了衡量这种隐藏的影响,我们引入了阈下传播差距 (SPG),它量化了在部署的监控器会判定为安全的记忆状态条件下的下游行为差异。我们的实验表明,毒性通过不同的状态通道传播:原始对话记录的重复使用驱动显性下游毒性,而压缩后的记忆则携带隐藏的阈下影响。我们进一步发现,缓解策略的关键取决于干预措施的位置。在摘要之前对有毒状态进行净化,会显著减少隐藏的传播差距,而仅清理已完成的摘要可能使被清洗的影响保持不变。这些结果表明,在记忆增强型智能体中,安全性应被视作一个针对演化上下文的状态控制问题,并且在将不安全信息压缩到持久记忆之前就应进行净化。

## 1 引言

LLM 系统越来越多地运行在长期任务上:与用户协调、与其他智能体协作、总结讨论、检索先前信息以及随时间推移向前传递上下文(Wang 等人, 2025b (https://arxiv.org/html/2605.16746#bib.bib27); Wu 等人, 2025 (https://arxiv.org/html/2605.16746#bib.bib28); Xi 等人, 2025 (https://arxiv.org/html/2605.16746#bib.bib29); Kulkarni 等人, 2024 (https://arxiv.org/html/2605.16746#bib.bib30))。这种记忆和重用上下文的能力对于智能体的实用性至关重要,但它也使记忆成为系统安全表面的一部分(Wang 等人, 2025a (https://arxiv.org/html/2605.16746#bib.bib32); Kagaya 等人, 2024 (https://arxiv.org/html/2605.16746#bib.bib31))。然而,同样的能力也改变了安全问题的性质。在单轮聊天机器人中,不安全的响应通常可以被视为需要检测、阻止或重写的糟糕输出(Shi 等人, 2024 (https://arxiv.org/html/2605.16746#bib.bib33); Chua 等人, 2024 (https://arxiv.org/html/2605.16746#bib.bib34))。然而,在智能体系统中,有害信息可能在生成后并不会消失。它可能被存储、总结、检索或传递给其他智能体,成为塑造未来行为的上下文的一部分(Gao 和 Zhang, 2024 (https://arxiv.org/html/2605.16746#bib.bib37); Rezazadeh 等人, 2025 (https://arxiv.org/html/2605.16746#bib.bib36))。因此,安全性不仅取决于智能体在某一时刻说了什么,还取决于系统从该时刻记住了什么,以及该记忆如何影响后续生成,以及它们所连接下的拓扑配置(Yagoubi 等人, 2026 (https://arxiv.org/html/2605.16746#bib.bib38); Bajaj 等人, 2026 (https://arxiv.org/html/2605.16746#bib.bib35))。

参见说明文字
图 1:有状态智能体中的记忆清洗。(a) 在单轮聊天机器人中,安全监控通常直接应用于生成的响应。在记忆增强型智能体中,有害影响反而可能被压缩到外部智能体状态中,例如摘要或记录,这些状态在标准的毒性检查下看似安全,同时仍会影响下游智能体产生不安全行为。(b) 在我们的工作中,我们表明在摘要之前进行记忆净化有助于缓解记忆清洗。(c) 以一个代表性示例为例,来自某个智能体的有毒源消息被压缩成一个分数低于分类器阈值的记忆摘要,然而,受该记忆影响的下游智能体却产生了充满敌意的响应。摘要去除了明确的侮辱性语言,同时保留了交流中的对抗性框架。更多示例见 §D (https://arxiv.org/html/2605.16746#A4)。

图̃1 (https://arxiv.org/html/2605.16746#S1.F1) 说明了本文研究的失效模式。许多智能体系统将长对话压缩成短摘要,以便未来的智能体无需阅读完整历史就能保持信息更新(Xu 等人, 2025 (https://arxiv.org/html/2605.16746#bib.bib39); Verma, 2026 (https://arxiv.org/html/2605.16746#bib.bib40); Bousetouane, 2026 (https://arxiv.org/html/2605.16746#bib.bib41); Du, 2026 (https://arxiv.org/html/2605.16746#bib.bib42))。这种压缩通常被视为一个实用的工程步骤:它可以节省上下文长度并保留交互中的重要部分。我们表明,它也可以成为一个清洗步骤。一条有毒消息可能被总结成在标准分类器看来不再有毒的语言,同时仍然保留着敌对框架、冲突结构或敌对立场,从而引导下游智能体产生有毒行为。我们将这种失效模式称为**记忆清洗**:有毒影响被压缩成一个记忆摘要,该摘要看似在标准监控下是安全的,但在行为上仍然有效,导致下游智能体产生比匹配的中性基线更多的有毒响应。

图̃1 (https://arxiv.org/html/2605.16746#S1.F1) 给出了一个具体示例:一条有毒消息被压缩成一个对毒性分类器来说看似安全的记忆摘要,然而受该记忆影响的下游智能体仍然产生了充满敌意的响应。我们通过超过 200 个配对标量的配对反事实多智能体 rollout 来评估记忆清洗。尽管有毒条件摘要低于标准毒性阈值,但它们显著增加了下游毒性。我们使用**阈下传播差距** (SPG) 来捕捉这种隐藏的影响:即满足 \(\mathrm{tox}(M_{t})<\tau\) 的记忆状态条件下的有毒-中性下游差异,换句话说,这是部署的监控器会标记为安全的范围。这里,**状态**指的是被未来生成重用的外部上下文:原始对话记录、压缩的记忆摘要、检索到的上下文以及其他持久的上下文对象。它不指代模型的参数或隐藏激活。当这种条件状态被污染、压缩并随后重用时,就会发生记忆清洗。

我们的结果表明,有毒影响通过两种不同的状态通道传播。原始对话记录的回流主要驱动显性下游毒性,而压缩的记忆则携带隐藏的阈下影响。这种区别很重要,因为在记忆更新之前进行净化可以关闭被清洗的通道,而仅清理已完成的摘要可能为时已晚,因为有害的框架可能已经被压缩到分类器阈值以下。

**贡献。** (1) 我们识别并实证描述了**记忆清洗**,这是一种在记忆增强型 LLM 智能体中先前未被研究过的安全失效模式:摘要可以将明显有毒的上下文转变为分类器认为干净的记忆状态,然而这些状态仍然会引导下游智能体产生有毒行为。(2) 我们引入了**阈下传播差距** (SPG),这是一种配对反事实度量,用于测量在部署的记忆监控器会判定为安全的范围内的行为影响。通过使用 SPG 以及平均下游毒性偏移 (\(\Delta\mu\)) 和尾部毒性统计量 (\(P95_{\text{tox}}\)),我们表明对话记录暴露驱动显性毒性,而压缩记忆则携带隐藏的阈下影响。(3) 我们表明,缓解措施的效果取决于净化的位置:有毒状态必须在被总结之前进行净化,因为仅清理已完成的摘要可能会遗漏被清洗的影响。我们评估了一个与模型无关的状态控制框架,该框架结合了对话记录控制、记忆控制和 DPO,并表明完整的系统最能抑制平均、隐藏和尾部传播。

## 2 相关工作

**LLM 智能体中的记忆和状态。** 最近的 LLM 智能体架构越来越依赖外部状态:对话历史、检索到的文档、记忆缓冲区、反思和在各轮次间重用的摘要 (Ai 等人, 2025 (https://arxiv.org/html/2605.16746#bib.bib48); Wang 等人, 2025b (https://arxiv.org/html/2605.16746#bib.bib27))。先前的工作表明,这种状态能改善长程交互、规划和协调 (Xi 等人, 2025 (https://arxiv.org/html/2605.16746#bib.bib29))。生成式智能体存储自然语言记忆,将其综合成反思,并检索它们以指导后续行为 (Park 等人, 2023 (https://arxiv.org/html/2605.16746#bib.bib43)); Reflexion 使用存储在情景记忆中的口头反馈来改进后续决策 (Shinn 等人, 2023 (https://arxiv.org/html/2605.16746#bib.bib44)); MemGPT 将长上下文交互视为一个内存管理问题 (Packer 等人, 2023 (https://arxiv.org/html/2605.16746#bib.bib45)); 而 AutoGen 通过共享的交互模式组合多个可对话的智能体 (Wu 等人, 2024 (https://arxiv.org/html/2605.16746#bib.bib46))。这些系统激发了我们的设定:记忆不仅仅是过去交互的日志,更是塑造未来行为的输入。

然而,先前的工作在很大程度上将记忆视为一种能力机制或一个待检索的对象,而我们则是将记忆作为一个行为安全表面来研究,该表面可能看似无害,却在引导未来生成。

**智能体系统中的不安全上下文传播。** 最近的工作表明,当不安全的上下文被存储、检索或在后续模型调用中重用时,LLM 应用会变得脆弱。间接提示注入表明,外部内容可以被解释为指令,利用了 LLM 集成系统中数据和命令之间模糊的界限 (Greshake 等人, 2023 (https://arxiv.org/html/2605.16746#bib.bib12))。记忆和检索投毒攻击将这种风险扩展到智能体环境,表明长期记忆或知识库可以被操纵以引导未来智能体的行为 (Chen 等人, 2024 (https://arxiv.org/html/2605.16746#bib.bib47))。自我传播的智能体攻击进一步表明,一旦恶意载荷进入持久的智能体状态,它可以在下游工具、应用程序或智能体生态系统中传播 (Cohen 等人, 2024 (https://arxiv.org/html/2605.16746#bib.bib10); Zhang 等人, 2026 (https://arxiv.org/html/2605.16746#bib.bib13))。诸如结构化提示和上下文特权分离等防御措施旨在防止不受信任的数据被解释为特权指令 (Chen 等人, 2025 (https://arxiv.org/html/2605.16746#bib.bib5))。

我们的工作从一个互补的角度来处理这个问题,因为记忆清洗不需要显式的指令载荷、后门触发器或跨阈值的有毒产物。

**从输出级安全与遗忘到状态级缓解。** 安全方法通常干预模型输出或模型参数。基于可解释性的技术通过对模型激活进行干预来检测和阻止不安全的生成 (Goyal 等人, 2025 (https://arxiv.org/html/2605.16746#bib.bib50); Wang 等人, 2026 (https://arxiv.org/html/2605.16746#bib.bib49)),而遗忘和偏好优化旨在减少模型内部的不安全知识或行为 (Jang 等人, 2023 (https://arxiv.org/html/2605.16746#bib.bib17); Rafailov 等人, 2023 (https://arxiv.org/html/2605.16746#bib.bib26); Yao 和 Xu, 2024 (https://arxiv.org/html/2605.16746#bib.bib21))。像 TOFU 和 WMDP 这样的基准测试评估特定知识或能力是否可以从模型行为中移除 (Maini 等人, 2024 (https://arxiv.org/html/2605.16746#bib.bib18); Li 等人, 2024 (https://arxiv.org/html/2605.16746#bib.bib19)),最近的工作表明,在长上下文、预训练或多轮暴露于潜在有害内容下,安全性会下降 (Anil 等人, 2024 (https://arxiv.org/html/2605.16746#bib.bib6); Chiang 等人, 2025 (https://arxiv.org/html/2605.16746#bib.bib7); Xing 等人, 2025 (https://arxiv.org/html/2605.16746#bib.bib1))。这些方法很重要,但对于我们研究的失效模式来说是不够的。

在记忆清洗中,是外部条件状态被摘要转换并随后重用。这激发了对智能体读取什么、写入什么以及何时更新记忆进行状态级控制。

## 3 问题形式化

我们研究多智能体 LLM 系统中的**状态通道毒性传播**:有毒影响如何在演化的交互状态中持续存在,哪些通道承载了它,以及哪些缓解措施能够关闭这些通道。与每条消息的毒性评估或经典的参数级遗忘不同,这聚焦于通过对话记录、压缩记忆和模型寄存器匹配进行的有状态行为传播。

### 3.1 智能体中介对话作为状态机

我们将一个智能体中介的讨论建模为一个有向图 \(G=(V,E)\),该图是基于一个共享的、不断演化的状态生成的。该过程始于一个人工种子帖子 \(s\),然后经过一系列由智能体生成的消息。每个节点 \(v \in V\) 代表一条由智能体 \(a_v \in \mathcal{A}\) 生成的消息 \(x_v\),每条边 \((u \to v) \in E\) 表示 \(x_v\) 是在以 \(x_u\) 为条件的情况下生成的。作者映射 \(v \mapsto a_v\) 是**多对一**的:一个单一的智能体可以在图中创作多个节点。这对于下面定义的焦点智能体 \(A_1\) 很重要,在**多次注入**条件下,它在一条线程中创作了多个回复,而不仅仅是第一个回复。

在每次生成步骤 \(t\),行动的智能体观察一个从当前状态中抽取的**条件集** \(\mathcal{C}(v)\),并生成一条消息:
\[
x_v \sim \pi_{\theta}(\cdot \mid \mathcal{C}(v), r_v),
\]
其中 \(\pi_{\theta}\) 是智能体的策略(由参数为 \(\theta\) 的 LLM 参数化),\(\mathcal{C}(v)\) 是可见上下文,\(r_v\) 表示智能体的角色。然后状态被更新以包含 \(x_v\),使其可供未来的智能体使用。这个观察-生成-更新循环创建了一个闭环动力系统,其中每个智能体的输出都成为后续智能体条件上下文的一部分。

### 3.2 有毒影响作为有状态污染

我们将**焦点智能体** \(A_1\) 定义为对种子帖子的第一个响应者,并改变 \(A_1\) 的行为:\(A_1 \in \{\texttt{neutral}, \texttt{toxic}\}\),同时保持所有其他组件固定,并且每条消息都由一个开源毒性模型评分以确保可重复性(Detoxify (Hanu 和团队, 2020 (https://arxiv.org/html/2605.16746#bib.bib3))):
\[
\mathrm{tox}(v) = f_{\mathrm{tox}}(x_v) \in [0, 1]
\]
其中值越大表示越有毒。阈值 \(\tau = 0.5\) 将消息标记为明显有毒。如果下游智能体(其设计是中性的)在有 \(A_1\) 有毒的条件下产生的可测量毒性显著高于在中性条件下,那么我们就说**有毒影响传播**。为了将下游传播与 \(A_1\) 自身的贡献隔离开来,我们将平均值限制在**并非由 \(A_1\) 创作**的节点上。设 \(V_{A_1} = \{v \in V : a_v = A_1\}\) 表示集合 s

相似文章

@omarsar0: // LLM 智能体中的记忆诅咒 //(建议收藏)过长的历史记录显然会导致智能体性能下降,因为它们变得越来越…

X AI KOLs Following

本研究论文揭示了 LLM 智能体中的“记忆诅咒”现象,证明扩大的上下文窗口会通过削弱前瞻性意图,系统性地破坏多智能体社会困境中的合作行为。作者表明,通过定向微调、合成记忆净化以及减少显式思维链(Chain-of-Thought)推理,可有效缓解此类行为衰退。

MemEvoBench:LLM 代理内存误演化基准测试

arXiv cs.CL

MemEvoBench 引入了首个用于评估 LLM 代理内存安全性的基准测试,衡量对抗性内存注入、噪声输出和有偏反馈在问答与工作流任务中导致的行为衰退。该研究表明内存演化是安全失败的重要因素,且静态防御措施不足以应对。

STALE:LLM智能体能否识别记忆何时失效?

Hugging Face Daily Papers

本文识别了LLM智能体中的一个关键失效模式:当新证据与先前信念冲突时,它们无法更新个性化记忆。本文引入了STALE基准和一个三维探测框架,揭示了即使最佳模型也仅达到55.2%的准确率,并提出了CUPMem作为鲁棒记忆修正的原型。

毒性幻觉:扰动提示并追踪LLM电路

arXiv cs.CL

本文研究了提示中的毒性词汇扰动如何降低LLM的事实准确性并增加不确定性,并使用归因图分析追踪内部变化。研究发现,增加毒性会放大对扰动敏感的变异节点,而核心推理节点保持不变。