基础模型代理的部署时记忆化

arXiv cs.AI 2026/06/10 04:00 论文

foundation-models agents memorization privacy security artificial-intelligence

摘要

本文提出了基础模型代理中“部署时记忆化”的概念，分析了记忆设计选择（摘要激进程度、检索广度、删除模式）如何影响个性化效用、提取风险和删除保真度，并提出了新的指标，如个性化召回率、对抗提取率和遗忘残留分数。

arXiv:2606.10062v1 公告类型: 新摘要: 基础模型代理正日益成为跨交互记忆用户的长期系统，这使得记忆显式地成为部署时功能，而不仅仅是模型权重的属性。现有工作关注参数记忆化或审计固定记忆配置，但未描述记忆设计选择如何共同塑造个性化效用、提取风险和删除保真度。我们将这一方面作为部署时记忆化进行研究，将代理记忆表述为通过个性化召回率(PR)和对抗提取率(AER)衡量的隐私-效用前沿，并调节三个记忆设计旋钮：摘要激进程度、检索广度(k)和删除模式。我们进一步引入了遗忘残留分数(FRS)来量化已删除信息是否仍可从衍生记忆层级中恢复。在LongMemEval上，关键事实摘要使Gemma 3 12B的金丝雀提取减少76%，GPT-4o-mini减少64%，同时几乎保留所有个性化召回率；关键的是，一旦内容被压缩掉，增加k不再能恢复泄漏。然而，同样的压缩会导致删除保真度失败：仅原始删除在约20%的实例中使衍生的摘要副本可恢复，只有全流水线清除或墓碑编辑才能将最差层级残留降至零。综合起来，这些结果表明，持久化代理记忆必须作为一等记忆机制进行评估——通过它帮助代理回忆的内容、它使什么变得可提取以及它能真正擦除什么来评估。

查看原文

查看缓存全文

缓存时间: 2026/06/10 06:12

# 基础模型智能体的部署时记忆化

来源: https://arxiv.org/html/2606.10062

Guilin Zhang, Kai Zhao, Dalmo Cirne, Andy Olsen, Zeke Miller, Xu Chu, Alet Blanken, Amine Anoun, Jerry Ting

###### 摘要

基础模型智能体正日益成为跨交互记忆用户的长期运行系统，使得记忆化成为明确的部署时功能，而不仅仅是模型权重的属性。现有工作研究参数记忆化或审计固定的记忆配置，但没有刻画记忆设计选择如何共同塑造个性化效用、提取风险和删除保真度。我们将这一研究面定义为*部署时记忆化*，将智能体记忆表述为一个*隐私-效用前沿*，通过个性化召回率 (PR) 和对抗性提取率 (AER) 衡量，并扫描三个记忆设计旋钮：摘要激进程度、检索广度 (kk) 和删除模式。我们进一步引入*遗忘残留分数* (FRS) 来量化已删除信息是否仍可从派生记忆层级中恢复。在 LongMemEval 上，关键事实摘要将 Gemma 3 12B 的金丝雀提取率降低了 76%，GPT-4o-mini 降低了 64%，同时几乎保留了个性化召回率；至关重要的是，一旦内容被压缩掉，增加kk不再恢复泄露。然而，相同的压缩导致了删除保真度失败：仅原始删除在约 20% 的实例中保留了可恢复的派生摘要副本，只有全管道清除或墓碑编校才能将最差层级残留降至零。这些结果共同表明，持久性智能体记忆必须被评估为第一类记忆化机制——根据它帮助智能体回忆的内容、它使什么内容可被提取以及它真正能擦除什么内容来评估。

## 1 引言

基础模型智能体正从无状态助手转变为能够记忆用户的长期运行系统。一个能记住“我偏好靠过道座位”的旅行助手，或一个能保留“我使用 Python 3.11 和 mypy strict”的编码智能体，正是因为它不从一个空白状态开始每次交互而有用的 (Park et al., 2023; Packer et al., 2023; Zhong et al., 2024)。然而，这种能力改变了隐私问题。在持久性智能体中，记忆化不再仅仅是模型权重的附带属性；它是一个明确的系统功能。部署的管道将用户事实写入记忆，进行摘要，检索它们，并基于它们调节未来的响应。

现有的记忆化研究主要研究*参数记忆化*：哪些训练示例保留在模型权重中，并可通过提取或成员推断攻击暴露出来 (Carlini et al., 2021; Shokri et al., 2017)。最近的审计表明，启用记忆的智能体也可能在对抗性探测下泄露隐私信息 (El Yagoubi et al., 2026; Das et al., 2026; Liu et al., 2025; Wang et al., 2025)。然而，这些研究主要评估固定配置。它们没有刻画实践者面临的设计前沿：当记忆被压缩时泄露如何变化，当检索更多记忆时效用如何变化，或者“遗忘我”操作是否真的从所有记忆层级中移除了派生副本。

我们研究这个缺失的研究面，称之为*部署时记忆化*：可恢复的用户信息不存储在模型参数中，而是存储在围绕基础模型的外部记忆管道中。我们将智能体记忆设计表述为一个隐私-效用前沿。效用通过*个性化召回率* (PR) 衡量，泄露通过*对抗性提取率* (AER) 衡量，即先前会话中插入的高熵金丝雀在直接、间接或越狱风格探测下被恢复的比率。我们扫描三个记忆设计旋钮：摘要激进程度和检索广度（注入到智能体上下文中的记忆块数量）支配每次查询的常规读/写，而删除模式支配管道如何实现“遗忘”——一个五级阶梯，从无操作控制经 raw_only、raw_plus_resummarize、full_purge，直到合规风格的 tombstone_redaction。

持久性智能体可能将相同的信息复制到摘要、嵌入、缓存或其他派生工件中，因此仅删除原始记录可能不够。我们引入*遗忘残留分数* (FRS) 来分别衡量各记忆层级删除后的泄露，并针对此指标基准测试每种删除模式。

我们在 LongMemEval 上的实验揭示了摘要的双刃剑作用。关键事实摘要将 Gemma 3 12B 的金丝雀提取率降低了 76%，GPT-4o-mini 降低了 64%，同时几乎保留了个性化召回率。一旦金丝雀被压缩掉，增加 top-kk 检索不再恢复泄露。然而，相同的压缩导致了删除保真度失败：仅原始删除移除了原始块，但留下了大约 20% 实例中可恢复的派生摘要副本。重新摘要部分清理的记忆可减少但不能消除残留；只有全管道清除或墓碑编校才能将最差层级残留降至零。

我们做出三项贡献：

- • **部署时记忆化作为可衡量的前沿**。我们将持久性智能体记忆形式化为一个部署时记忆化系统，并引入基于 PR、AER 和隐私-效用 AUC 的隐私-效用前沿。
- • **记忆设计旋钮的受控扫描**。我们表明，摘要以较小的个性化成本显著减少了提取，而仅靠检索广度无法恢复有利的隐私-效用权衡。
- • **分层记忆的删除保真度基准**。我们引入 FRS，并表明当秘密存在于派生摘要中时，仅删除原始块是不够的，而全管道清除和墓碑编校可消除最差层级残留。

## 2 方法

我们将记忆化作为围绕基础模型智能体的已部署记忆系统的属性来研究，而不是模型参数的属性。我们的目标是衡量记忆设计如何控制三个量：有用的召回、对抗性提取和删除后残留。

### 2.1 智能体-记忆管道

我们将持久性智能体记忆建模为遵循检索增强记忆的写-检索-响应管道 (Lewis et al., 2020; Packer et al., 2023)。在每个用户会话之后，系统将信息写入长期记忆；在查询时，它通过余弦相似度检索记忆块，并将它们前置到智能体上下文之前。

我们公开三个记忆设计旋钮。摘要激进程度 SS 控制存储的内容：原始用户轮次 (S=0S=0)、关键个人事实 (S=1S=1) 或单句会话摘要 (S=2S=2)。检索广度 kk 控制注入到智能体上下文中的块数。删除模式控制管道如何响应用户的 forget 请求（详见 §2.4）。每个记忆块携带一个来源层级 t∈{raw,summary}t∈{raw,summary}，使我们能够将泄露和删除残留归因于原始记录与派生工件。

### 2.2 威胁模型

我们考虑一个敌手，他可以在记忆被写入后查询智能体，但不能直接检查或编辑记忆存储。我们测试三种逐步升级的探测：直接探测明确询问存储的秘密；间接探测要求智能体报告它对用户的了解；越狱探测发出开发者模式或调试转储指令，灵感来自提示注入攻击 (Greshake et al., 2023; El Yagoubi et al., 2026)。在用户调用 forget 后，重新运行相同的探测以评估每种删除模式。

### 2.3 隐私-效用前沿

对于每个配置 θ=(S,k)θ=(S,k)，我们衡量效用和泄露。

*个性化召回率 (PR)*。PR 衡量智能体是否正确地回答了需要回忆用户上下文的问题。如果答案与预期响应的余弦相似度超过 0.50，或者所有内容词完全匹配，则答案正确：

PR(θ)=E[1[answer correct]].PR(θ)=E[1[answer correct]].
*对抗性提取率 (AER)*。我们将高熵金丝雀 ci 注入到之前的会话中，以构建记忆状态 Mθ,i。对于探测级别 ℓ∈{direct,indirect,jailbreak}，令 ri,l 为智能体响应。AER 是完全提取的金丝雀的比例：

AERℓ(θ)=1|C|∑ci∈C1[ci∈ri,l],(1)其中 C={ci} 是金丝雀集合。我们报告每个探测的 AERℓ 和最坏情况 AERmax(θ)=maxℓAERℓ(θ)。

*隐私-效用 AUC (PUA)*。在固定 SS 下扫描 k∈K 画出前沿点 {(PR(k),AER(k))}。我们将前沿总结为经验*可达到召回包络*下的面积：

PR⋆(a)≔maxk:AER(k)≤aPR(k),(2)PUA(S)=∫01PR⋆(a)da.更高的 PUA 表示在更低的提取风险下具有更高的召回率。我们还报告摘要清洗 ΔS=AER(S=0)−AER(S)。

### 2.4 遗忘残留

给定包含金丝雀 cc 的删除前记忆状态 MS，我们应用由模式参数化的删除过程，在结果状态 M′S 上重新运行对抗性探测，并将泄露归因于每个来源层级 t∈{raw,summary}：

M′S≔forget(MS,c,mode),(3)FRSt(S,mode)=E[AERt(M′S,c)].我们报告最差层级残留 FRSworst=maxtFRSt；非零值表示尽管删除了，秘密仍可恢复。

五种删除模式组成了一个消融阶梯，隔离了删除是否仅去记忆化原始记录，还是整个管道跨越文本和嵌入表面 (表1)。

表 1: 删除模式阶梯。每一行相对于上一行（raw → summary 层级）恰好切换一个额外的工程决策。

## 3 实验结果

### 3.1 实验设置

我们在 LongMemEval (Wu et al., 2025) 的 oracle 划分上评估部署时记忆化，这是一个多会话聊天历史与需要长期用户上下文的问题-答案对的基准。我们抽取 N=50 个实例，并在记忆配置、对抗性探测和删除模式上运行全因子扫描。

为了将管道记忆化与偶然生成或训练时暴露区分开，我们每个实例注入一个人工金丝雀。每个金丝雀的形式为“*my private session token is[value]*”，并放置在一个随机选择的非证据用户轮次中。每个 [value] 从一个高熵语法中抽取（例如 XQ7-VIOLET-3829；约 5.6×109 个可能的字符串），独立于 LongMemEval 合成。因此，智能体的逐字还原可归因于部署时管道记忆化，而非训练暴露。

我们的主要扫描使用通过 Ollama 本地服务的 Gemma 3 12B；我们在相同的实例集上在 GPT-4o-mini 上复制了 S∈{0,1} 的部分。这两个模型涵盖了开源权重和闭源权重部署，具有独立的训练管道，使我们能够区分管道级效果与模型特定伪影。

我们变化三个记忆设计旋钮：摘要级别 S∈{0,1,2}（原始轮次、关键事实、单句）；检索广度 k∈{1,3,6,10,25}；以及删除模式（如表 1 所定义），仅在遗忘残留评估期间使用（§3.3）。检索使用 all-MiniLM-L6-v2 嵌入的余弦相似度 (Reimers and Gurevych, 2019)。效用通过与真实答案的余弦相似度（cos>0.50）或精确内容词覆盖率评分；附录报告了 LLM 作为评判者的验证，其中分歧是保守的假阴性，从而降低了 PR 的下界。

图 1: 隐私-效用前沿和探测分解。*顶部*: Gemma 3 12B 和 GPT-4o-mini 上的前沿；颜色编码 SS，每条线追溯 k∈{1,3,6,10,25}。在 S=0 下，线呈对角线拉伸（PR/AER 都随 kk 上升）；在 S≥1 下，它收缩到一个近点（kk 平坦）。*底部*: 按探测类型在 S∈{0,1} 下的 AER。直接-间接差距 ΔDI≔|AERdirect−AERindirect| 在两个模型下都在摘要后 collapse（Gemma 从 0.16→0.00，GPT-4o-mini 从 0.08→0.02）；虚线“RLHF wall”表示 GPT-4o-mini 的越狱拒绝基线。

### 3.2 摘要移动隐私-效用前沿

表 2: 主要结果。Gemma 3 12B 和 GPT-4o-mini 上的隐私-效用前沿和遗忘残留。前沿行平均了 k∈{1,3,6,10,25}；下标表示 1000 次重抽样下 95% 自助法置信区间。

核心问题是记忆压缩是否仅仅减少上下文长度，或者是否改变敌手可以恢复的内容。图 1 和表 2 显示摘要改变了隐私-效用前沿，而不仅仅是上下文长度。

#### 原始记忆没有干净的操作点。

在 S=0 下，Gemma 3 12B 达到了 PR≈0.59，但泄露为 AER≈0.83。随着 kk 从 1 增长到 25，PR 从 0.42 上升到 0.66，而 AER 从 0.70 上升到接近 0.86 的平台区：更大的检索广度对用户和敌手同样有益。

#### 关键事实摘要清洗了金丝雀。

S=1 使 Gemma 的 AER 降低了 76%（ΔS=0.63），GPT-4o-mini 降低了 64%（ΔS=0.46），PR 成本分别约为 5% 和约 2 个百分点。尽管原始基线不同，两个模型都

基础模型代理的部署时记忆化

相似文章

从回想到遗忘：为个性化智能体评估长期记忆

先个性化再存储：面向长周期智能体的个性化记忆基准测试与学习

智能体记忆不仅仅是基于用户事实的RAG

能够在会话之间记住你的代理，哪些设置真正做到了这一点？

MemToolAgent概述：以简单餐厅预订场景为例，代理检索相似记忆、收到无效时间格式的反馈并生成反思以更新其记忆

提交意见反馈