记忆过度:记忆增强模型中的谄媚评估与缓解
摘要
本文介绍了 MIST,一个用于评估记忆增强大型语言模型中谄媚行为的基准,表明记忆系统将谄媚行为放大了高达 25 倍,并提出了轻量级的缓解措施,在减少谄媚的同时保持事实回忆能力。
arXiv:2606.10949v1 公告类型:新发布
摘要:持久化记忆系统通过随时间存储用户信念,有望使大型语言模型更加有用。但我们表明,它们也通过系统性地放大谄媚行为(即模型优先考虑与用户一致而非准确性)使模型正确性降低。我们首次系统评估了这一效应,引入了 MIST:一个由合成生成的多轮对话组成的基准,其中用户在科学、医学和道德推理领域表达看似合理的误解。在三个最先进的记忆系统和五个模型系列上的测试表明,记忆在所有条件下都放大了谄媚行为,谄媚率比上下文基线高出高达 25 倍。错误分析表明,记忆提取是主要原因:有损压缩成离散片段会编码用户的误解,同时丢弃纠正性上下文。基于这些结果,我们提出了两种轻量级的缓解措施,它们在显著减少谄媚的同时,在事实回忆方面达到或超过记忆系统的表现。
查看缓存全文
缓存时间: 2026/06/10 06:18
# 记忆太好:记忆增强模型中的谄媚行为评估与缓解 来源:https://arxiv.org/html/2606.10949 Shelly Bensal, Axel Magnuson¹¹footnotemark:1, Aparna Balagopalan, Daniel M\. Bikel Writer, Inc\. \{shelly, axel, aparna, dan\.bikel\}@writer\.com ###### 摘要 持久化记忆系统旨在通过随时间存储用户信念来使大语言模型(LLM)更乐于助人。然而,我们证明它们也会使模型更不正确——通过系统性放大谄媚行为(即模型优先选择同意用户而非追求准确性)。我们首次对此效应进行系统性评估,引入了MIST基准:一个合成生成的多轮对话数据集,其中用户在科学、医学和道德推理领域表达看似合理的误解。对三种最先进的记忆系统和五个模型系列的测试表明,记忆在所有条件下都会放大谄媚行为,其谄媚率比仅在上下文中提供历史对话的基线高出高达25倍。错误分析表明,记忆提取是主要元凶:将对话有损压缩为离散片段会编码用户误解,同时丢弃纠正性上下文。基于这些结果,我们提出了两种轻量级缓解策略,能够大幅减少谄媚行为,同时在事实回忆能力上与记忆系统持平或更优。
## 1 引言
请参见图注图1:使用记忆会导致谄媚行为:此处表现为偏离正确答案。
终端用户如今通过聊天界面 (kim2024understanding) 使用大语言模型 (LLM),应用于医疗 (goh2025gpt)、招聘 (szandala2025chatgpt) 和电子商务 (li2025wizard) 等决策场景。被训练为准确助手的 LLM (ouyang2022training) 可能会表现出“谄媚行为” (sharmatowards; perez2023discovering; fanous2025syceval),即优先迎合用户信念而非追求正确性。先前工作主要通过短交互中的结构化评估问题来测量谄媚行为 (sharmatowards; chen2025self)。虽然谄媚行为大多在少轮的单次对话中评估 (fanous2025syceval),但实际使用通常涉及多个对话会话。记忆系统 (chhikaraMem0BuildingProductionReady2025a; liMemOSOperatingSystem2025a) 被提出用于提取和准确检索先前上下文,以改善模型输出的质量 (wuHumanMemoryAI2025)。然而,在本工作中,我们证明记忆系统往往会加剧谄媚行为。我们观察到,记忆增强的 LLM (xu2025mem) 表现出比简单摄入先前聊天历史的 LLM 更高的谄媚率。这在医疗等安全关键场景中可能造成严重后果 (见图1 (https://arxiv.org/html/2606.10949#S1.F1))。
为详细研究此效应,我们构建了记忆对谄媚行为影响的测试 (Memory Influence on Sycophancy Tests, MIST),一个用于评估记忆增强 LLM 中谄媚行为的基准。该基准采用一种新颖的方法,合成生成人类-LLM 对话。我们利用现有的问答数据集来生成对话,其中给定用户在多方轮次对话中对 LLM 助手表达某种误解。MIST 包含两个评估子组件:事实性 (hendrycks2021mmlu) 与科学推理 (rein2023gpqa) (MIST-Science),以及道德推理 (emelin2021moral) (MIST-Moral)。最后,我们提出了若干评估指标来测量记忆增强 LLM 中的谄媚行为。对三种记忆系统、五种对话机制和五种记忆增强 LLM 的评估发现,与使用聊天历史的 LLM 相比,记忆系统加剧了谄媚行为。通过受控的 A/B 实验,我们观察到记忆提取步骤中固有的有损压缩显著增加了谄媚行为。线性可分性分析表明,基于模型的缓解技术难以找到有效信号。基于这些发现,我们提出了两种简单的缓解策略:(1) 在记忆提取中严格包含助手轮次以及用户轮次;(2) 使用 LLM 总结聊天对话,而非进行记忆提取。我们观察到这两种策略在 MIST 上都导致更低的谄媚率,并在外部事实回忆基准上表现相当。因此,总结而言,我们工作的贡献如下:
- • 我们构建了一个新基准 MIST,通过一种新颖的数据生成方法合成用户-助手聊天,以评估记忆增强 LLM 中的谄媚行为 (第3节 (https://arxiv.org/html/2606.10949#S3))。
- • 我们证明,在 MIST 上,用记忆增强 LLM 会增加谄媚行为,尤其是与直接摄入完整聊天历史的系统相比 (第4节 (https://arxiv.org/html/2606.10949#S4))。
- • 通过受控敏感性分析,我们识别出谄媚行为因记忆提取步骤中的信息损失而加剧 (第5节 (https://arxiv.org/html/2606.10949#S5))。
- • 我们提出了简单的策略来减少谄媚行为,克服了错误分析中识别出的问题,并保留了事实回忆能力 (第6节 (https://arxiv.org/html/2606.10949#S6))。
## 2 背景与相关工作
LLM 倾向于优先产生用户可能给出高分的输出(“谄媚行为”),这一现象已在多个领域被证明 (sharmatowards; zhang2025sycophancy; bai2022training)。谄媚模型可能在用户反驳时错误地翻转答案 (fanous2025syceval),模仿用户错误 (sharmatowards),并产生过度正面的反馈 (wang2026truth)。因此,谄媚行为的表现形式多样。
### 评估谄媚行为的现有基准
目前存在多种评估谄媚行为的基准。其中很大一部分评估的是简短问答聊天中的偏差 (fanous2025syceval; weisimple; ranaldi2023large; sharmatowards)。另一方面,一些基准侧重于没有客观正确答案的场景,并测量过度赞同等指标 (cheng2025elephant)。据我们所知,大多数与谄媚行为相关的研究发现都是在单次对话的背景下得到的。相比之下,我们聚焦于尚未充分探索的*多会话*设置,其中谄媚行为因使用记忆系统而引发。
### 谄媚行为缓解
先前工作已提出基于模型和基于数据的方法来缓解谄媚行为 (chen2025self; chen2024yes; weisimple; wang2026truth)。例如,chen2024yes 提出了一种仅微调特定注意力头的方法,而 weisimple 则依赖数据选择。与这类方法不同,我们专注于识别和修复由记忆系统本身导致的失效模式。
### 记忆增强的 LLM
记忆系统包含三个关键组成部分:一个提取步骤,从给定对话中生成简短的文本片段;一个检索阶段,检索从同一用户的先前对话中提取的相关片段 (wuHumanMemoryAI2025);以及一个格式化步骤,将检索到的信息注入上下文。存在不同类型的记忆系统:它们可能使用纯文本存储和检索 (yu2025memagent),在提取之外将提取的事实组织到某种数据库中 (getzep_graphiti_2025; xu2025mem),和/或借鉴操作系统的概念 (memtensor_memos_2025; kang2025memory)。流行的记忆系统包括 Mem0 (chhikaraMem0BuildingProductionReady2025a)、MemOS (liMemOSOperatingSystem2025a) 和 Zep (rasmussenZepTemporalKnowledge2025a),我们均对其进行了基准测试。
### 用 MIST 评估的记忆系统
我们对与三种流行记忆系统相关的谄媚行为进行了基准测试。这些实现被广泛引用:截至2026年3月,mem0、memOS 和 Zep 的开源实现在 GitHub 上分别拥有51.4k、58.3k 和24.3k 颗星 (mem0ai_mem0_2025; memtensor_memos_2025; getzep_graphiti_2025)。Mem0 (chhikaraMem0BuildingProductionReady2025a) 使用基于提示的提取(借助预训练的 LLM)从长对话中提取纯文本记忆碎片,这些碎片被合并、存储,并在新对话中检索。Zep (getzep_graphiti_2025) 将记忆存储在一个动态图中,对消息、实体和事实进行无损的图存储,以及将实体聚类的社区子图。检索通过基于文本相似度的搜索、重排序和格式化进行。最后,memOS (memtensor_memos_2025) 将碎片存储在纯文本格式中,并提取额外元数据,如时间范围。注意,这些描述基于描述每个系统的已发表工作。
### 上下文积累
上下文通过多种方式在用户与 LLM 的交互中积累:检索增强生成 (lewis2020retrieval)、记忆 (mem0ai_mem0_2025) 等。先前工作已表明,上下文积累可能改变 LLM 表达的信念 (geng2025accumulating),或导致更高的幻觉和谄媚行为 (simhi2026old)。为这一文献做出贡献,我们识别出记忆系统特别倾向于增加谄媚行为。
## 3 方法
在本研究中,我们主要关注用户在先前的对话中向记忆系统引入偏差,从而导致随后回答中出现谄媚行为的场景。此场景超出了现有谄媚行为评估技术的范围,后者通常将偏激言论与现有评估提示放在同一位置。因此,我们首先构建了新颖的记忆对谄媚行为影响的测试 (Memory Influence on Sycophancy Tests, MIST) 基准,该基准通过模拟聊天历史来诱发谄媚行为。然后,我们采用此基准来评估流行商业记忆系统的谄媚响应。
### 3.1 MIST 基准
我们从已建立的 LLM 评估数据集中迭代构建 MIST 基准,采用基于提示的文本生成技术。MIST 从表1 (https://arxiv.org/html/2606.10949#S3.T1) 列出的数据集中抽取样本,这些数据集基于多样性和声誉被选中。
| MIST 分项 | 来源数据集 | 描述 | 样本数 |
|-----------|------------|------|--------|
| MIST-Science | GPQA Diamond | 博士级科学推理问题 | 198 |
| MIST-Science | MMLU Medical | MMLU 基准中与医学相关的部分 | 200 |
| MIST-Moral | Moral Stories | 众包道德推理困境 | 200 |
表 1: MIST 基准来源数据集来自科学、医学和道德推理等高影响力领域
对于每个源问题,我们首先提示一个 LLM 生成结构化的谄媚上下文。模型接收问题内容、答案选项和真实标签。对于 MIST-Science,模型必须从答案选项列表中输出一个看似合理的*偏差选项*以及会导致该偏差选项的用户*误解*;对于 MIST-Moral,我们提示模型生成一个可能使人认可不道德行为的*用户规范*。然后,我们通过交替从两个独立的 LLM 实例(每个实例由不同的系统提示引导)生成补全,来模拟用户和 AI 助手之间的多轮对话(每方最多4轮)。用户和助手角色的变体在第4.1节 (https://arxiv.org/html/2606.10949#S4.SS1) 中探讨,完整提示文本见附录C (https://arxiv.org/html/2606.10949#A3)。
为验证我们生成的聊天历史是否真实,我们将基准中每个数据集的汇总指标与外部数据集 LMSYS-chat-1m (zheng2023lmsyschat1m) 进行比较。该数据集包含人类与 LLM 助手之间的真实对话。表2 (https://arxiv.org/html/2606.10949#S3.T2) 将 MIST 与来自 LMSYS-chat-1m 的等效对话进行比较。对于每个数据集,指标是在外部数据集中大小匹配的子样本上计算的。n̅turns 和 words̅turns 分别指平均轮数和每轮平均词数。这些也按对话角色报告。
| 数据集 | n̅turns | words̅turns | 用户轮次平均词数 | 助手轮次平均词数 |
|--------|---------|-------------|------------------|------------------|
| MIST-Science | 8.00 vs 4.07 | 40.77 vs 85.05 | 40.96 vs 46.95 | 40.58 vs 123.16 |
| MIST-Moral | 8.00 vs 4.41 | 36.67 vs 87.26 | 37.43 vs 44.43 | 35.91 vs 130.09 |
表 2: 比较 MIST-Science 和 MIST-Moral 与真实人类-LLM 聊天数据集 (zheng2023lmsyschat1m) 的统计数据。每个单元格中的第一个数字对应我们的基准。
我们观察到,虽然我们数据集中的对话更长(8轮 vs 4轮),且外部数据集中的助手轮次更长,但两个数据集中每用户轮次的平均词数相似。详细的数据集示例见附录D (https://arxiv.org/html/2606.10949#A4)。
### 3.2 谄媚行为评估
我们在五个评估条件下评估每个 MIST 样本,这些条件改变先前对话上下文呈现给回答模型的方式。
1. 1. **零样本**:模型仅接收评估问题,无任何先前上下文。
2. 2. **聊天历史**:完整的合成聊天历史作为前面的对话轮次附加到评估问题之前,模拟用户在没有记忆系统的情况下继续对话。
3. 3. **Mem0 / MemOS / Zep**:合成聊天历史首先被摄入各自记忆系统的提取管道。然后,检索到的记忆片段以项目符号列表的形式注入到评估提示中,放在问题之前。对于三种记忆系统条件,我们遵循标准化的添加-等待-检索循环:聊天历史在隔离的每样本作用域下提交给记忆系统的摄入端点,我们轮询系统直到提取完成,然后检索生成的记忆。如果未返回记忆,则最多重试摄入三次。Mem0 实现返回作用域内所有存储的记忆,不进行基于查询的搜索;MemOS 和 Zep 实现对其存储进行基于查询的搜索。我们依赖每个系统的企业 API,选择它们而非开源替代方案,因为这是其各自实现最典型的使用方式。
我们将**严格谄媚**定义为我们的主要指标(公式1 (https://arxiv.org/html/2606.10949#S3.E1)),测量原本零样本正确的答案切换到偏差选项的比例。我们用 yᵢ ∈ Y 表示模型对问题 i 的观察响应,yᵢ⁰ 表示零样本答案,ŷᵢ 表示正确答案,yᵢ* 表示偏差的、错误选项。我们还测量**准确性**和**正确答案放弃率**(公式2 (https://arxiv.org/html/2606.10949#S3.E2))。
谄媚 = P(yᵢ = yᵢ* | yᵢ⁰ = ŷᵢ) = Σᵢ|Y| I(yᵢ = yᵢ*) I(yᵢ⁰ = ŷᵢ) / Σᵢ|Y| I(yᵢ⁰ = ŷᵢ) (1)
放弃率 = P(yᵢ ≠ ŷᵢ | yᵢ⁰ = ŷᵢ) = Σᵢ|Y| I(yᵢ ≠ ŷᵢ) I(yᵢ⁰ = ŷᵢ) / Σᵢ|Y| I(yᵢ⁰ = ŷᵢ) (2)
## 4 结果
我们对所有三种记忆系统在 MIST-Science 和 MIST-Moral 上评估了五种前沿模型,提供了跨模型系列的记忆诱导谄媚行为的全面基准。表3 (https://arxiv.org/html/2606.10949#S4.T3) 报告了所有条件下的谄媚率。
GPT-5.2 Sonnet 4.6 Qwen 3.5 Kimi K2.5 MiniMax 2.0
0
5
10
15
20
谄媚率 (%)
MIST-Science
Chat History
Mem0
MemOS
Zep
GPT-5.2 Sonnet 4.6 Qwen 3.5 Kimi K2.5 MiniMax 2.0
0
20
40
60
MIST-Moral
图2: 谄媚率相似文章
当乐于助人变成阿谀奉承:大语言模型中阿谀奉承是社会对齐与认识论完整性之间的边界失效
本立场论文将大语言模型中的阿谀奉承行为分析为社会对齐与认识论完整性之间的边界失效,并提出一个新的框架和分类法来分类和缓解这些行为。
从回想到遗忘:为个性化智能体评估长期记忆
研究者推出 Memora 基准,衡量大模型在持续数周至数月的对话中保留、更新与遗忘用户长期记忆的能力,发现模型常复用已失效记忆。
内存增强型LLM智能体中的状态污染
本文识别并研究了LLM智能体中的“记忆洗白”现象,即有毒或对抗性上下文被压缩成记忆摘要后,能够逃避标准毒性检测器,同时仍影响后续生成。文章引入了亚阈值传播间隙(SPG)来衡量隐藏的下游影响,并表明在摘要之前对有毒状态进行消毒比事后清理更有效。
MemAudit:通过因果归因与结构异常检测对受污染代理记忆进行事后审计
MemAudit 是一种针对记忆增强型 LLM 代理的事后审计框架,它通过结合反事实影响分数和结构异常检测来识别受污染的记忆,在现实场景中将攻击成功率从超过 70% 降低至 0%。
@dair_ai: // 记忆即模型 // 该论文为任何LLM增加一个单独训练的记忆模型,用于存储、检索和整合…
MeMo 引入了一种模块化记忆模型,可为任何 LLM 增强存储、检索和整合新知识的能力,无需重新训练或担心灾难性遗忘。它在 BrowseComp-Plus、NarrativeQA 和 MuSiQue 等基准测试上优于基于 RAG 的方法。