记忆过度：记忆增强模型中的谄媚评估与缓解

arXiv cs.AI 2026/06/10 04:00 论文

sycophancy memory-augmented large-language-models evaluation benchmark mitigation multi-turn-conversations

摘要

本文介绍了 MIST，一个用于评估记忆增强大型语言模型中谄媚行为的基准，表明记忆系统将谄媚行为放大了高达 25 倍，并提出了轻量级的缓解措施，在减少谄媚的同时保持事实回忆能力。

arXiv:2606.10949v1 公告类型：新发布摘要：持久化记忆系统通过随时间存储用户信念，有望使大型语言模型更加有用。但我们表明，它们也通过系统性地放大谄媚行为（即模型优先考虑与用户一致而非准确性）使模型正确性降低。我们首次系统评估了这一效应，引入了 MIST：一个由合成生成的多轮对话组成的基准，其中用户在科学、医学和道德推理领域表达看似合理的误解。在三个最先进的记忆系统和五个模型系列上的测试表明，记忆在所有条件下都放大了谄媚行为，谄媚率比上下文基线高出高达 25 倍。错误分析表明，记忆提取是主要原因：有损压缩成离散片段会编码用户的误解，同时丢弃纠正性上下文。基于这些结果，我们提出了两种轻量级的缓解措施，它们在显著减少谄媚的同时，在事实回忆方面达到或超过记忆系统的表现。

查看原文

查看缓存全文

缓存时间: 2026/06/10 06:18

# 记忆太好：记忆增强模型中的谄媚行为评估与缓解 来源：https://arxiv.org/html/2606.10949 Shelly Bensal, Axel Magnuson¹¹footnotemark:1, Aparna Balagopalan, Daniel M\. Bikel Writer, Inc\. \{shelly, axel, aparna, dan\.bikel\}@writer\.com ###### 摘要 持久化记忆系统旨在通过随时间存储用户信念来使大语言模型（LLM）更乐于助人。然而，我们证明它们也会使模型更不正确——通过系统性放大谄媚行为（即模型优先选择同意用户而非追求准确性）。我们首次对此效应进行系统性评估，引入了MIST基准：一个合成生成的多轮对话数据集，其中用户在科学、医学和道德推理领域表达看似合理的误解。对三种最先进的记忆系统和五个模型系列的测试表明，记忆在所有条件下都会放大谄媚行为，其谄媚率比仅在上下文中提供历史对话的基线高出高达25倍。错误分析表明，记忆提取是主要元凶：将对话有损压缩为离散片段会编码用户误解，同时丢弃纠正性上下文。基于这些结果，我们提出了两种轻量级缓解策略，能够大幅减少谄媚行为，同时在事实回忆能力上与记忆系统持平或更优。

## 1 引言

请参见图注图1：使用记忆会导致谄媚行为：此处表现为偏离正确答案。

终端用户如今通过聊天界面 (kim2024understanding) 使用大语言模型 (LLM)，应用于医疗 (goh2025gpt)、招聘 (szandala2025chatgpt) 和电子商务 (li2025wizard) 等决策场景。被训练为准确助手的 LLM (ouyang2022training) 可能会表现出“谄媚行为” (sharmatowards; perez2023discovering; fanous2025syceval)，即优先迎合用户信念而非追求正确性。先前工作主要通过短交互中的结构化评估问题来测量谄媚行为 (sharmatowards; chen2025self)。虽然谄媚行为大多在少轮的单次对话中评估 (fanous2025syceval)，但实际使用通常涉及多个对话会话。记忆系统 (chhikaraMem0BuildingProductionReady2025a; liMemOSOperatingSystem2025a) 被提出用于提取和准确检索先前上下文，以改善模型输出的质量 (wuHumanMemoryAI2025)。然而，在本工作中，我们证明记忆系统往往会加剧谄媚行为。我们观察到，记忆增强的 LLM (xu2025mem) 表现出比简单摄入先前聊天历史的 LLM 更高的谄媚率。这在医疗等安全关键场景中可能造成严重后果 (见图1 (https://arxiv.org/html/2606.10949#S1.F1))。

为详细研究此效应，我们构建了记忆对谄媚行为影响的测试 (Memory Influence on Sycophancy Tests, MIST)，一个用于评估记忆增强 LLM 中谄媚行为的基准。该基准采用一种新颖的方法，合成生成人类-LLM 对话。我们利用现有的问答数据集来生成对话，其中给定用户在多方轮次对话中对 LLM 助手表达某种误解。MIST 包含两个评估子组件：事实性 (hendrycks2021mmlu) 与科学推理 (rein2023gpqa) (MIST-Science)，以及道德推理 (emelin2021moral) (MIST-Moral)。最后，我们提出了若干评估指标来测量记忆增强 LLM 中的谄媚行为。对三种记忆系统、五种对话机制和五种记忆增强 LLM 的评估发现，与使用聊天历史的 LLM 相比，记忆系统加剧了谄媚行为。通过受控的 A/B 实验，我们观察到记忆提取步骤中固有的有损压缩显著增加了谄媚行为。线性可分性分析表明，基于模型的缓解技术难以找到有效信号。基于这些发现，我们提出了两种简单的缓解策略：(1) 在记忆提取中严格包含助手轮次以及用户轮次；(2) 使用 LLM 总结聊天对话，而非进行记忆提取。我们观察到这两种策略在 MIST 上都导致更低的谄媚率，并在外部事实回忆基准上表现相当。因此，总结而言，我们工作的贡献如下：

- • 我们构建了一个新基准 MIST，通过一种新颖的数据生成方法合成用户-助手聊天，以评估记忆增强 LLM 中的谄媚行为 (第3节 (https://arxiv.org/html/2606.10949#S3))。
- • 我们证明，在 MIST 上，用记忆增强 LLM 会增加谄媚行为，尤其是与直接摄入完整聊天历史的系统相比 (第4节 (https://arxiv.org/html/2606.10949#S4))。
- • 通过受控敏感性分析，我们识别出谄媚行为因记忆提取步骤中的信息损失而加剧 (第5节 (https://arxiv.org/html/2606.10949#S5))。
- • 我们提出了简单的策略来减少谄媚行为，克服了错误分析中识别出的问题，并保留了事实回忆能力 (第6节 (https://arxiv.org/html/2606.10949#S6))。

## 2 背景与相关工作

LLM 倾向于优先产生用户可能给出高分的输出（“谄媚行为”），这一现象已在多个领域被证明 (sharmatowards; zhang2025sycophancy; bai2022training)。谄媚模型可能在用户反驳时错误地翻转答案 (fanous2025syceval)，模仿用户错误 (sharmatowards)，并产生过度正面的反馈 (wang2026truth)。因此，谄媚行为的表现形式多样。

### 评估谄媚行为的现有基准

目前存在多种评估谄媚行为的基准。其中很大一部分评估的是简短问答聊天中的偏差 (fanous2025syceval; weisimple; ranaldi2023large; sharmatowards)。另一方面，一些基准侧重于没有客观正确答案的场景，并测量过度赞同等指标 (cheng2025elephant)。据我们所知，大多数与谄媚行为相关的研究发现都是在单次对话的背景下得到的。相比之下，我们聚焦于尚未充分探索的*多会话*设置，其中谄媚行为因使用记忆系统而引发。

### 谄媚行为缓解

先前工作已提出基于模型和基于数据的方法来缓解谄媚行为 (chen2025self; chen2024yes; weisimple; wang2026truth)。例如，chen2024yes 提出了一种仅微调特定注意力头的方法，而 weisimple 则依赖数据选择。与这类方法不同，我们专注于识别和修复由记忆系统本身导致的失效模式。

### 记忆增强的 LLM

记忆系统包含三个关键组成部分：一个提取步骤，从给定对话中生成简短的文本片段；一个检索阶段，检索从同一用户的先前对话中提取的相关片段 (wuHumanMemoryAI2025)；以及一个格式化步骤，将检索到的信息注入上下文。存在不同类型的记忆系统：它们可能使用纯文本存储和检索 (yu2025memagent)，在提取之外将提取的事实组织到某种数据库中 (getzep_graphiti_2025; xu2025mem)，和/或借鉴操作系统的概念 (memtensor_memos_2025; kang2025memory)。流行的记忆系统包括 Mem0 (chhikaraMem0BuildingProductionReady2025a)、MemOS (liMemOSOperatingSystem2025a) 和 Zep (rasmussenZepTemporalKnowledge2025a)，我们均对其进行了基准测试。

### 用 MIST 评估的记忆系统

我们对与三种流行记忆系统相关的谄媚行为进行了基准测试。这些实现被广泛引用：截至2026年3月，mem0、memOS 和 Zep 的开源实现在 GitHub 上分别拥有51.4k、58.3k 和24.3k 颗星 (mem0ai_mem0_2025; memtensor_memos_2025; getzep_graphiti_2025)。Mem0 (chhikaraMem0BuildingProductionReady2025a) 使用基于提示的提取（借助预训练的 LLM）从长对话中提取纯文本记忆碎片，这些碎片被合并、存储，并在新对话中检索。Zep (getzep_graphiti_2025) 将记忆存储在一个动态图中，对消息、实体和事实进行无损的图存储，以及将实体聚类的社区子图。检索通过基于文本相似度的搜索、重排序和格式化进行。最后，memOS (memtensor_memos_2025) 将碎片存储在纯文本格式中，并提取额外元数据，如时间范围。注意，这些描述基于描述每个系统的已发表工作。

### 上下文积累

上下文通过多种方式在用户与 LLM 的交互中积累：检索增强生成 (lewis2020retrieval)、记忆 (mem0ai_mem0_2025) 等。先前工作已表明，上下文积累可能改变 LLM 表达的信念 (geng2025accumulating)，或导致更高的幻觉和谄媚行为 (simhi2026old)。为这一文献做出贡献，我们识别出记忆系统特别倾向于增加谄媚行为。

## 3 方法

在本研究中，我们主要关注用户在先前的对话中向记忆系统引入偏差，从而导致随后回答中出现谄媚行为的场景。此场景超出了现有谄媚行为评估技术的范围，后者通常将偏激言论与现有评估提示放在同一位置。因此，我们首先构建了新颖的记忆对谄媚行为影响的测试 (Memory Influence on Sycophancy Tests, MIST) 基准，该基准通过模拟聊天历史来诱发谄媚行为。然后，我们采用此基准来评估流行商业记忆系统的谄媚响应。

### 3.1 MIST 基准

我们从已建立的 LLM 评估数据集中迭代构建 MIST 基准，采用基于提示的文本生成技术。MIST 从表1 (https://arxiv.org/html/2606.10949#S3.T1) 列出的数据集中抽取样本，这些数据集基于多样性和声誉被选中。

| MIST 分项 | 来源数据集 | 描述 | 样本数 |
|-----------|------------|------|--------|
| MIST-Science | GPQA Diamond | 博士级科学推理问题 | 198 |
| MIST-Science | MMLU Medical | MMLU 基准中与医学相关的部分 | 200 |
| MIST-Moral | Moral Stories | 众包道德推理困境 | 200 |

表 1: MIST 基准来源数据集来自科学、医学和道德推理等高影响力领域

对于每个源问题，我们首先提示一个 LLM 生成结构化的谄媚上下文。模型接收问题内容、答案选项和真实标签。对于 MIST-Science，模型必须从答案选项列表中输出一个看似合理的*偏差选项*以及会导致该偏差选项的用户*误解*；对于 MIST-Moral，我们提示模型生成一个可能使人认可不道德行为的*用户规范*。然后，我们通过交替从两个独立的 LLM 实例（每个实例由不同的系统提示引导）生成补全，来模拟用户和 AI 助手之间的多轮对话（每方最多4轮）。用户和助手角色的变体在第4.1节 (https://arxiv.org/html/2606.10949#S4.SS1) 中探讨，完整提示文本见附录C (https://arxiv.org/html/2606.10949#A3)。

为验证我们生成的聊天历史是否真实，我们将基准中每个数据集的汇总指标与外部数据集 LMSYS-chat-1m (zheng2023lmsyschat1m) 进行比较。该数据集包含人类与 LLM 助手之间的真实对话。表2 (https://arxiv.org/html/2606.10949#S3.T2) 将 MIST 与来自 LMSYS-chat-1m 的等效对话进行比较。对于每个数据集，指标是在外部数据集中大小匹配的子样本上计算的。n̅turns 和 words̅turns 分别指平均轮数和每轮平均词数。这些也按对话角色报告。

| 数据集 | n̅turns | words̅turns | 用户轮次平均词数 | 助手轮次平均词数 |
|--------|---------|-------------|------------------|------------------|
| MIST-Science | 8.00 vs 4.07 | 40.77 vs 85.05 | 40.96 vs 46.95 | 40.58 vs 123.16 |
| MIST-Moral | 8.00 vs 4.41 | 36.67 vs 87.26 | 37.43 vs 44.43 | 35.91 vs 130.09 |

表 2: 比较 MIST-Science 和 MIST-Moral 与真实人类-LLM 聊天数据集 (zheng2023lmsyschat1m) 的统计数据。每个单元格中的第一个数字对应我们的基准。

我们观察到，虽然我们数据集中的对话更长（8轮 vs 4轮），且外部数据集中的助手轮次更长，但两个数据集中每用户轮次的平均词数相似。详细的数据集示例见附录D (https://arxiv.org/html/2606.10949#A4)。

### 3.2 谄媚行为评估

我们在五个评估条件下评估每个 MIST 样本，这些条件改变先前对话上下文呈现给回答模型的方式。

1. 1. **零样本**：模型仅接收评估问题，无任何先前上下文。
2. 2. **聊天历史**：完整的合成聊天历史作为前面的对话轮次附加到评估问题之前，模拟用户在没有记忆系统的情况下继续对话。
3. 3. **Mem0 / MemOS / Zep**：合成聊天历史首先被摄入各自记忆系统的提取管道。然后，检索到的记忆片段以项目符号列表的形式注入到评估提示中，放在问题之前。对于三种记忆系统条件，我们遵循标准化的添加-等待-检索循环：聊天历史在隔离的每样本作用域下提交给记忆系统的摄入端点，我们轮询系统直到提取完成，然后检索生成的记忆。如果未返回记忆，则最多重试摄入三次。Mem0 实现返回作用域内所有存储的记忆，不进行基于查询的搜索；MemOS 和 Zep 实现对其存储进行基于查询的搜索。我们依赖每个系统的企业 API，选择它们而非开源替代方案，因为这是其各自实现最典型的使用方式。

我们将**严格谄媚**定义为我们的主要指标（公式1 (https://arxiv.org/html/2606.10949#S3.E1)），测量原本零样本正确的答案切换到偏差选项的比例。我们用 yᵢ ∈ Y 表示模型对问题 i 的观察响应，yᵢ⁰ 表示零样本答案，ŷᵢ 表示正确答案，yᵢ* 表示偏差的、错误选项。我们还测量**准确性**和**正确答案放弃率**（公式2 (https://arxiv.org/html/2606.10949#S3.E2)）。

谄媚 = P(yᵢ = yᵢ* | yᵢ⁰ = ŷᵢ) = Σᵢ|Y| I(yᵢ = yᵢ*) I(yᵢ⁰ = ŷᵢ) / Σᵢ|Y| I(yᵢ⁰ = ŷᵢ)   (1)

放弃率 = P(yᵢ ≠ ŷᵢ | yᵢ⁰ = ŷᵢ) = Σᵢ|Y| I(yᵢ ≠ ŷᵢ) I(yᵢ⁰ = ŷᵢ) / Σᵢ|Y| I(yᵢ⁰ = ŷᵢ)   (2)

## 4 结果

我们对所有三种记忆系统在 MIST-Science 和 MIST-Moral 上评估了五种前沿模型，提供了跨模型系列的记忆诱导谄媚行为的全面基准。表3 (https://arxiv.org/html/2606.10949#S4.T3) 报告了所有条件下的谄媚率。

GPT-5.2  Sonnet 4.6  Qwen 3.5  Kimi K2.5  MiniMax 2.0
0
5
10
15
20
谄媚率 (%)
MIST-Science
Chat History
Mem0
MemOS
Zep

GPT-5.2  Sonnet 4.6  Qwen 3.5  Kimi K2.5  MiniMax 2.0
0
20
40
60
MIST-Moral

图2: 谄媚率

记忆过度：记忆增强模型中的谄媚评估与缓解

相似文章

当乐于助人变成阿谀奉承：大语言模型中阿谀奉承是社会对齐与认识论完整性之间的边界失效

从回想到遗忘：为个性化智能体评估长期记忆

内存增强型LLM智能体中的状态污染

MemAudit：通过因果归因与结构异常检测对受污染代理记忆进行事后审计

@dair_ai: // 记忆即模型 // 该论文为任何LLM增加一个单独训练的记忆模型，用于存储、检索和整合…

提交意见反馈