MemEvoBench:LLM 代理内存误演化基准测试

arXiv cs.CL 论文

摘要

MemEvoBench 引入了首个用于评估 LLM 代理内存安全性的基准测试,衡量对抗性内存注入、噪声输出和有偏反馈在问答与工作流任务中导致的行为衰退。该研究表明内存演化是安全失败的重要因素,且静态防御措施不足以应对。

arXiv:2604.15774v1 公告类型:新 摘要: 为大语言模型 (LLM) 配备持久化内存可以增强交互连续性和个性化效果,但引入了新的安全风险。具体而言,被污染或有偏的内存累积可能触发异常的代理行为。现有评估方法还未建立测量内存误演化的标准框架。这一现象指的是由于反复接触误导信息而导致的逐步行为漂移。为了填补这一空白,我们推出 MemEvoBench,这是首个评估 LLM 代理长期内存安全性的基准测试,针对对抗性内存注入、噪声工具输出和有偏反馈的抵抗能力进行评估。该框架包含涵盖 7 个领域和 36 种风险类型的问答式任务,辅以从 20 个 Agent-SafetyBench 环境改编的工作流式任务,这些任务包含噪声工具返回。两种设置都在多轮交互中采用混合良性和误导性内存池来模拟内存演化。对代表性模型的实验揭示了在有偏内存更新下的显著安全衰退。我们的分析表明,内存演化是导致这些失败的重要因素。此外,基于静态提示的防御措施被证明不足以应对,这突出了保护 LLM 代理内存演化的紧迫性。
查看原文
查看缓存全文

缓存时间: 2026/04/20 08:29

# MemEvoBench:LLM 代理中的记忆误演化基准

来源:https://arxiv.org/abs/2604.15774
查看 PDF (https://arxiv.org/pdf/2604.15774)

> 摘要:为大型语言模型(LLMs)装备持久记忆可以增强交互连续性和个性化,但也带来了新的安全风险。具体来说,受污染或有偏见的记忆积累可能会触发异常的代理行为。现有的评估方法尚未建立衡量记忆误演化的标准框架。这一现象指的是由于反复接收误导性信息而导致的逐步行为偏移。为了填补这一空白,我们推出了 MemEvoBench,这是首个评估 LLM 代理在对抗性记忆注入、嘈杂工具输出和有偏见反馈下的长期记忆安全性的基准。该框架包含跨越 7 个领域和 36 种风险类型的问答式任务,以及从 20 个 Agent-SafetyBench 环境中改编的工作流式任务(包含嘈杂的工具返回)。两种设置都在多轮交互中采用混合的良性和误导性记忆池来模拟记忆演化。在代表性模型上的实验显示,在有偏见的记忆更新下会出现严重的安全性能下降。我们的分析表明,记忆演化是导致这些失败的重要因素。此外,基于静态提示的防御措施证明不足以应对这一问题,突显了保护 LLM 代理中记忆演化安全性的紧迫性。

## 提交历史

来自:Weiwei Xie [查看邮箱 (https://arxiv.org/show-email/722fe92e/2604.15774)] **[v1]** 2026 年 4 月 17 日星期五 07:29:52 UTC (5,290 KB)

相似文章

EvoArena:追踪记忆演化以实现动态环境中鲁棒的LLM智能体

Hugging Face Daily Papers

EvoArena引入了一个基准测试,用于评估LLM智能体在动态环境中的表现,该环境在终端、软件和社交领域具有渐进式更新;同时EvoMem提出了一种基于补丁的记忆范式,记录结构化的演化;实验表明,当前智能体在EvoArena上仅达到39.6%的准确率,而EvoMem在该基准测试上平均提升1.5%,并在GAIA和LoCoMo上也有所改进。

MEME:多实体与动态记忆评估

Hugging Face Daily Papers

MEME 基准测试在多实体和动态变化的条件下评估 AI 记忆系统,揭示了即便采用先进的检索技术,在依赖关系推理方面依然存在显著挑战。