MemEvoBench:LLM 代理内存误演化基准测试
摘要
MemEvoBench 引入了首个用于评估 LLM 代理内存安全性的基准测试,衡量对抗性内存注入、噪声输出和有偏反馈在问答与工作流任务中导致的行为衰退。该研究表明内存演化是安全失败的重要因素,且静态防御措施不足以应对。
arXiv:2604.15774v1 公告类型:新
摘要:
为大语言模型 (LLM) 配备持久化内存可以增强交互连续性和个性化效果,但引入了新的安全风险。具体而言,被污染或有偏的内存累积可能触发异常的代理行为。现有评估方法还未建立测量内存误演化的标准框架。这一现象指的是由于反复接触误导信息而导致的逐步行为漂移。为了填补这一空白,我们推出 MemEvoBench,这是首个评估 LLM 代理长期内存安全性的基准测试,针对对抗性内存注入、噪声工具输出和有偏反馈的抵抗能力进行评估。该框架包含涵盖 7 个领域和 36 种风险类型的问答式任务,辅以从 20 个 Agent-SafetyBench 环境改编的工作流式任务,这些任务包含噪声工具返回。两种设置都在多轮交互中采用混合良性和误导性内存池来模拟内存演化。对代表性模型的实验揭示了在有偏内存更新下的显著安全衰退。我们的分析表明,内存演化是导致这些失败的重要因素。此外,基于静态提示的防御措施被证明不足以应对,这突出了保护 LLM 代理内存演化的紧迫性。
查看缓存全文
缓存时间: 2026/04/20 08:29
# MemEvoBench:LLM 代理中的记忆误演化基准 来源:https://arxiv.org/abs/2604.15774 查看 PDF (https://arxiv.org/pdf/2604.15774) > 摘要:为大型语言模型(LLMs)装备持久记忆可以增强交互连续性和个性化,但也带来了新的安全风险。具体来说,受污染或有偏见的记忆积累可能会触发异常的代理行为。现有的评估方法尚未建立衡量记忆误演化的标准框架。这一现象指的是由于反复接收误导性信息而导致的逐步行为偏移。为了填补这一空白,我们推出了 MemEvoBench,这是首个评估 LLM 代理在对抗性记忆注入、嘈杂工具输出和有偏见反馈下的长期记忆安全性的基准。该框架包含跨越 7 个领域和 36 种风险类型的问答式任务,以及从 20 个 Agent-SafetyBench 环境中改编的工作流式任务(包含嘈杂的工具返回)。两种设置都在多轮交互中采用混合的良性和误导性记忆池来模拟记忆演化。在代表性模型上的实验显示,在有偏见的记忆更新下会出现严重的安全性能下降。我们的分析表明,记忆演化是导致这些失败的重要因素。此外,基于静态提示的防御措施证明不足以应对这一问题,突显了保护 LLM 代理中记忆演化安全性的紧迫性。 ## 提交历史 来自:Weiwei Xie [查看邮箱 (https://arxiv.org/show-email/722fe92e/2604.15774)] **[v1]** 2026 年 4 月 17 日星期五 07:29:52 UTC (5,290 KB)
相似文章
EvoArena:追踪记忆演化以实现动态环境中鲁棒的LLM智能体
EvoArena引入了一个基准测试,用于评估LLM智能体在动态环境中的表现,该环境在终端、软件和社交领域具有渐进式更新;同时EvoMem提出了一种基于补丁的记忆范式,记录结构化的演化;实验表明,当前智能体在EvoArena上仅达到39.6%的准确率,而EvoMem在该基准测试上平均提升1.5%,并在GAIA和LoCoMo上也有所改进。
EvolveMem: 通过AutoResearch实现LLM智能体的自演化记忆架构
EvolveMem为LLM智能体引入了一种自演化记忆架构,通过LLM驱动的诊断和迭代研究周期来优化检索配置,在LoCoMo和MemBench等基准测试上取得了显著的性能提升。
MEME:多实体与动态记忆评估
MEME 基准测试在多实体和动态变化的条件下评估 AI 记忆系统,揭示了即便采用先进的检索技术,在依赖关系推理方面依然存在显著挑战。
GroupMemBench:多轮对话中LLM代理记忆的基准测试
GroupMemBench是一个新的基准,用于评估多轮对话中LLM代理的记忆能力,揭示了当前记忆系统的缺陷,最佳系统仅达到46%的平均准确率。
@hyunji_amy_lee: LLM代理与记忆系统在持续更新的环境中运行(Git仓库、不断演变的文档)。它们必须处理…
MINTEval是一个新的基准,用于评估在频繁上下文变化的持续更新环境中LLM代理和记忆系统的表现。它显示当前系统性能不佳,典型系统的平均准确率仅为27.9%。