@hyunji_amy_lee: LLM代理与记忆系统在持续更新的环境中运行(Git仓库、不断演变的文档)。它们必须处理…
摘要
MINTEval是一个新的基准,用于评估在频繁上下文变化的持续更新环境中LLM代理和记忆系统的表现。它显示当前系统性能不佳,典型系统的平均准确率仅为27.9%。
查看缓存全文
缓存时间: 2026/05/20 20:36
LLM智能体与记忆系统在持续更新的环境中运行(Git仓库、不断演化的文档)。它们必须处理长上下文、恢复早期信息,并对大量更新进行推理,这些更新会在新旧信息之间产生干扰。它们应对得如何?
我们介绍 MINTEval: 频繁的上下文变化与干扰(平均86次更新) 5种具有挑战性的问题类型,包括远距离回溯及对分布在上下文中的多个目标进行推理 4个真实领域:状态跟踪、多轮对话、Wikipedia版本修订、GitHub提交 平均每个实例138.8k tokens(最多1.8M) 人工验证生成的QA达到95.6%
在7个代表性系统上,MINTEval仍然困难,平均准确率为27.9%,最佳系统仅达到33.4%。
我们的分析显示: • 记忆构建失败导致41.7%的性能下降 • 记忆智能体对设计选择高度敏感 • 记忆系统对插入操作(76.8%)存在强烈偏向,对删除/更新操作偏弱
现实世界的信息不断演化:代码库被更新、文档被修订、用户偏好随时间改变。
这自然产生了记忆干扰。
在这些干扰密集的环境下,智能体必须:
- 记住过去的状态
- 跟踪随时间的变化
- 对冲突信息进行推理
- 正确解决干扰
现有的大多数记忆基准未能同时涵盖: 干扰密集的长时间跨度上下文 远距离回溯和跨多个目标的聚合问题 跨多种领域的评估
MINTEval通过以下方式填补这一空白: 强干扰(平均86次更新)和长上下文(平均138.8k tokens,最多1.8M) 5种问题类型,包括具有挑战性的回溯和多目标聚合推理等,分布在15.6k个QA对中 4个领域:状态跟踪(bAbI)、多轮对话(Horizonbench)、Wikipedia版本修订、GitHub提交
MINTEval 评估在干扰密集上下文下的2项主要能力 / 5种问题类型:
单目标召回:智能体能否在强干扰下检索到正确事实?
- 简单:检索最新状态(前摄干扰)
- 历史:在多次后续更新后恢复早期状态(倒摄干扰)
多目标聚合:智能体能否组合跨版本分布的信息?
- 排序:恢复事件的时间顺序
- 计数:聚合跨更新的出现次数(如某个状态持续了多久)
- 多跳:对多个相关目标进行推理(如桥接 / 比较问题)
我们在 MINTEval 上评估了7个代表性系统,包括全上下文、基于RAG以及记忆增强型智能体,它们都面临重大困难。
- 平均准确率:27.9%
- 记忆系统最佳(MemAgent):33.4%
- 即使是SimpleMem + Gemini-3.1-Flash-Lite也只达到30.3%,这可能归因于激进的记忆压缩。
在以下问题上性能急剧下降:
- 需要远距离回溯的历史问题(21.0%)
- 需要检索并推理多条信息的多目标聚合问题(26.5%) 相比之下,简单召回问题为47.5%。
我们还观察到跨领域泛化能力有限:没有单一方法在跨领域和问题类型上表现一致。
检索和记忆构建仍然是主要瓶颈。
- 最大的性能下降来自于未能检索或保留正确证据:41.7%的退化
- 当证据存在时,回答智能体仍可能无法正确使用它——额外下降25.2%
更远的回溯距离显著损害性能。
- 随着查询事实与当前状态之间的距离增加,准确率急剧下降,尤其是全上下文方法和基于检索的系统(RAG、HippoRAG)
- 记忆增强型智能体也随着距离增加而下降,但表现出更强的鲁棒性
更少的记忆更新迭代提升了性能。
- 使用更大的块(更少的记忆修改)通常带来更好的性能;频繁的记忆更新可能导致意外的覆盖或移除,使得维持连贯的长期记忆更加困难。
- 这尤其损害历史问题和计数问题,因为它们需要跨长时间跨度整合信息。
这些发现突显了在跨不同领域和问题的干扰密集、长时间跨度环境中,对更稳健的记忆管理系统的需求。
https://arxiv.org/abs/2605.18565 https://huggingface.co/datasets/dinobby/MINTEval… https://github.com/amy-hyunji/MINTEval…
与 @cyjustinchen(共同领导)、@joykiratsingh、@codezakh、@EliasEskin 和 @mohitban47 在 @unc_ai_group @unccs @UTCompSci 的精彩合作
相似文章
MemEvoBench:LLM 代理内存误演化基准测试
MemEvoBench 引入了首个用于评估 LLM 代理内存安全性的基准测试,衡量对抗性内存注入、噪声输出和有偏反馈在问答与工作流任务中导致的行为衰退。该研究表明内存演化是安全失败的重要因素,且静态防御措施不足以应对。
STALE:LLM智能体能否识别记忆何时失效?
本文识别了LLM智能体中的一个关键失效模式:当新证据与先前信念冲突时,它们无法更新个性化记忆。本文引入了STALE基准和一个三维探测框架,揭示了即使最佳模型也仅达到55.2%的准确率,并提出了CUPMem作为鲁棒记忆修正的原型。
GroupMemBench:多轮对话中LLM代理记忆的基准测试
GroupMemBench是一个新的基准,用于评估多轮对话中LLM代理的记忆能力,揭示了当前记忆系统的缺陷,最佳系统仅达到46%的平均准确率。
MemGym:面向LLM智能体的长时记忆环境
MemGym是一个基准测试,用于评估LLM智能体在长时任务中的记忆形成,它统一了现有的智能体gym和合成流水线,并采用记忆隔离得分。它涵盖工具使用对话、多轮搜索、编码和计算机使用,并包含一个轻量级奖励模型(MemRM)以实现高效评估。
@_akhaliq: LongMINT 在长时域代理系统中评估多目标干扰下的记忆
LongMINT 是一个基准测试,用于在长时域代理系统中评估多目标干扰下的记忆性能。