@hyunji_amy_lee: LLM代理与记忆系统在持续更新的环境中运行(Git仓库、不断演变的文档)。它们必须处理…

X AI KOLs Following 论文

摘要

MINTEval是一个新的基准,用于评估在频繁上下文变化的持续更新环境中LLM代理和记忆系统的表现。它显示当前系统性能不佳,典型系统的平均准确率仅为27.9%。

LLM代理与记忆系统在持续更新的环境中运行(Git仓库、不断演变的文档)。它们必须处理长上下文、恢复早期信息,并对许多更新进行推理,这些更新会在新旧信息之间产生干扰。它们能处理得怎么样? 我们推出MINTEval: 频繁的上下文变化与干扰(平均86次更新) 5种具有挑战性的问题类型,包括长距离回溯及对分布在上下文中的多个目标进行推理 4个现实领域:状态追踪、多轮对话、维基百科修订、GitHub提交 每个实例平均13.88万token(最高180万) 对生成问答的人工验证准确率为95.6% 在7个代表性系统上,MINTEval仍然困难,平均准确率仅27.9%,最佳系统也只达到33.4%。 我们的分析显示: • 记忆构建失败导致41.7%的下降 • 记忆代理对设计选择高度敏感 • 记忆系统对插入操作(76.8%)有强烈偏好,而非删除/更新
查看原文
查看缓存全文

缓存时间: 2026/05/20 20:36

LLM智能体与记忆系统在持续更新的环境中运行(Git仓库、不断演化的文档)。它们必须处理长上下文、恢复早期信息,并对大量更新进行推理,这些更新会在新旧信息之间产生干扰。它们应对得如何?

我们介绍 MINTEval: 频繁的上下文变化与干扰(平均86次更新) 5种具有挑战性的问题类型,包括远距离回溯及对分布在上下文中的多个目标进行推理 4个真实领域:状态跟踪、多轮对话、Wikipedia版本修订、GitHub提交 平均每个实例138.8k tokens(最多1.8M) 人工验证生成的QA达到95.6%

在7个代表性系统上,MINTEval仍然困难,平均准确率为27.9%,最佳系统仅达到33.4%。

我们的分析显示: • 记忆构建失败导致41.7%的性能下降 • 记忆智能体对设计选择高度敏感 • 记忆系统对插入操作(76.8%)存在强烈偏向,对删除/更新操作偏弱

现实世界的信息不断演化:代码库被更新、文档被修订、用户偏好随时间改变。

这自然产生了记忆干扰。

在这些干扰密集的环境下,智能体必须:

  • 记住过去的状态
  • 跟踪随时间的变化
  • 对冲突信息进行推理
  • 正确解决干扰

现有的大多数记忆基准未能同时涵盖: 干扰密集的长时间跨度上下文 远距离回溯和跨多个目标的聚合问题 跨多种领域的评估

MINTEval通过以下方式填补这一空白: 强干扰(平均86次更新)和长上下文(平均138.8k tokens,最多1.8M) 5种问题类型,包括具有挑战性的回溯和多目标聚合推理等,分布在15.6k个QA对中 4个领域:状态跟踪(bAbI)、多轮对话(Horizonbench)、Wikipedia版本修订、GitHub提交

MINTEval 评估在干扰密集上下文下的2项主要能力 / 5种问题类型:

单目标召回:智能体能否在强干扰下检索到正确事实?

  • 简单:检索最新状态(前摄干扰)
  • 历史:在多次后续更新后恢复早期状态(倒摄干扰)

多目标聚合:智能体能否组合跨版本分布的信息?

  • 排序:恢复事件的时间顺序
  • 计数:聚合跨更新的出现次数(如某个状态持续了多久)
  • 多跳:对多个相关目标进行推理(如桥接 / 比较问题)

我们在 MINTEval 上评估了7个代表性系统,包括全上下文、基于RAG以及记忆增强型智能体,它们都面临重大困难。

  • 平均准确率:27.9%
  • 记忆系统最佳(MemAgent):33.4%
  • 即使是SimpleMem + Gemini-3.1-Flash-Lite也只达到30.3%,这可能归因于激进的记忆压缩。

在以下问题上性能急剧下降:

  • 需要远距离回溯的历史问题(21.0%)
  • 需要检索并推理多条信息的多目标聚合问题(26.5%) 相比之下,简单召回问题为47.5%。

我们还观察到跨领域泛化能力有限:没有单一方法在跨领域和问题类型上表现一致。

检索和记忆构建仍然是主要瓶颈。

  • 最大的性能下降来自于未能检索或保留正确证据:41.7%的退化
  • 当证据存在时,回答智能体仍可能无法正确使用它——额外下降25.2%

更远的回溯距离显著损害性能。

  • 随着查询事实与当前状态之间的距离增加,准确率急剧下降,尤其是全上下文方法和基于检索的系统(RAG、HippoRAG)
  • 记忆增强型智能体也随着距离增加而下降,但表现出更强的鲁棒性

更少的记忆更新迭代提升了性能。

  • 使用更大的块(更少的记忆修改)通常带来更好的性能;频繁的记忆更新可能导致意外的覆盖或移除,使得维持连贯的长期记忆更加困难。
  • 这尤其损害历史问题和计数问题,因为它们需要跨长时间跨度整合信息。

这些发现突显了在跨不同领域和问题的干扰密集、长时间跨度环境中,对更稳健的记忆管理系统的需求。

https://arxiv.org/abs/2605.18565 https://huggingface.co/datasets/dinobby/MINTEval… https://github.com/amy-hyunji/MINTEval…

与 @cyjustinchen(共同领导)、@joykiratsingh、@codezakh、@EliasEskin 和 @mohitban47 在 @unc_ai_group @unccs @UTCompSci 的精彩合作

相似文章

MemEvoBench:LLM 代理内存误演化基准测试

arXiv cs.CL

MemEvoBench 引入了首个用于评估 LLM 代理内存安全性的基准测试,衡量对抗性内存注入、噪声输出和有偏反馈在问答与工作流任务中导致的行为衰退。该研究表明内存演化是安全失败的重要因素,且静态防御措施不足以应对。

STALE:LLM智能体能否识别记忆何时失效?

Hugging Face Daily Papers

本文识别了LLM智能体中的一个关键失效模式:当新证据与先前信念冲突时,它们无法更新个性化记忆。本文引入了STALE基准和一个三维探测框架,揭示了即使最佳模型也仅达到55.2%的准确率,并提出了CUPMem作为鲁棒记忆修正的原型。

MemGym:面向LLM智能体的长时记忆环境

arXiv cs.CL

MemGym是一个基准测试,用于评估LLM智能体在长时任务中的记忆形成,它统一了现有的智能体gym和合成流水线,并采用记忆隔离得分。它涵盖工具使用对话、多轮搜索、编码和计算机使用,并包含一个轻量级奖励模型(MemRM)以实现高效评估。