@hyunji_amy_lee: LLM代理与记忆系统在持续更新的环境中运行（Git仓库、不断演变的文档）。它们必须处理…

X AI KOLs Following 2026/05/20 16:48 论文

llm-agents memory-systems benchmark evaluation long-context git-repos evolving-docs

摘要

MINTEval是一个新的基准，用于评估在频繁上下文变化的持续更新环境中LLM代理和记忆系统的表现。它显示当前系统性能不佳，典型系统的平均准确率仅为27.9%。

LLM代理与记忆系统在持续更新的环境中运行（Git仓库、不断演变的文档）。它们必须处理长上下文、恢复早期信息，并对许多更新进行推理，这些更新会在新旧信息之间产生干扰。它们能处理得怎么样？我们推出MINTEval：频繁的上下文变化与干扰（平均86次更新） 5种具有挑战性的问题类型，包括长距离回溯及对分布在上下文中的多个目标进行推理 4个现实领域：状态追踪、多轮对话、维基百科修订、GitHub提交每个实例平均13.88万token（最高180万）对生成问答的人工验证准确率为95.6% 在7个代表性系统上，MINTEval仍然困难，平均准确率仅27.9%，最佳系统也只达到33.4%。我们的分析显示： • 记忆构建失败导致41.7%的下降 • 记忆代理对设计选择高度敏感 • 记忆系统对插入操作（76.8%）有强烈偏好，而非删除/更新

查看原文

查看缓存全文

缓存时间: 2026/05/20 20:36

LLM智能体与记忆系统在持续更新的环境中运行（Git仓库、不断演化的文档）。它们必须处理长上下文、恢复早期信息，并对大量更新进行推理，这些更新会在新旧信息之间产生干扰。它们应对得如何？

我们介绍 MINTEval：频繁的上下文变化与干扰（平均86次更新） 5种具有挑战性的问题类型，包括远距离回溯及对分布在上下文中的多个目标进行推理 4个真实领域：状态跟踪、多轮对话、Wikipedia版本修订、GitHub提交平均每个实例138.8k tokens（最多1.8M）人工验证生成的QA达到95.6%

在7个代表性系统上，MINTEval仍然困难，平均准确率为27.9%，最佳系统仅达到33.4%。

我们的分析显示： • 记忆构建失败导致41.7%的性能下降 • 记忆智能体对设计选择高度敏感 • 记忆系统对插入操作（76.8%）存在强烈偏向，对删除/更新操作偏弱

现实世界的信息不断演化：代码库被更新、文档被修订、用户偏好随时间改变。

这自然产生了记忆干扰。

在这些干扰密集的环境下，智能体必须：

记住过去的状态
跟踪随时间的变化
对冲突信息进行推理
正确解决干扰

现有的大多数记忆基准未能同时涵盖：干扰密集的长时间跨度上下文远距离回溯和跨多个目标的聚合问题跨多种领域的评估

MINTEval通过以下方式填补这一空白：强干扰（平均86次更新）和长上下文（平均138.8k tokens，最多1.8M） 5种问题类型，包括具有挑战性的回溯和多目标聚合推理等，分布在15.6k个QA对中 4个领域：状态跟踪（bAbI）、多轮对话（Horizonbench）、Wikipedia版本修订、GitHub提交

MINTEval 评估在干扰密集上下文下的2项主要能力 / 5种问题类型：

单目标召回：智能体能否在强干扰下检索到正确事实？

简单：检索最新状态（前摄干扰）
历史：在多次后续更新后恢复早期状态（倒摄干扰）

多目标聚合：智能体能否组合跨版本分布的信息？

排序：恢复事件的时间顺序
计数：聚合跨更新的出现次数（如某个状态持续了多久）
多跳：对多个相关目标进行推理（如桥接 / 比较问题）

我们在 MINTEval 上评估了7个代表性系统，包括全上下文、基于RAG以及记忆增强型智能体，它们都面临重大困难。

平均准确率：27.9%
记忆系统最佳（MemAgent）：33.4%
即使是SimpleMem + Gemini-3.1-Flash-Lite也只达到30.3%，这可能归因于激进的记忆压缩。

在以下问题上性能急剧下降：

需要远距离回溯的历史问题（21.0%）
需要检索并推理多条信息的多目标聚合问题（26.5%）相比之下，简单召回问题为47.5%。

我们还观察到跨领域泛化能力有限：没有单一方法在跨领域和问题类型上表现一致。

检索和记忆构建仍然是主要瓶颈。

最大的性能下降来自于未能检索或保留正确证据：41.7%的退化
当证据存在时，回答智能体仍可能无法正确使用它——额外下降25.2%

更远的回溯距离显著损害性能。

随着查询事实与当前状态之间的距离增加，准确率急剧下降，尤其是全上下文方法和基于检索的系统（RAG、HippoRAG）
记忆增强型智能体也随着距离增加而下降，但表现出更强的鲁棒性

更少的记忆更新迭代提升了性能。

使用更大的块（更少的记忆修改）通常带来更好的性能；频繁的记忆更新可能导致意外的覆盖或移除，使得维持连贯的长期记忆更加困难。
这尤其损害历史问题和计数问题，因为它们需要跨长时间跨度整合信息。

这些发现突显了在跨不同领域和问题的干扰密集、长时间跨度环境中，对更稳健的记忆管理系统的需求。

https://arxiv.org/abs/2605.18565 https://huggingface.co/datasets/dinobby/MINTEval… https://github.com/amy-hyunji/MINTEval…

与 @cyjustinchen（共同领导）、@joykiratsingh、@codezakh、@EliasEskin 和 @mohitban47 在 @unc_ai_group @unccs @UTCompSci 的精彩合作

@hyunji_amy_lee: LLM代理与记忆系统在持续更新的环境中运行（Git仓库、不断演变的文档）。它们必须处理…

相似文章

MemEvoBench：LLM 代理内存误演化基准测试

STALE：LLM智能体能否识别记忆何时失效？

GroupMemBench：多轮对话中LLM代理记忆的基准测试

MemGym：面向LLM智能体的长时记忆环境

@_akhaliq: LongMINT 在长时域代理系统中评估多目标干扰下的记忆

提交意见反馈