我们准备好迎接智能体原生的存储系统了吗?

Hugging Face Daily Papers 论文

摘要

本文从数据管理的角度对智能体记忆系统进行了系统的实验研究,将记忆分解为四个核心模块,并在11个数据集上评估了12个代表性系统,发现没有单一架构占主导地位,并强调了成本-性能的权衡。

大语言模型(LLM)智能体的记忆已迅速从简单的检索增强机制演变为一个数据管理系统,支持在智能体执行过程中进行持久信息存储、检索、更新、整合和动态生命周期管理。尽管有这种演变,现有的评估仍然主要通过端到端任务成功指标(如F1、BLEU)来对智能体记忆进行基准测试,而将底层系统视为一个整体黑箱。因此,关键的系统级问题,包括操作成本、跨记忆模块的架构权衡以及动态知识更新下的鲁棒性,仍未得到充分探索。在本文中,我们从数据管理的角度对智能体记忆进行了系统的实验研究。我们提出了一个分析框架,将智能体记忆分解为四个核心模块:记忆表示与存储、提取、检索与路由、以及维护。在此框架下,我们评估了12个代表性记忆系统和两个参考基线,涵盖了跨11个数据集的五个基准工作负载。我们广泛的端到端评估表明,没有一个单一的架构在所有场景中占主导地位;相反,效果很大程度上取决于记忆结构与工作负载瓶颈的匹配程度。此外,通过细粒度的消融研究,我们量化了它们各自对表示保真度、检索精度、更新正确性和长期稳定性的影响。最后,我们揭示了在现实工作负载下的成本-性能权衡,表明局部维护比全局重组更具成本效益。基于这些发现,我们指出了构建真正原生于智能体的记忆系统的有希望的方向。代码公开于 https://github.com/OpenDataBox/MemoryData。
查看原文
查看缓存全文

缓存时间: 2026/06/25 05:17

论文页面 - 我们准备好构建智能体原生记忆系统了吗?

来源:https://huggingface.co/papers/2606.24775

摘要

大型语言模型智能体的记忆系统已发展为复杂的数据管理框架,需要在多个模块和工作负载下进行系统评估,以理解其性能特征与权衡。

大型语言模型(LLM)智能体的记忆已从简单的检索增强机制迅速演变为一种数据管理系统,支持智能体执行过程中的持久化信息存储、检索、更新、整合以及动态生命周期治理。尽管存在这一演进,现有评估仍主要通过端到端任务成功率指标(如 F1、BLEU)来基准测试智能体记忆,同时将底层系统视为一个整体黑箱。因此,关键的系统级问题——包括运营成本、跨记忆模块的架构权衡以及在动态知识更新下的鲁棒性——仍未得到充分探索。在本文中,我们从数据管理的视角对智能体记忆进行了系统的实验研究。我们提出了一个分析框架,将智能体记忆分解为四个核心模块:记忆表示与存储、提取、检索与路由以及维护。在此框架下,我们评估了 12 个代表性记忆系统和两个参考基线,涵盖跨越 11 个数据集的五个基准工作负载。我们广泛的端到端评估表明,没有单一架构在所有场景中占优;相反,有效性在很大程度上取决于记忆结构与工作负载瓶颈的对齐程度。此外,通过细粒度的消融研究,我们量化了它们对表示保真度、检索精度、更新正确性和长时稳定性的各自影响。最后,我们揭示了在实际工作负载下的成本-性能权衡,表明局部维护比全局重组更具成本效益。基于这些发现,我们指明了构建真正智能体原生记忆系统的有前景方向。代码已在 https://github.com/OpenDataBox/MemoryData 公开。

查看 arXiv 页面 (https://arxiv.org/abs/2606.24775)查看 PDF (https://arxiv.org/pdf/2606.24775)项目页面 (https://github.com/OpenDataBox/awesome-agent-memory)GitHub10 (https://github.com/OpenDataBox/MemoryData)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.24775)

在你的智能体中获取此论文:

hf papers read 2606\.24775

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.24775 以从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.24775 以从此页面链接。

引用此论文的 Spaces0

没有 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2606.24775 以从此页面链接。

包含此论文的合集0

没有合集包含此论文

请将此论文添加到合集 (https://huggingface.co/new-collection) 以从此页面链接。

相似文章

智能体记忆不仅仅是基于用户事实的RAG

Reddit r/AI_Agents

文章认为,简单的基于RAG的智能体记忆系统在生产中会失败,原因包括过时的偏好、遗漏的关键词和提示注入等问题,并主张采用分层记忆架构,具备主动选择、确定性回退、治理和测试等功能。

智能体记忆:剖析

Hacker News Top

探讨智能体记忆库的组件与设计决策,澄清认知科学术语与工程实现之间的差距。

智能体的记忆尚未成熟

Reddit r/AI_Agents

对当前AI智能体记忆解决方案的批评,认为RAG包装器及类似方法未能解决模型偏见和上下文膨胀的核心问题。