标签
ComMem 提出了受生物记忆启发的互补记忆系统,以改进视觉语言模型的测试时自适应,在15个基准测试上超越了现有最先进方法。
这篇文章讨论了AI记忆系统的设计方法,主张从评估出发让好的记忆系统自然涌现,而不是从上到下设计记忆架构。作者认为记忆是系统在压力下进化出来的二阶效应,并提出纵向评估框架。
This paper from SJTU and Tsinghua systematically evaluates 12 agent memory systems from a data management perspective, decomposing memory into four modules and providing guidelines on when to use RAG, vector databases, or knowledge graphs for long-term agent memory.
一篇论文系统评估了12个LLM Agent记忆系统,将其拆分为四个模块,发现没有单一架构在所有场景下占优,并揭示了成本-性能权衡和常见问题(如“过去的幻觉”)。
探讨了AI智能体记忆系统如何常常忽略工作记忆等关键认知过程,将其与顺行性遗忘症进行类比,并为更有效的解决方案提供设计指导。
MEMPROBE是一个基准,通过从智能体交互后的记忆中重建隐藏用户状态,来评估大语言模型智能体的长期记忆能力。
本文从数据管理的角度对智能体记忆系统进行了系统的实验研究,将记忆分解为四个核心模块,并在11个数据集上评估了12个代表性系统,发现没有单一架构占主导地位,并强调了成本-性能的权衡。
讨论构建LLM记忆系统的不同思想流派,重点关注图记忆及其对人类创造力和归纳偏置的潜力。
本文认为,文件系统因其悠久历史和在LLM训练数据中的广泛包含,为AI代理记忆提供了一种自然直观的原语,在探索性推理和持久化上下文方面优于传统数据库和API。
一份关于使用多 LLM 系统与持久内存构建研究代理框架的详细指南,通过基于文件的身份、项目文档和记忆索引,让研究人员无需在每次会话中重复解释上下文。
本文介绍了Engram,一个开源的用于LLM代理的双时态记忆引擎,它通过检索一个紧凑的上下文片段(约9.6k token),在LongMemEval上以混合读取路径融合稠密、词汇、图和时间信号,比完整历史基线(79k token)高出10.4个准确率点。
对智能体记忆主要是一个基础设施/数据管理问题而非AI问题的反思,聚焦于权限、范围、修订历史等实际复杂性。
CL-Bench 是一个经过专家验证的跨六个领域的新基准,用于评估基于LLM的智能体是否真正从序列经验中学习。它发现,朴素上下文学习往往优于专用的记忆系统,表明当前架构增加了开销而非真正的学习。
深入分析ChatGPT Dreaming V3的记忆架构,解释它如何从原始来源合成连贯的记忆状态,并将其与其他开源记忆框架(如mem0、supermemory和Letta)进行比较。
本文评估了面向LLM智能体的八种记忆系统在五种不同场景下的表现,发现给予智能体对存储和检索的主动控制(而非被动管道)能够获得最佳的跨场景泛化能力,并由此提出了AutoMEM框架。
MemPro 是一个系统级进化框架,它将记忆构建-检索管道视为一个可进化的程序,使用进化智能体(Evolving Agent)迭代诊断失败并创建改进版本。在长期任务基准上的实验表明,与静态和提示级基线相比,它在性能-成本权衡方面取得了持续改进。
文章警告说,虽然AI记忆系统在演示中令人印象深刻,但它们常常导致过时的事实、冲突的偏好和损坏的摘要,从而造成未来的调试噩梦和技术债务。
MemTrace通过将记忆管道转化为可执行图,自动追踪LLM记忆系统中的错误,定位失败的根因,并自我修正,使性能提升最高达7.62%。