标签
本文批评了当前将智能体记忆仅仅视为存储问题的框架,认为记忆应具有类型化角色、新鲜度和权威级别,以防止过时或错误的信息被当作真理。
本文批评当前AI记忆系统仅仅只是无法被纠正、更新或溯源至来源的只写日志,认为真正的记忆需要一个治理层。
介绍了一种四条件诊断协议,用于识别长上下文记忆系统的失败是由于写入端的压缩丢弃了证据,还是检索端未能找到已存储的信息。分析表明,大多数基线模型的写入端差距占主导,从而推动了所提出的预期预测压缩(EPC)方法,该方法提高了相关证据的保留能力。
本文介绍了PerMemBench,这是首个用于评估基于LLM的智能体中个性化记忆系统的基准测试,并提出了一个会话级存储门控框架,该框架根据个体用户上下文调整记忆策略。
一份关于Hermes Agent记忆系统的全面指南,解释了三层记忆架构,并比较了各种记忆工具和提供商。
文章警告称,AI代理的记忆系统优先考虑回忆而非准确性,导致过时或不正确的假设难以追踪或修复,除非重置一切。
本文对长期运行的 LLM 会话、生活伴侣型代理以及持久化记忆系统提出了实用批评,指出了隐私、成本、意图丢失和维护等问题,并提出了基于问题的临时会话链和提示模板等替代方案。
一份全面的指南,解释了AI操作系统作为智能编排层的概念,该层协调工作流、记忆、工具和代理。它分解了架构以及公司如何构建自主系统。
一条推文,推广一个AI Agent OS的免费详细解析,该OS仅需Claude Code和一个包含5个配置文件的简单文件树,即可连接300+技能、500+智能体和4个记忆系统,声称可在30分钟内设置完成。
MINTEval是一个新的基准,用于评估在频繁上下文变化的持续更新环境中LLM代理和记忆系统的表现。它显示当前系统性能不佳,典型系统的平均准确率仅为27.9%。
提出了一种基于合约的有限证据激活(CBEA)与词典式承诺验证(LCV)方法,以防止个性化语言系统中出现运行时控制失败——系统在拥有相关上下文的情况下仍做出错误承诺。该方案在验证器范围内实现了零失败,可用性达到0.49–0.60,显著优于基线方法。
RecMem是一种基于重复的记忆整合方法,适用于长期运行的LLM智能体,通过仅在语义相似的交互重复出现时调用LLM,可减少高达87%的令牌消耗,同时提高准确性。
解释了AI代理的两种记忆模式:GBrain(可查询的公司维基)和Lossless(完整对话记录),帮助代理在会话之间和会话内部保留和检索事实。
本文强调了生产AI记忆系统中的三种常见失败模式:过时的偏好持续存在、讽刺性评论被当作字面偏好存储、以及摘要比其来源事实更持久。文章认为AI记忆行业缺乏出处、置信度评分和版本控制,造成了妨碍调试的黑箱问题。
BOOKMARKS是一种基于搜索的记忆框架,用于角色扮演代理,通过结构化书签主动维护与任务相关的故事细节,性能优于现有的循环摘要方法。
本预印本介绍了一种将情感向量注入语言模型以模拟躯体标记的方法,旨在弥合语义记忆与情景记忆之间的差距。作者证明,将情感回音与语义知识相结合可以提升决策能力,从而复现了人类认知科学中的相关发现。
Applied Compute 推出 ACL-Wiki,这是一个基于其 Context Engine 构建的持续学习记忆系统,能够记录来自 Cursor、Claude Code 和 Codex 的编程智能体交互,从而构建一个不断优化的 Contextbase,在两周内将关键记忆率提升约一倍。该系统通过 MCP 服务器暴露的 Remember-Refine-Retrieve 流水线,为编程智能体提供随使用而持续改进的机构记忆。
本文介绍了 LifeDialBench,一个新颖的基准测试,用于在可穿戴设备驱动的连续生活日志场景中评估记忆能力,并提出了一个强制执行时间因果性的在线评估协议。关键发现:复杂的记忆系统表现不如简单的 RAG 基线,突出了高保真上下文保存相比有损压缩的重要性。