标签
MEMPROBE是一个基准,通过从智能体交互后的记忆中重建隐藏用户状态,来评估大语言模型智能体的长期记忆能力。
ActiveGraph宣布了两篇关于代理记忆(LongMemEval)和自我改进机制的新论文,并提供了参考代理、包模板以及即将在西雅图和旧金山举行的聚会。
AtomMem 为 LLM 智能体引入了一种长期记忆系统,将原子事实作为高效记忆单元,将其组织成层次化的事件结构和时间用户画像,在 LoCoMo 基准上达到了最先进水平。
Elasticsearch博客文章描述了构建一个持久化智能体记忆层,包含三种记忆类型(情景记忆、语义记忆、程序记忆),在QA评估中实现0.89召回率,并利用混合召回和DLS隔离实现了零租户泄漏。
CoreMem提出了一种资源高效的边缘-云端内存架构,用于对话代理,采用基于Fisher-Rao度量的黎曼检索和Fisher引导的离散令牌蒸馏,在8 GB VRAM预算内实现了显著的准确性提升。
MemTrace 是一个基准,它在知识点层面评估 LLM 代理的记忆,探究事实在不同记忆年龄、问题类型和证据条件下的表现。它揭示出汇总的准确率掩盖了不同的失败模式,并且主要瓶颈是证据的使用而非检索。
T-Mem 是一种新型长程对话记忆架构,能够同时支持描述性回忆和关联性回忆,涵盖查询与记忆共享表面特征的场景以及两者通过潜在语义弧相连的场景。该架构在 LoCoMo 和 LoCoMo-Plus 基准测试上达到了最先进水平。
腾讯开源了Hy-Memory,这是一个为AI代理提供长期记忆的内存插件,采用6层双推理框架,将令牌使用量减少35%,内存膨胀减少70%。
Midas 在 BEAM 100K 上达到 0.56 recall@k,在 BEAM 500K 上达到 0.51 recall@k,零 LLM 调用、零成本,展示了高效的智能体长期记忆能力。
MemRefine是一个基于LLM的框架,用于在固定存储预算下压缩长程智能体记忆,利用相似性进行候选配对,并由LLM裁判基于事实内容决定删除或合并,在基准测试中优于基于规则的基线。
介绍了Infini Memory,一种用于LLM智能体的可维护基于文本的持久化记忆架构。它使用主题结构化文档和迭代检索来改进长期记忆使用,在MemoryAgentBench上达到了64.7%的得分。
REAL是一种用于LLMs长期记忆管理的推理增强图框架,它利用时间与置信度感知的有向属性图,采用非破坏性时间更新和混合波束搜索检索,平均性能提升22.72%。
一位用户质疑基于重要性、强化和衰减来决定保留或遗忘内容的AI记忆管理器系统的可行性。
本文提出了一种无需训练、仅使用CPU的检索方法,该方法将BM25词汇分数与后期交互密集分数相融合,用于会话记忆检索,在六个编码器上相比仅使用后期交互,在LoCoMo Hit@1上提升了高达+17.2个点。该研究提供了关于池化操作符、重排序器效果和基准鲁棒性的受控消融实验,将这种提升视为密集信号与词汇信号之间的分工。
LifeSide 是一个用于评估 AI 智能体作为终身数字伴侣的新基准,涵盖记忆追踪、用户理解、隐私控制和情感陪伴四个维度,基于 2,000 个用户画像和 111K 个任务在多会话场景下进行测试。结果表明,即便是顶尖模型也难以在长期交互中保持准确的用户理解和真实的情感陪伴。
SubtleMemory是一个用于评估AI代理在长期交互中细粒度关系记忆辨别能力的基准,包含10个长历史中的1,522个实例。它揭示了当前记忆系统在保存和利用细微记忆关系方面的局限性。
Garry Tan 的 gbrain-evals 是一个用于 gbrain(AI 代理的长期记忆)的开源测试套件,包含4个端到端评估验证 SkillOpt 功能,在多个基准测试中实现了高召回率和高精确度。
腾讯开源了 TencentDB Agent Memory,通过分层记忆管理(符号化短期记忆+分层长期记忆)解决AI Agent长对话上下文爆仓问题,实测Token消耗最高降低61%,任务通过率提升超50%。
字节Seed开源了TaskMem checkpoint,基于Qwen3-VL-30B-A3B训练,通过两阶段强化学习让多模态Agent在视频流中学会生成长期记忆,在VideoMME、EgoLife等基准上获得显著提升。
作者认为,AI代理的记忆应侧重于数据剪枝而非囤积,借鉴人类记忆类型(感觉记忆、短期记忆、长期记忆),并指出模仿人类记忆可以在减少令牌用量的同时维持高质量上下文。