标签
本文全面梳理了截至2026年中,AI Agent记忆(Memory)的完整架构分层,包括规则文件、常驻画像、历史召回和证据链,阐述了不同层次记忆的存储方式、加载时机和治理原则,强调记忆在帮助Agent实现跨会话复利工作中的关键作用。
社区关于 Hermes 代理应如何处理跨会话持久化内存的讨论,探索外部内存层(8mem),并比较了感知内存与通用输出。
在使用Hermes Agent三个月后,作者分享了关于内存管理和配置文件优化的见解,发现更少的内存和更少的配置文件会带来更好的结果。
一则讨论如何在llama.cpp中释放GPU内存实用技巧的帖子,例如将mmproj卸载到CPU、调整KV缓存类型,同时讨论了--cache-type-k/v和--spec-draft-n-max等参数。
Nexus Memory 是一个原生 MCP 的内存服务器,允许 AI 代理通过统一协议共享上下文,实现跨不同代理的持久化、协调一致的内存,无需自定义集成。
GeneralVLA-2 引入了 GeoFuse-MV3D 以改进 3D 重建,以及一个受控的 KnowledgeBank 以在机器人操作任务中实现更好的记忆管理,在多个基准测试上取得了性能提升。
OPD-Evolver 提出了一种自我进化智能体框架,采用慢-快协同进化与在线策略自蒸馏,以增强记忆管理和策略学习,在多个领域基准测试中优于 ReasoningBank 和 Skill0 等现有方法。
一份详细的7天指南,教你搭建Hermes AI代理,涵盖身份、记忆、工具和Telegram集成。
Python 3.14 引入了一个增量垃圾回收器,但由于内存压力报告,该回收器在 3.14.5 中被回滚。本文解释了这些变化、它们的影响以及围绕回滚的争议。
G-Long 提出了一种用于长期对话代理的图增强内存管理框架,利用微调的小型语言模型进行结构化三元组提取和关联检索,在响应生成和内存检索方面取得了最先进的性能,同时降低了计算开销。
用户寻求关于如何防止 llama.cpp 在 RAM 完全耗尽前将 KV 缓存卸载到交换空间的建议,并分享了他们在配备 96GB RAM 的 M2 Max 和大型 Qwen 模型上的配置。
介绍了上下文窗口生命周期(CWL),这是一种面向长周期LLM智能体的结构化上下文驱逐方案,通过基于依赖图驱逐内容来维持有效无界的工作视野,避免了基于摘要的压缩和最近截断的局限性。
REAL是一种用于LLMs长期记忆管理的推理增强图框架,它利用时间与置信度感知的有向属性图,采用非破坏性时间更新和混合波束搜索检索,平均性能提升22.72%。
作者质疑将注意力集中在扩大AI智能体的上下文窗口上是否适得其反,认为积累的垃圾信息会拖慢长时间会话,并建议保持工作上下文小巧、使用外部记忆。
zalloc 将 C 模块中的 malloc、calloc、realloc 和 free 替换为 Zig 分配器,从而在 C 代码中实现 Zig 风格的内存管理。
一位用户质疑基于重要性、强化和衰减来决定保留或遗忘内容的AI记忆管理器系统的可行性。
RAMPART 是一种面向基于 LLM 的智能体的编译期内存模型和纯内存块注册表,通过五种可组合的原语管理上下文组装,支持优先级排序与淘汰策略。在多个 7B 至 14B 参数规模模型上的实验表明,块分组、相关性门控和模式淘汰能够显著提升任务成功率并降低提示词 token 开销。
SaliMory 是一个框架,通过训练单一语言模型来管理对话智能体的认知结构化记忆(包括用户事实、偏好和工作记忆),采用分层阶段式过程奖励与奖励分解对比精化机制。该框架将记忆归因失败率降低了三分之一,端到端准确率超越现有最优方法逾10%,并将良好个性化率提升至原来的两倍以上。
探讨了AI智能体中被忽视的记忆卫生问题——长期存储导致上下文过时且不可靠,并质疑行业是否在忽视一个即将到来的全球性问题。