标签
本文提出了一种针对大型语言模型的“睡眠”范式,该范式通过记忆巩固和梦境阶段实现持续学习,使模型能够将短期知识提炼为长期参数,并在无需人工监督的情况下自我改进。
本文提出了一种类似睡眠的巩固机制,适用于基于Transformer的大语言模型,该机制定期将最近上下文转换为SSM块中的持久快速权重,清除KV缓存,从而在不增加推理延迟的情况下提升长期推理能力。
Auto-Dreamer 提出了一种针对语言代理的离线记忆整合学习方法,将快速记忆获取与慢速跨会话整合解耦,以更小的记忆库实现更高性能,并泛化到未见环境。