@rshia_afz: 1/ 由于状态大小固定,SSM 在召回基准测试中表现不佳。但当前模型是否真的在“明智地”存储上下文?
摘要
本文介绍了 Raven,一种新型状态空间模型(SSM),它采用选择性内存分配机制,在召回任务上达到了最先进的性能,并且相比于 SWA 等现有模型,展现出更优的长度泛化能力。
1/ 由于状态大小固定,SSM 在召回基准测试中表现不佳。但当前模型是否真的在“明智地”存储上下文?隆重介绍 Raven,首个采用选择性内存分配的 SSM!Raven 在召回密集型任务上达到了最先进的性能,具有最高的长度泛化能力,可延伸至其训练序列长度的 16 倍以上。在存储历史上下文方面,Raven 是 SWA 的严格升级版!这是我参与设计过的最优雅的模型,感谢 @avivbick 和 @_albertgu 的信任和出色工作!来看看 Raven 如何在 SWA 和 SSM 之间架起桥梁。
相似文章
@_albertgu: 介绍一种新的序列模型Raven,它突破了固定状态大小序列模型的边界!Raven连接了流行的…
研究人员介绍了Raven,这是一种新颖的序列模型,它将状态空间模型的效率与受滑动窗口注意力启发的选择性槽更新机制相结合,以改进长上下文检索。该方法为现有的线性时间模型提供了一种更严谨的替代方案。
SAM:面向长程推理智能体的状态自适应记忆
本文提出 SAM,一个状态自适应记忆框架,能够动态管理长程智能体推理中的交互历史,实现意图驱动的回忆,而无需重新训练基础模型。它在多个基准测试(如 BrowseComp 和 HLE)上优于强基线方法。
RNNs vs Transformers vs SSMs:面向持续学习场景下AI记忆应存放于何处?
一篇比较RNNs、Transformers和SSMs中记忆设计的技术分析,主张关键问题在于序列状态应存储于何处,而非哪种架构更优。讨论了压缩隐状态、增长的KV缓存以及模型连接中类突触记忆之间的权衡。
@dair_ai: // 记忆即模型 // 该论文为任何LLM增加一个单独训练的记忆模型,用于存储、检索和整合…
MeMo 引入了一种模块化记忆模型,可为任何 LLM 增强存储、检索和整合新知识的能力,无需重新训练或担心灾难性遗忘。它在 BrowseComp-Plus、NarrativeQA 和 MuSiQue 等基准测试上优于基于 RAG 的方法。
面向高效长上下文生成的Context Memorization
提出了attention-state memory,一种免训练方法,将预计算的注意力状态存储在轻量级记忆中,以提高长前缀推理的准确率并降低延迟,在基准测试中优于传统方法。