@rshia_afz: 1/ 由于状态大小固定,SSM 在召回基准测试中表现不佳。但当前模型是否真的在“明智地”存储上下文?
摘要
本文介绍了 Raven,一种新型状态空间模型(SSM),它采用选择性内存分配机制,在召回任务上达到了最先进的性能,并且相比于 SWA 等现有模型,展现出更优的长度泛化能力。
1/ 由于状态大小固定,SSM 在召回基准测试中表现不佳。但当前模型是否真的在“明智地”存储上下文?隆重介绍 Raven,首个采用选择性内存分配的 SSM!Raven 在召回密集型任务上达到了最先进的性能,具有最高的长度泛化能力,可延伸至其训练序列长度的 16 倍以上。在存储历史上下文方面,Raven 是 SWA 的严格升级版!这是我参与设计过的最优雅的模型,感谢 @avivbick 和 @_albertgu 的信任和出色工作!来看看 Raven 如何在 SWA 和 SSM 之间架起桥梁。
相似文章
@_albertgu: 介绍一种新的序列模型Raven,它突破了固定状态大小序列模型的边界!Raven连接了流行的…
研究人员介绍了Raven,这是一种新颖的序列模型,它将状态空间模型的效率与受滑动窗口注意力启发的选择性槽更新机制相结合,以改进长上下文检索。该方法为现有的线性时间模型提供了一种更严谨的替代方案。
WriteSAE:面向循环状态的稀疏自编码器
WriteSAE 引入了第一个稀疏自编码器,能够分解状态空间模型和混合循环语言模型中的矩阵缓存写入,相比现有方法实现了更优的令牌级干预。
如何在强化学习后训练中压缩 KV 缓存?用于内存高效对齐的阴影掩码蒸馏
本文提出了阴影掩码蒸馏(SMD),旨在解决大语言模型在强化学习后训练中因 KV 缓存压缩而导致的离策略偏差。该方法引入了一种机制,确保在策略上的对齐,并提高长上下文推理任务的内存效率。
在 LongMemEval-S 上对智能体记忆检索进行基准测试 — Recall@5 达 98%,R@23 实现 100% 召回,仅依赖本地嵌入模型 (all-MiniLM-L6-v2),无需 LLM 与 API Key
作者分享了用于智能体记忆的 Python 库 memweave 的基准测试结果,该库仅使用本地嵌入且无需调用 LLM,便在 LongMemEval-S 上实现了 98% 的 Recall@5。本文详细介绍了实现方法,并与 mempalace 进行了性能对比,突出了其在不同问题类型上稳定的检索表现。
MemReranker:面向智能体记忆检索的推理感知重排序
MemReranker 是一个针对智能体记忆检索设计的推理感知重排序模型家族(0.6B/4B),通过结合 LLM 知识蒸馏技术解决语义相似性匹配的局限性,从而提升模型的时间与因果推理能力。