@rshia_afz: 1/ 由于状态大小固定，SSM 在召回基准测试中表现不佳。但当前模型是否真的在“明智地”存储上下文？

X AI KOLs Timeline 2026/05/07 17:20 模型

摘要

本文介绍了 Raven，一种新型状态空间模型（SSM），它采用选择性内存分配机制，在召回任务上达到了最先进的性能，并且相比于 SWA 等现有模型，展现出更优的长度泛化能力。

1/ 由于状态大小固定，SSM 在召回基准测试中表现不佳。但当前模型是否真的在“明智地”存储上下文？隆重介绍 Raven，首个采用选择性内存分配的 SSM！Raven 在召回密集型任务上达到了最先进的性能，具有最高的长度泛化能力，可延伸至其训练序列长度的 16 倍以上。在存储历史上下文方面，Raven 是 SWA 的严格升级版！这是我参与设计过的最优雅的模型，感谢 @avivbick 和 @_albertgu 的信任和出色工作！来看看 Raven 如何在 SWA 和 SSM 之间架起桥梁。

查看原文

@rshia_afz: 1/ 由于状态大小固定，SSM 在召回基准测试中表现不佳。但当前模型是否真的在“明智地”存储上下文？

相似文章

@_albertgu: 介绍一种新的序列模型Raven，它突破了固定状态大小序列模型的边界！Raven连接了流行的…

WriteSAE：面向循环状态的稀疏自编码器

如何在强化学习后训练中压缩 KV 缓存？用于内存高效对齐的阴影掩码蒸馏

在 LongMemEval-S 上对智能体记忆检索进行基准测试 — Recall@5 达 98%，R@23 实现 100% 召回，仅依赖本地嵌入模型 (all-MiniLM-L6-v2)，无需 LLM 与 API Key

MemReranker：面向智能体记忆检索的推理感知重排序

提交意见反馈