@_albertgu: 介绍一种新的序列模型Raven，它突破了固定状态大小序列模型的边界！Raven连接了流行的…

X AI KOLs Timeline 2026/05/07 17:35 模型

摘要

研究人员介绍了Raven，这是一种新颖的序列模型，它将状态空间模型的效率与受滑动窗口注意力启发的选择性槽更新机制相结合，以改进长上下文检索。该方法为现有的线性时间模型提供了一种更严谨的替代方案。

介绍一种新的序列模型Raven，它突破了固定状态大小序列模型的边界！Raven连接了流行的线性时间模型与恒定状态容量，如SSMs和滑动窗口注意力（SWA）。与SWA类似，其状态是一组有限的槽；但与SWA不同的是，Raven学会选择性地决定更新哪些槽，每个新缓存的token都会触发该选择。这是一种更严谨的更新机制，使得检索能力远优于先前的线性模型。我个人认为SWA并不是一个非常严谨的模型——但它很方便且经验上效果很好——最令人兴奋的是看到Raven作为严格更好的即插即用替代品被使用。更广泛地说，它开发的框架希望能引入更多想法，结合类似SSM模型和类似注意力模型的优势。这项工作由@rshia_afz和@avivbick领导。

查看原文

@_albertgu: 介绍一种新的序列模型Raven，它突破了固定状态大小序列模型的边界！Raven连接了流行的…

相似文章

@rshia_afz: 1/ 由于状态大小固定，SSM 在召回基准测试中表现不佳。但当前模型是否真的在“明智地”存储上下文？

RAVEN: 实时自回归视频外推与一致性模型GRPO

用于大规模并行序列生成的结构化循环混合器

Gated QKAN-FWP：可扩展的量子启发序列学习

@samhogan：顺便提一句，RLM 基本已解决上下文问题。你只需将上千万个 token 投入一个成熟的 RLM 框架中，它就能直接跑通……

提交意见反馈