@_albertgu: 介绍一种新的序列模型Raven,它突破了固定状态大小序列模型的边界!Raven连接了流行的…
摘要
研究人员介绍了Raven,这是一种新颖的序列模型,它将状态空间模型的效率与受滑动窗口注意力启发的选择性槽更新机制相结合,以改进长上下文检索。该方法为现有的线性时间模型提供了一种更严谨的替代方案。
介绍一种新的序列模型Raven,它突破了固定状态大小序列模型的边界!Raven连接了流行的线性时间模型与恒定状态容量,如SSMs和滑动窗口注意力(SWA)。与SWA类似,其状态是一组有限的槽;但与SWA不同的是,Raven学会选择性地决定更新哪些槽,每个新缓存的token都会触发该选择。这是一种更严谨的更新机制,使得检索能力远优于先前的线性模型。我个人认为SWA并不是一个非常严谨的模型——但它很方便且经验上效果很好——最令人兴奋的是看到Raven作为严格更好的即插即用替代品被使用。更广泛地说,它开发的框架希望能引入更多想法,结合类似SSM模型和类似注意力模型的优势。这项工作由@rshia_afz和@avivbick领导。
相似文章
@rshia_afz: 1/ 由于状态大小固定,SSM 在召回基准测试中表现不佳。但当前模型是否真的在“明智地”存储上下文?
本文介绍了 Raven,一种新型状态空间模型(SSM),它采用选择性内存分配机制,在召回任务上达到了最先进的性能,并且相比于 SWA 等现有模型,展现出更优的长度泛化能力。
RAVEN: 实时自回归视频外推与一致性模型GRPO
RAVEN 提出了一种实时自回归视频外推框架,结合了 CM-GRPO(一种用于一致性模型采样的新型强化学习方法),提升了长时程生成质量。
用于大规模并行序列生成的结构化循环混合器
本文介绍了结构化循环混合器(SRM),这是一种架构,无需专用内核即可在并行训练和循环推理之间进行代数转换。实验表明,与 Transformer 相比,SRM 实现了显著更高的吞吐量和并发能力,并在强化学习任务中表现出有效性能。
Gated QKAN-FWP:可扩展的量子启发序列学习
本文提出了 Gated QKAN-FWP,这是一个可扩展的量子启发序列学习框架,它通过单量子比特数据重新加载电路,将快速权重程序员(Fast Weight Programmers)与柯尔莫哥洛夫-阿诺德网络(Kolmogorov-Arnold Networks)相结合。
@samhogan:顺便提一句,RLM 基本已解决上下文问题。你只需将上千万个 token 投入一个成熟的 RLM 框架中,它就能直接跑通……
一位开发者分享了使用 RLM 的实践经验,表示其能够有效承载高达数千万 token 的超长上下文窗口,这标志着上下文处理能力实现了显著跨越。