@_albertgu: 介绍一种新的序列模型Raven,它突破了固定状态大小序列模型的边界!Raven连接了流行的…

X AI KOLs Timeline 模型

摘要

研究人员介绍了Raven,这是一种新颖的序列模型,它将状态空间模型的效率与受滑动窗口注意力启发的选择性槽更新机制相结合,以改进长上下文检索。该方法为现有的线性时间模型提供了一种更严谨的替代方案。

介绍一种新的序列模型Raven,它突破了固定状态大小序列模型的边界!Raven连接了流行的线性时间模型与恒定状态容量,如SSMs和滑动窗口注意力(SWA)。与SWA类似,其状态是一组有限的槽;但与SWA不同的是,Raven学会选择性地决定更新哪些槽,每个新缓存的token都会触发该选择。这是一种更严谨的更新机制,使得检索能力远优于先前的线性模型。我个人认为SWA并不是一个非常严谨的模型——但它很方便且经验上效果很好——最令人兴奋的是看到Raven作为严格更好的即插即用替代品被使用。更广泛地说,它开发的框架希望能引入更多想法,结合类似SSM模型和类似注意力模型的优势。这项工作由@rshia_afz和@avivbick领导。
查看原文

相似文章

用于大规模并行序列生成的结构化循环混合器

arXiv cs.CL

本文介绍了结构化循环混合器(SRM),这是一种架构,无需专用内核即可在并行训练和循环推理之间进行代数转换。实验表明,与 Transformer 相比,SRM 实现了显著更高的吞吐量和并发能力,并在强化学习任务中表现出有效性能。

Gated QKAN-FWP:可扩展的量子启发序列学习

arXiv cs.LG

本文提出了 Gated QKAN-FWP,这是一个可扩展的量子启发序列学习框架,它通过单量子比特数据重新加载电路,将快速权重程序员(Fast Weight Programmers)与柯尔莫哥洛夫-阿诺德网络(Kolmogorov-Arnold Networks)相结合。