标签
本文介绍了通用三重潜在循环模型,该模型将令牌对交互压缩为潜在状态,并提出一种改进精确召回的门控关联检索变体。该混合模型在字节级WikiText-2和分词语言基准上优于Transformer,实现了高达41.9%的关联召回率(对比25%)。
本文介绍了 Toeplitz MLP Mixer(TMM),这是一种新型架构,它用 Toeplitz 矩阵乘法取代注意力机制,从而在保持高信息保留率和训练效率的同时实现更低的计算复杂度。
本论文介绍了Olmo Hybrid,一个包含70亿参数的语言模型,结合了注意力机制和Gated DeltaNet递归层,相比纯Transformer架构展现出理论和实证优势。该工作表明混合模型具有更强的表达能力,在预训练中扩展效率更高,且性能优于可比的Transformer基线。