transformer-alternatives

#transformer-alternatives

基于门控关联检索的通用三重潜在压缩

arXiv cs.CL ↗ · 4天前缓存

本文介绍了通用三重潜在循环模型，该模型将令牌对交互压缩为潜在状态，并提出一种改进精确召回的门控关联检索变体。该混合模型在字节级WikiText-2和分词语言基准上优于Transformer，实现了高达41.9%的关联召回率（对比25%）。

0 人收藏 0 人点赞

#transformer-alternatives

arXiv cs.LG ↗ · 2026-05-11 缓存

本文介绍了 Toeplitz MLP Mixer（TMM），这是一种新型架构，它用 Toeplitz 矩阵乘法取代注意力机制，从而在保持高信息保留率和训练效率的同时实现更低的计算复杂度。

0 人收藏 0 人点赞

#transformer-alternatives

arXiv cs.CL ↗ · 2026-04-20 缓存

本论文介绍了Olmo Hybrid，一个包含70亿参数的语言模型，结合了注意力机制和Gated DeltaNet递归层，相比纯Transformer架构展现出理论和实证优势。该工作表明混合模型具有更强的表达能力，在预训练中扩展效率更高，且性能优于可比的Transformer基线。

0 人收藏 0 人点赞