transformer-alternatives

标签

Cards List
#transformer-alternatives

基于门控关联检索的通用三重潜在压缩

arXiv cs.CL · 4天前 缓存

本文介绍了通用三重潜在循环模型,该模型将令牌对交互压缩为潜在状态,并提出一种改进精确召回的门控关联检索变体。该混合模型在字节级WikiText-2和分词语言基准上优于Transformer,实现了高达41.9%的关联召回率(对比25%)。

0 人收藏 0 人点赞
#transformer-alternatives

Toeplitz MLP Mixer 是低复杂度、信息丰富的序列模型

arXiv cs.LG · 2026-05-11 缓存

本文介绍了 Toeplitz MLP Mixer(TMM),这是一种新型架构,它用 Toeplitz 矩阵乘法取代注意力机制,从而在保持高信息保留率和训练效率的同时实现更低的计算复杂度。

0 人收藏 0 人点赞
#transformer-alternatives

Olmo Hybrid:从理论到实践再回到理论

arXiv cs.CL · 2026-04-20 缓存

本论文介绍了Olmo Hybrid,一个包含70亿参数的语言模型,结合了注意力机制和Gated DeltaNet递归层,相比纯Transformer架构展现出理论和实证优势。该工作表明混合模型具有更强的表达能力,在预训练中扩展效率更高,且性能优于可比的Transformer基线。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈