efficient-transformer

#efficient-transformer

@rohanpaul_ai: 相当惊人，MiniMax Sparse Attention 在100万token时将注意力计算量减少28.4倍，预填充速度提升14.2倍，以及…

X AI KOLs Following ↗ · 6天前缓存

MiniMax Sparse Attention (MSA) 通过增加一个路由分支，选择性选择键值块进行注意力计算，在100万token时实现了注意力计算量最高减少28.4倍，在H800 GPU上实现了14.2倍更快的预填充和7.6倍更快的解码，同时匹配全注意力基准性能。

0 人收藏 0 人点赞