gqa

#gqa

@askalphaxiv: "MiniMax Sparse Attention" Minimax 的这篇论文向 GQA 添加了一个微小的索引分支，用于为每组选择 top k 个 KV 块……

X AI KOLs Timeline ↗ · 2026-06-13 缓存

Minimax 的这篇论文介绍了 MiniMax Sparse Attention，它向 GQA 添加了一个微小的索引分支，用于为每组选择 top-k KV 块，从而实现 GPU 原生的稀疏性，并在一个 109B 多模态 MoE 上实现了指数级的加速。

0 人收藏 0 人点赞

#gqa

X AI KOLs Timeline ↗ · 2026-06-09 缓存

这条推文挑战了关于Transformer需要独立的Q、K和V投影的基本假设，提出合并它们可以为KV缓存带来巨大的内存节省。

0 人收藏 0 人点赞