gqa

标签

Cards List
#gqa

@askalphaxiv: "MiniMax Sparse Attention" Minimax 的这篇论文向 GQA 添加了一个微小的索引分支,用于为每组选择 top k 个 KV 块……

X AI KOLs Timeline · 2026-06-13 缓存

Minimax 的这篇论文介绍了 MiniMax Sparse Attention,它向 GQA 添加了一个微小的索引分支,用于为每组选择 top-k KV 块,从而实现 GPU 原生的稀疏性,并在一个 109B 多模态 MoE 上实现了指数级的加速。

0 人收藏 0 人点赞
#gqa

@che_shr_cat: 1/ 多年来我们一直通过头部共享(GQA/MQA)来优化KV缓存,但我们忽略了一个基本假设:为什么……

X AI KOLs Timeline · 2026-06-09 缓存

这条推文挑战了关于Transformer需要独立的Q、K和V投影的基本假设,提出合并它们可以为KV缓存带来巨大的内存节省。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈