group-query-latent-attention

#group-query-latent-attention

GQLA: 面向硬件自适应大语言模型解码的分组查询潜在注意力

arXiv cs.LG ↗ · 2026-05-18 缓存

GQLA 提出了对多头潜在注意力（MLA）的极小修改，在相同训练权重上同时暴露 MQA 吸收路径和 GQA 路径，从而无需重新训练即可实现硬件自适应解码。该方法压缩 KV 缓存并支持张量并行性，通过将 LLaMA-3-8B 从 GQA 转换为 GQLA 得到验证。

0 人收藏 0 人点赞