hardware-adaptive

标签

Cards List
#hardware-adaptive

GQLA: 面向硬件自适应大语言模型解码的分组查询潜在注意力

arXiv cs.LG · 2026-05-18 缓存

GQLA 提出了对多头潜在注意力(MLA)的极小修改,在相同训练权重上同时暴露 MQA 吸收路径和 GQA 路径,从而无需重新训练即可实现硬件自适应解码。该方法压缩 KV 缓存并支持张量并行性,通过将 LLaMA-3-8B 从 GQA 转换为 GQLA 得到验证。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈