llm-decoding

标签

Cards List
#llm-decoding

ART:高效大语言模型解码中的注意力运行时终止

arXiv cs.CL · 5天前 缓存

本文提出ART,一种轻量级的运行时机制,它在LLM解码过程中追踪累积的注意力输出,并在进一步贡献变得微不足道时终止不必要的KV块访问,从而在保持相当精度的同时实现20%更高的生成吞吐量。

0 人收藏 0 人点赞
#llm-decoding

GQLA: 面向硬件自适应大语言模型解码的分组查询潜在注意力

arXiv cs.LG · 2026-05-18 缓存

GQLA 提出了对多头潜在注意力(MLA)的极小修改,在相同训练权重上同时暴露 MQA 吸收路径和 GQA 路径,从而无需重新训练即可实现硬件自适应解码。该方法压缩 KV 缓存并支持张量并行性,通过将 LLaMA-3-8B 从 GQA 转换为 GQLA 得到验证。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈