llm-decoding

#llm-decoding

ART：高效大语言模型解码中的注意力运行时终止

arXiv cs.CL ↗ · 5天前缓存

本文提出ART，一种轻量级的运行时机制，它在LLM解码过程中追踪累积的注意力输出，并在进一步贡献变得微不足道时终止不必要的KV块访问，从而在保持相当精度的同时实现20%更高的生成吞吐量。

0 人收藏 0 人点赞

#llm-decoding

arXiv cs.LG ↗ · 2026-05-18 缓存

GQLA 提出了对多头潜在注意力（MLA）的极小修改，在相同训练权重上同时暴露 MQA 吸收路径和 GQA 路径，从而无需重新训练即可实现硬件自适应解码。该方法压缩 KV 缓存并支持张量并行性，通过将 LLaMA-3-8B 从 GQA 转换为 GQLA 得到验证。

0 人收藏 0 人点赞