@songhan_mit:探索我们在KV缓存压缩方面的持续努力:
摘要
来自Song Han的一条推文强调了在KV缓存压缩方面的持续工作,其中介绍了Weian Mao的一篇博客,讨论了论文中常常被忽视的系统级方面。
探索我们在KV缓存压缩方面的持续努力:
查看缓存全文
缓存时间: 2026/06/15 19:06
探索我们在 KV 缓存压缩方面的持续努力:
Weian Mao (@WeianMaoX): 🔗 我们的新博客深入探讨了论文通常忽略的 KV 缓存效率的一个方面:https://t.co/GXo228eJtf 这里的大多数工作都是关于算法的:例如,驱逐论文的重点是哪些条目值得保留。但算法只有在底层系统能够
相似文章
@yukangchen_: 我们很高兴分享一篇新的技术文章《KV缓存压缩及其基础设施问题》。https://research.nvidia.…
NVIDIA Research发布了一篇技术博客,探讨KV缓存压缩技术及其基础设施问题,包括FlashAttention和paged attention如何为长上下文LLM的生产部署带来实际障碍,并提出了一个使用RoPE的几何解决方案。
@che_shr_cat: 1/ 多年来我们一直通过头部共享(GQA/MQA)来优化KV缓存,但我们忽略了一个基本假设:为什么……
这条推文挑战了关于Transformer需要独立的Q、K和V投影的基本假设,提出合并它们可以为KV缓存带来巨大的内存节省。
CompressKV:语义检索引导的KV缓存压缩方法,用于资源高效的长上下文大语言模型推理
CompressKV针对基于GQA的大语言模型,提出了一种语义检索引导的KV缓存压缩方法,通过识别语义检索头来保留关键令牌。在LongBench任务中,仅使用3%的KV缓存即可实现超过97%的全缓存性能。
@ZeroZ_JQ: https://x.com/ZeroZ_JQ/status/2066380476970103028
文章从工程视角重新定义KV Cache,指出它不仅仅是推理优化技术,更是在Agent时代成为复用已计算结果的Runtime基础设施,帮助AI避免重复思考。
PolyKV: 异构保留与分配的KV缓存压缩
PolyKV是一种逐层的KV缓存压缩框架,为每一层分配异构的驱逐策略和非均匀的预算,在LongBench上使用LLaMA-3.1-8B和Qwen3-8B相比统一基线有显著提升。