@songhan_mit：探索我们在KV缓存压缩方面的持续努力：

X AI KOLs Following 2026/06/15 17:28 工具

kv-cache compression efficiency llm optimization blog research

摘要

来自Song Han的一条推文强调了在KV缓存压缩方面的持续工作，其中介绍了Weian Mao的一篇博客，讨论了论文中常常被忽视的系统级方面。

探索我们在KV缓存压缩方面的持续努力：

查看原文

查看缓存全文

缓存时间: 2026/06/15 19:06

探索我们在 KV 缓存压缩方面的持续努力：

Weian Mao (@WeianMaoX): 🔗 我们的新博客深入探讨了论文通常忽略的 KV 缓存效率的一个方面：https://t.co/GXo228eJtf 这里的大多数工作都是关于算法的：例如，驱逐论文的重点是哪些条目值得保留。但算法只有在底层系统能够

相似文章

X AI KOLs Timeline

NVIDIA Research发布了一篇技术博客，探讨KV缓存压缩技术及其基础设施问题，包括FlashAttention和paged attention如何为长上下文LLM的生产部署带来实际障碍，并提出了一个使用RoPE的几何解决方案。

X AI KOLs Timeline

这条推文挑战了关于Transformer需要独立的Q、K和V投影的基本假设，提出合并它们可以为KV缓存带来巨大的内存节省。

arXiv cs.AI

CompressKV针对基于GQA的大语言模型，提出了一种语义检索引导的KV缓存压缩方法，通过识别语义检索头来保留关键令牌。在LongBench任务中，仅使用3%的KV缓存即可实现超过97%的全缓存性能。

X AI KOLs Timeline

文章从工程视角重新定义KV Cache，指出它不仅仅是推理优化技术，更是在Agent时代成为复用已计算结果的Runtime基础设施，帮助AI避免重复思考。

arXiv cs.LG

PolyKV是一种逐层的KV缓存压缩框架，为每一层分配异构的驱逐策略和非均匀的预算，在LongBench上使用LLaMA-3.1-8B和Qwen3-8B相比统一基线有显著提升。