@no_stp_on_snek: 始终从未压缩的k和压缩的V开始,然后更激进地进行。模型家族对k压缩的敏感性不同……
摘要
关于Transformer模型KV缓存压缩的提示:从未压缩的键和压缩的值开始,然后根据模型家族的敏感性进行调整;先尝试非对称压缩,再尝试对称压缩。
始终从未压缩的k和压缩的V开始,然后更激进地进行。
模型家族尤其对K压缩的敏感性不同。
先进行非对称压缩,再进行对称压缩。
查看缓存全文
缓存时间: 2026/05/23 18:11
始终从未压缩的 K 和压缩的 V 开始,并在此基础上更激进地推进。模型家族对 K 压缩尤为敏感。不对称压缩优先于对称压缩。
相似文章
KV缓存压缩比TurboQuant与逐向量香农极限高出900000倍
一篇新论文提出了一种基于概率语言Trie树和预测差分编码的顺序KV缓存压缩方法。该方法通过利用语言模型Token的序列结构而非对向量进行独立处理,实现了超越TurboQuant约91.4万倍的理论压缩比。
@Michaelzsguo: KV缓存是模型在生成期间的工作记忆。随着上下文窗口变长,模型必须保留更多…
DeepSeek的KV缓存压缩创新,包括MLA和CSA/HCA,将KV缓存大小减少了93%,实现了高效的长上下文推理和基于SSD的缓存,正如antirez的ds4.c项目所展示的那样。
@che_shr_cat: 1/ 多年来我们一直通过头部共享(GQA/MQA)来优化KV缓存,但我们忽略了一个基本假设:为什么……
这条推文挑战了关于Transformer需要独立的Q、K和V投影的基本假设,提出合并它们可以为KV缓存带来巨大的内存节省。
模型在预填充阶段做笔记:KV缓存可编辑且可组合
本文提出,Transformer中的KV缓存充当了记忆化结论的笔记本,使得无需完全重计算即可进行精确编辑和组合。该方法在保持跨模型规模决策等价性的同时,实现了显著的延迟降低。
KV缓存墙:为何固定大小内存的序列模型不断回归
探讨了Transformer推理中KV缓存日益增长的内存瓶颈,解释了为何像Mamba和RWKV这样的固定大小内存的替代架构重新获得关注。