@no_stp_on_snek: 始终从未压缩的k和压缩的V开始，然后更激进地进行。模型家族对k压缩的敏感性不同……

X AI KOLs Following 2026/05/23 16:40 新闻

model-compression kv-cache transformer optimization asymmetric-compression

摘要

关于Transformer模型KV缓存压缩的提示：从未压缩的键和压缩的值开始，然后根据模型家族的敏感性进行调整；先尝试非对称压缩，再尝试对称压缩。

始终从未压缩的k和压缩的V开始，然后更激进地进行。模型家族尤其对K压缩的敏感性不同。先进行非对称压缩，再进行对称压缩。

查看原文

查看缓存全文

缓存时间: 2026/05/23 18:11

始终从未压缩的 K 和压缩的 V 开始，并在此基础上更激进地推进。模型家族对 K 压缩尤为敏感。不对称压缩优先于对称压缩。

相似文章

Hacker News Top

一篇新论文提出了一种基于概率语言Trie树和预测差分编码的顺序KV缓存压缩方法。该方法通过利用语言模型Token的序列结构而非对向量进行独立处理，实现了超越TurboQuant约91.4万倍的理论压缩比。

X AI KOLs Timeline

DeepSeek的KV缓存压缩创新，包括MLA和CSA/HCA，将KV缓存大小减少了93%，实现了高效的长上下文推理和基于SSD的缓存，正如antirez的ds4.c项目所展示的那样。

X AI KOLs Timeline

这条推文挑战了关于Transformer需要独立的Q、K和V投影的基本假设，提出合并它们可以为KV缓存带来巨大的内存节省。

arXiv cs.LG

本文提出，Transformer中的KV缓存充当了记忆化结论的笔记本，使得无需完全重计算即可进行精确编辑和组合。该方法在保持跨模型规模决策等价性的同时，实现了显著的延迟降低。

Reddit r/ArtificialInteligence

探讨了Transformer推理中KV缓存日益增长的内存瓶颈，解释了为何像Mamba和RWKV这样的固定大小内存的替代架构重新获得关注。