key-value-cache

#key-value-cache

我仍然惊讶于 KV 量化变得多么出色

Reddit r/LocalLLaMA ↗ · 3天前

作者对键值缓存量化（q4_0）即使在长上下文窗口下依然有效感到惊讶，并引用了从 10 万上下文中准确检索的结果。

0 人收藏 0 人点赞

#key-value-cache

X AI KOLs Timeline ↗ · 4天前缓存

介绍了KV-Compression Aware Training (KV-CAT) 方法，该方法鼓励Transformer在训练过程中学习可压缩的键值缓存，在不牺牲性能的情况下提高长上下文任务的记忆效率。

0 人收藏 0 人点赞

#key-value-cache

arXiv cs.LG ↗ · 2026-05-15 缓存

提出了自剪枝键值注意力（SP-KV），一种通过学习预测键值对未来效用的机制，动态剪枝KV缓存，将内存使用和解码速度提升3-10倍，且性能下降极小。模型和效用预测器通过下一词元预测进行端到端联合训练。

0 人收藏 0 人点赞