@no_stp_on_snek: 始终从未压缩的k和压缩的V开始,然后更激进地进行。模型家族对k压缩的敏感性不同……

X AI KOLs Following 新闻

摘要

关于Transformer模型KV缓存压缩的提示:从未压缩的键和压缩的值开始,然后根据模型家族的敏感性进行调整;先尝试非对称压缩,再尝试对称压缩。

始终从未压缩的k和压缩的V开始,然后更激进地进行。 模型家族尤其对K压缩的敏感性不同。 先进行非对称压缩,再进行对称压缩。
查看原文
查看缓存全文

缓存时间: 2026/05/23 18:11

始终从未压缩的 K 和压缩的 V 开始,并在此基础上更激进地推进。模型家族对 K 压缩尤为敏感。不对称压缩优先于对称压缩。

相似文章

KV缓存压缩比TurboQuant与逐向量香农极限高出900000倍

Hacker News Top

一篇新论文提出了一种基于概率语言Trie树和预测差分编码的顺序KV缓存压缩方法。该方法通过利用语言模型Token的序列结构而非对向量进行独立处理,实现了超越TurboQuant约91.4万倍的理论压缩比。