标签
本文介绍了 RateQuant,一种用于优化混合精度 KV Cache 量化的方法。该方法利用率失真理论解决失真模型不匹配问题,与 KIVI 和 QuaRot 等现有方法相比,在极低的校准开销下显著降低了困惑度。
Reddit 帖子对比了 Qwen3.6-27B 的多种量化版本(INT4、NVFP4、BF16-INT4),展示不同场景下内存占用与精度的权衡。