在sm120上使用NVFP4 KV缓存量化将使32GB VRAM系统变得非常强大
摘要
在sm120上使用NVFP4 KV缓存量化显著提高了大语言模型的内存效率,使32GB VRAM系统在196k上下文大小下使用Qwen3.6-27B实现约60 tok/秒的推理速度。
我在我的32GB VRAM(2 x 5060)上从Qwen3.6-27B获得的最佳结果是大约60 tok/秒的生成速度,上下文大小为196608。(sakamakismile text nvfp4)。Fp8 KV量化。NVFP4 KV缓存量化来得不够快。让我想起有一次,我在我的第一台电脑上无法玩一个游戏,因为它至少需要640KB的内存。
相似文章
量化MTP KV缓存 = 免费午餐?
在llama.cpp中将Qwen模型的多令牌预测(MTP)KV缓存量化为q8_0,可以减少VRAM使用,同时不影响推理速度或接受率,实际上为内存受限的配置提供了'免费午餐'。
KVarN:华为推出的原生 vLLM KV 缓存量化后端
华为 CSL 发布 KVarN,这是一个原生 vLLM 注意力后端,专为 KV 缓存量化设计。它无需校准即可实现 3-5 倍的 KV 缓存容量提升,以及高达约 1.3 倍于 FP16 的吞吐量。在 Qwen3-32B 等模型上,其吞吐量最高可达 TurboQuant 的约 2.4 倍,同时保持与 FP16 相当的精度。
高显存本地编码模型——依然首选 Qwen 3.6 27B 吗?
用户分享了使用 Qwen 3.6 27B 进行本地编码任务的经验,并寻求适合拥有 224GB 显存系统的更大模型(100B 以上)的推荐。
@witcheer:大家都说NVFP4让黑伟德显卡“更快”。我在我的5090上对Qwen3.6-27B进行了三种方式的基准测试:>NVFP4 >普通Q4_K…
在RTX 5090上对Qwen3.6-27B进行的NVFP4基准测试显示,与同等比特的Q4_K_M相比,预填速度提升32-42%,与Q6_K相比提升52-68%,但解码速度提升有限(相比Q4提升+9%),因为解码受内存带宽限制。与Q6相比,质量损失极小(平均-0.8),使得NVFP4成为本地推理的不错选择。
7900XTX 24GB 显存,终于能够在 131k 上下文下容纳 Q6K+MTP 和 Qwen 3.6 27B
在 AMD 7900XTX 上优化显存使用的指南,通过编译带有 OpenBLAS 和 CUDA_FA_ALL_QUANTS 的 llama.cpp,并使用 q5_0/q4_0 的 KVCache 量化,以运行使用 Q6K 量化和 131k 上下文的 27B Qwen 模型。