在sm120上使用NVFP4 KV缓存量化将使32GB VRAM系统变得非常强大

Reddit r/LocalLLaMA 2026/06/18 12:51 工具

nvfp4 kv-cache quantization memory-optimization qwen inference vram

摘要

在sm120上使用NVFP4 KV缓存量化显著提高了大语言模型的内存效率，使32GB VRAM系统在196k上下文大小下使用Qwen3.6-27B实现约60 tok/秒的推理速度。

我在我的32GB VRAM（2 x 5060）上从Qwen3.6-27B获得的最佳结果是大约60 tok/秒的生成速度，上下文大小为196608。（sakamakismile text nvfp4）。Fp8 KV量化。NVFP4 KV缓存量化来得不够快。让我想起有一次，我在我的第一台电脑上无法玩一个游戏，因为它至少需要640KB的内存。

查看原文

相似文章

量化MTP KV缓存 = 免费午餐？

Reddit r/LocalLLaMA

在llama.cpp中将Qwen模型的多令牌预测（MTP）KV缓存量化为q8_0，可以减少VRAM使用，同时不影响推理速度或接受率，实际上为内存受限的配置提供了'免费午餐'。

KVarN：华为推出的原生 vLLM KV 缓存量化后端

Hacker News Top

华为 CSL 发布 KVarN，这是一个原生 vLLM 注意力后端，专为 KV 缓存量化设计。它无需校准即可实现 3-5 倍的 KV 缓存容量提升，以及高达约 1.3 倍于 FP16 的吞吐量。在 Qwen3-32B 等模型上，其吞吐量最高可达 TurboQuant 的约 2.4 倍，同时保持与 FP16 相当的精度。

高显存本地编码模型——依然首选 Qwen 3.6 27B 吗？

Reddit r/LocalLLaMA

用户分享了使用 Qwen 3.6 27B 进行本地编码任务的经验，并寻求适合拥有 224GB 显存系统的更大模型（100B 以上）的推荐。

@witcheer：大家都说NVFP4让黑伟德显卡“更快”。我在我的5090上对Qwen3.6-27B进行了三种方式的基准测试：>NVFP4 >普通Q4_K…

X AI KOLs Timeline

在RTX 5090上对Qwen3.6-27B进行的NVFP4基准测试显示，与同等比特的Q4_K_M相比，预填速度提升32-42%，与Q6_K相比提升52-68%，但解码速度提升有限（相比Q4提升+9%），因为解码受内存带宽限制。与Q6相比，质量损失极小（平均-0.8），使得NVFP4成为本地推理的不错选择。

7900XTX 24GB 显存，终于能够在 131k 上下文下容纳 Q6K+MTP 和 Qwen 3.6 27B

Reddit r/LocalLLaMA

在 AMD 7900XTX 上优化显存使用的指南，通过编译带有 OpenBLAS 和 CUDA_FA_ALL_QUANTS 的 llama.cpp，并使用 q5_0/q4_0 的 KVCache 量化，以运行使用 Q6K 量化和 131k 上下文的 27B Qwen 模型。

相似文章

量化MTP KV缓存 = 免费午餐？

KVarN：华为推出的原生 vLLM KV 缓存量化后端

高显存本地编码模型——依然首选 Qwen 3.6 27B 吗？

@witcheer：大家都说NVFP4让黑伟德显卡“更快”。我在我的5090上对Qwen3.6-27B进行了三种方式的基准测试：>NVFP4 >普通Q4_K…

7900XTX 24GB 显存，终于能够在 131k 上下文下容纳 Q6K+MTP 和 Qwen 3.6 27B

提交意见反馈