@zcbenz: nvfp4与mxfp4不仅仅是块大小和缩放格式的不同选择,nvfp4还使用了额外的张量级缩放因子…
摘要
对nvfp4和mxfp4格式的技术比较,强调nvfp4使用额外的张量级缩放因子来克服fp4的范围限制,从而可以在块级缩放因子上获得更高的精度。
nvfp4与mxfp4不仅仅是块大小和缩放格式的不同选择,nvfp4还使用额外的张量级缩放因子来克服fp4的范围限制,从而可以在块级缩放因子上使用更高的精度。https://t.co/9d1hvNBWhO
查看缓存全文
缓存时间: 2026/06/17 16:02
nvfp4与mxfp4的区别不仅在于块大小和缩放格式的选择,nvfp4还使用了额外的张量级缩放因子来克服fp4的范围限制,从而可以为块级缩放因子使用更高的精度。https://t.co/9d1hvNBWhO
相似文章
NVFP4 + MTP - 现已登陆 llama.cpp
NVFP4 量化和 Multi-Token Prediction 支持已添加到 llama.cpp 的 b9297 版本中。
在sm120上使用NVFP4 KV缓存量化将使32GB VRAM系统变得非常强大
在sm120上使用NVFP4 KV缓存量化显著提高了大语言模型的内存效率,使32GB VRAM系统在196k上下文大小下使用Qwen3.6-27B实现约60 tok/秒的推理速度。
@charles_irl: 低精度浮点数很奇怪。我一直在推理/训练之外使用它们来建立直觉…
一条推文介绍了微缩放/块量化格式(如NVFP4和MXFP4)的可视化工具,解释了这些低精度浮点数的工作原理以及它们在LLM推理中减少内存带宽需求的应用。
@SpaceTimeViking: 我有一个版本保持BF16注意力层,另一个混合精度量化使用NVFP4权重和FP8 At…
对Google的Gemma-4-12B-it模型进行混合精度量化,使用NVFP4用于MLP权重,FP8用于注意力层,实现了25%更小的存储占用和更快的吞吐量,同时保持质量。
@witcheer:大家都说NVFP4让黑伟德显卡“更快”。我在我的5090上对Qwen3.6-27B进行了三种方式的基准测试:>NVFP4 >普通Q4_K…
在RTX 5090上对Qwen3.6-27B进行的NVFP4基准测试显示,与同等比特的Q4_K_M相比,预填速度提升32-42%,与Q6_K相比提升52-68%,但解码速度提升有限(相比Q4提升+9%),因为解码受内存带宽限制。与Q6相比,质量损失极小(平均-0.8),使得NVFP4成为本地推理的不错选择。