@zcbenz: nvfp4与mxfp4不仅仅是块大小和缩放格式的不同选择，nvfp4还使用了额外的张量级缩放因子…

X AI KOLs Timeline 2026/06/17 07:17 新闻

nvfp4 mxfp4 float-precision tensor-wise-scale hardware-format

摘要

对nvfp4和mxfp4格式的技术比较，强调nvfp4使用额外的张量级缩放因子来克服fp4的范围限制，从而可以在块级缩放因子上获得更高的精度。

nvfp4与mxfp4不仅仅是块大小和缩放格式的不同选择，nvfp4还使用额外的张量级缩放因子来克服fp4的范围限制，从而可以在块级缩放因子上使用更高的精度。https://t.co/9d1hvNBWhO

查看原文

查看缓存全文

缓存时间: 2026/06/17 16:02

nvfp4与mxfp4的区别不仅在于块大小和缩放格式的选择，nvfp4还使用了额外的张量级缩放因子来克服fp4的范围限制，从而可以为块级缩放因子使用更高的精度。https://t.co/9d1hvNBWhO

相似文章

NVFP4 + MTP - 现已登陆 llama.cpp

Reddit r/LocalLLaMA

NVFP4 量化和 Multi-Token Prediction 支持已添加到 llama.cpp 的 b9297 版本中。

在sm120上使用NVFP4 KV缓存量化将使32GB VRAM系统变得非常强大

Reddit r/LocalLLaMA

在sm120上使用NVFP4 KV缓存量化显著提高了大语言模型的内存效率，使32GB VRAM系统在196k上下文大小下使用Qwen3.6-27B实现约60 tok/秒的推理速度。

@charles_irl: 低精度浮点数很奇怪。我一直在推理/训练之外使用它们来建立直觉…

X AI KOLs Following

一条推文介绍了微缩放/块量化格式（如NVFP4和MXFP4）的可视化工具，解释了这些低精度浮点数的工作原理以及它们在LLM推理中减少内存带宽需求的应用。

@SpaceTimeViking: 我有一个版本保持BF16注意力层，另一个混合精度量化使用NVFP4权重和FP8 At…

X AI KOLs Following

对Google的Gemma-4-12B-it模型进行混合精度量化，使用NVFP4用于MLP权重，FP8用于注意力层，实现了25%更小的存储占用和更快的吞吐量，同时保持质量。

@witcheer：大家都说NVFP4让黑伟德显卡“更快”。我在我的5090上对Qwen3.6-27B进行了三种方式的基准测试：>NVFP4 >普通Q4_K…

X AI KOLs Timeline

在RTX 5090上对Qwen3.6-27B进行的NVFP4基准测试显示，与同等比特的Q4_K_M相比，预填速度提升32-42%，与Q6_K相比提升52-68%，但解码速度提升有限（相比Q4提升+9%），因为解码受内存带宽限制。与Q6相比，质量损失极小（平均-0.8），使得NVFP4成为本地推理的不错选择。

提交意见反馈