@RayFernando1337: “所选运行时使用NVFP4权重以获得最大性能。从原始FP8权重,我们进行了内部量…
摘要
讨论使用NVFP4 4位浮点权重以获得最大性能,通过使用NVIDIA ModelOpt从FP8进行内部量化实现,突出了该数据格式的双缩放因子以保持高动态范围。
“所选运行时使用NVFP4权重以获得最大性能。从原始FP8权重,我们使用NVIDIA ModelOpt进行了内部量化到NVFP4。NVFP4是NVIDIA的一种4位浮点数据格式,使用双缩放因子来保持高动态范围并保留模型质量。”
相似文章
@SpaceTimeViking: 我有一个版本保持BF16注意力层,另一个混合精度量化使用NVFP4权重和FP8 At…
对Google的Gemma-4-12B-it模型进行混合精度量化,使用NVFP4用于MLP权重,FP8用于注意力层,实现了25%更小的存储占用和更快的吞吐量,同时保持质量。
@zcbenz: nvfp4与mxfp4不仅仅是块大小和缩放格式的不同选择,nvfp4还使用了额外的张量级缩放因子…
对nvfp4和mxfp4格式的技术比较,强调nvfp4使用额外的张量级缩放因子来克服fp4的范围限制,从而可以在块级缩放因子上获得更高的精度。
@charles_irl: 低精度浮点数很奇怪。我一直在推理/训练之外使用它们来建立直觉…
一条推文介绍了微缩放/块量化格式(如NVFP4和MXFP4)的可视化工具,解释了这些低精度浮点数的工作原理以及它们在LLM推理中减少内存带宽需求的应用。
@MiaAI_lab: 仅供参考,运行的最佳Qwen 3.6 35b nvfp4是@NVIDIAAI的nvfp4。不要使用unsloth nvfp4,其性能较差。https://hug…
推荐使用NVIDIA的nvfp4量化版Qwen 3.6 35B,而非Unsloth版本,其性能更优。该模型可在HuggingFace上获取,用于AI应用。
@0xSero: 刚刚添加了两种新的模型压缩版本:Hy3-FP8 和 NVFP4。我推荐尝试这个模型,它非常强大且可以完整地在 256GB 显存上运行……
0xSero 发布了腾讯 Hy3-preview 模型的 FP8 和 NVFP4 量化版本,使其能够在使用完整上下文的情况下在 256GB 显存的设备上运行。