@RayFernando1337: “所选运行时使用NVFP4权重以获得最大性能。从原始FP8权重，我们进行了内部量…

X AI KOLs Following 2026/06/23 01:28 工具

quantization fp4 nvidia model-optimization runtime performance

摘要

讨论使用NVFP4 4位浮点权重以获得最大性能，通过使用NVIDIA ModelOpt从FP8进行内部量化实现，突出了该数据格式的双缩放因子以保持高动态范围。

“所选运行时使用NVFP4权重以获得最大性能。从原始FP8权重，我们使用NVIDIA ModelOpt进行了内部量化到NVFP4。NVFP4是NVIDIA的一种4位浮点数据格式，使用双缩放因子来保持高动态范围并保留模型质量。”

查看原文

相似文章

X AI KOLs Following

对Google的Gemma-4-12B-it模型进行混合精度量化，使用NVFP4用于MLP权重，FP8用于注意力层，实现了25%更小的存储占用和更快的吞吐量，同时保持质量。

X AI KOLs Timeline

对nvfp4和mxfp4格式的技术比较，强调nvfp4使用额外的张量级缩放因子来克服fp4的范围限制，从而可以在块级缩放因子上获得更高的精度。

X AI KOLs Following

一条推文介绍了微缩放/块量化格式（如NVFP4和MXFP4）的可视化工具，解释了这些低精度浮点数的工作原理以及它们在LLM推理中减少内存带宽需求的应用。

X AI KOLs Timeline

推荐使用NVIDIA的nvfp4量化版Qwen 3.6 35B，而非Unsloth版本，其性能更优。该模型可在HuggingFace上获取，用于AI应用。

X AI KOLs Following

0xSero 发布了腾讯 Hy3-preview 模型的 FP8 和 NVFP4 量化版本，使其能够在使用完整上下文的情况下在 256GB 显存的设备上运行。