nvfp4

#nvfp4

@0xSero: 刚刚添加了两种新的模型压缩版本：Hy3-FP8 和 NVFP4。我推荐尝试这个模型，它非常强大且可以完整地在 256GB 显存上运行……

X AI KOLs Following ↗ · 10小时前缓存

0xSero 发布了腾讯 Hy3-preview 模型的 FP8 和 NVFP4 量化版本，使其能够在使用完整上下文的情况下在 256GB 显存的设备上运行。

0 人收藏 0 人点赞

#nvfp4

Reddit r/LocalLLaMA ↗ · 2026-04-22

Reddit 帖子对比了 Qwen3.6-27B 的多种量化版本（INT4、NVFP4、BF16-INT4），展示不同场景下内存占用与精度的权衡。

0 人收藏 0 人点赞

#nvfp4

X AI KOLs Timeline ↗ · 2026-04-21 缓存

一份 478B 参数的量化 GLM-5.1 模型在 4 块 RTX Pro 6000 上用 SGLang 运行，支持 37 万 token 上下文，解码最高 45 tok/s，预填充 1340 tok/s，并现场演示操控 Figma。

0 人收藏 0 人点赞

#nvfp4

X AI KOLs Timeline ↗ · 2026-04-20 缓存

开发者 @0xSero 在优化版 GLM-5.1-505B 上通过 NVFP4 量化与 32% 剪枝实现高吞吐推理，解码速度 45 tokens/s，预填充速度 1350 tokens/s。

0 人收藏 0 人点赞