标签
0xSero 发布了腾讯 Hy3-preview 模型的 FP8 和 NVFP4 量化版本,使其能够在使用完整上下文的情况下在 256GB 显存的设备上运行。
Reddit 帖子对比了 Qwen3.6-27B 的多种量化版本(INT4、NVFP4、BF16-INT4),展示不同场景下内存占用与精度的权衡。
一份 478B 参数的量化 GLM-5.1 模型在 4 块 RTX Pro 6000 上用 SGLang 运行,支持 37 万 token 上下文,解码最高 45 tok/s,预填充 1340 tok/s,并现场演示操控 Figma。
开发者 @0xSero 在优化版 GLM-5.1-505B 上通过 NVFP4 量化与 32% 剪枝实现高吞吐推理,解码速度 45 tokens/s,预填充速度 1350 tokens/s。