标签
NVIDIA 发布了 GLM-5.1-NVFP4,这是 ZAI 的 GLM-5.1 模型的量化版本,总参数 754B(激活参数 40B),在 Hugging Face 上以 MIT 许可证提供。
开发者 @0xSero 在优化版 GLM-5.1-505B 上通过 NVFP4 量化与 32% 剪枝实现高吞吐推理,解码速度 45 tokens/s,预填充速度 1350 tokens/s。