@lmsysorg:NVIDIA 刚刚发布了来自 @Zai_org 的 GLM-5.2 的 NVFP4 检查点,这是一个用于推理和编码的 744B MoE(40B 激活)模型。Day-…
摘要
NVIDIA 发布了 GLM-5.2 的 NVFP4 量化检查点,这是一个 744B MoE 模型(40B 激活),针对推理和编码进行了优化,并在 SGLang 中提供 Day-0 支持。
查看缓存全文
缓存时间: 2026/06/28 12:01
NVIDIA 刚刚发布了来自 @Zai_org 的 GLM-5.2 的 NVFP4 检查点,这是一个 744B MoE(40B 活跃参数)模型,专为推理与编程设计。首发支持已在 SGLang 中上线!@nvidia
通过 NVIDIA Model Optimizer 实现 NVFP4 量化:以极低内存消耗达到前沿推理水平
结合 IndexShare 索引器的稀疏注意力机制,实现高效长上下文处理
已准备好部署至 Blackwell / Grace Blackwell,现在即可通过 SGLang 运行!
Cookbook:
相似文章
nvidia/GLM-5.2-NVFP4
NVIDIA 发布了 GLM-5.2-NVFP4,这是 ZAI 的 GLM-5.2 MoE 语言模型的量化版本,使用 Model Optimizer 进行了优化,适用于 NVIDIA Blackwell GPU 上的推理。
@mr_r0b0t:官方 @NVIDIAAI GLM5.1-NVFP4 在 @huggingface 上被发现
NVIDIA 发布了 GLM-5.1-NVFP4,这是 ZAI 的 GLM-5.1 模型的量化版本,总参数 754B(激活参数 40B),在 Hugging Face 上以 MIT 许可证提供。
@HuggingPapers: NVIDIA 刚刚在 Hugging Face 上发布了优化版的 GLM-5.2,这是一个拥有 753B 参数和 1M 上下文的 MoE 模型,针对 Blackwell GPU 量化至 NVFP4……
NVIDIA 在 Hugging Face 上发布了优化版 GLM-5.2 MoE 模型,拥有 753B 参数和 1M 上下文,针对 Blackwell GPU 量化至 NVFP4,精度几乎与 FP8 持平。
zai-org/GLM-5.2-FP8
Z.AI 发布 GLM-5.2,一款旗舰级开源模型,拥有可靠的 1M token 上下文窗口,改进的编码能力,以及新的 IndexShare 稀疏注意力架构,在 1M 上下文下 FLOPs 减少了 2.9 倍。
@0xSero:GLM-5.1-478B-NVFP4 跑在:4×RTX Pro 6000、SGLang,最大 37 万 token(1.75× 满上下文),p10 27.7 | p90 45…
一份 478B 参数的量化 GLM-5.1 模型在 4 块 RTX Pro 6000 上用 SGLang 运行,支持 37 万 token 上下文,解码最高 45 tok/s,预填充 1340 tok/s,并现场演示操控 Figma。