@lmsysorg：NVIDIA 刚刚发布了来自 @Zai_org 的 GLM-5.2 的 NVFP4 检查点，这是一个用于推理和编码的 744B MoE（40B 激活）模型。Day-…

X AI KOLs Following 2026/06/26 07:53 模型

nvidia glm-5-2 nvfp4 quantization moe reasoning coding

摘要

NVIDIA 发布了 GLM-5.2 的 NVFP4 量化检查点，这是一个 744B MoE 模型（40B 激活），针对推理和编码进行了优化，并在 SGLang 中提供 Day-0 支持。

NVIDIA 刚刚发布了来自 @Zai_org 的 GLM-5.2 的 NVFP4 检查点，这是一个用于推理和编码的 744B MoE（40B 激活）模型。Day-0 支持已在 SGLang 中上线！ @nvidia > 通过 NVIDIA Model Optimizer 进行 NVFP4 量化：以极低的内存成本实现前沿推理能力 > 使用 IndexShare 索引器进行稀疏注意力，实现高效长上下文处理 > 准备在 Blackwell / Grace Blackwell 上运行，立即使用 SGLang 运行！

查看原文

查看缓存全文

缓存时间: 2026/06/28 12:01

NVIDIA 刚刚发布了来自 @Zai_org 的 GLM-5.2 的 NVFP4 检查点，这是一个 744B MoE（40B 活跃参数）模型，专为推理与编程设计。首发支持已在 SGLang 中上线！@nvidia

通过 NVIDIA Model Optimizer 实现 NVFP4 量化：以极低内存消耗达到前沿推理水平
结合 IndexShare 索引器的稀疏注意力机制，实现高效长上下文处理
已准备好部署至 Blackwell / Grace Blackwell，现在即可通过 SGLang 运行！

Cookbook：

@lmsysorg：NVIDIA 刚刚发布了来自 @Zai_org 的 GLM-5.2 的 NVFP4 检查点，这是一个用于推理和编码的 744B MoE（40B 激活）模型。Day-…

相似文章

nvidia/GLM-5.2-NVFP4

@mr_r0b0t：官方 @NVIDIAAI GLM5.1-NVFP4 在 @huggingface 上被发现

@HuggingPapers: NVIDIA 刚刚在 Hugging Face 上发布了优化版的 GLM-5.2，这是一个拥有 753B 参数和 1M 上下文的 MoE 模型，针对 Blackwell GPU 量化至 NVFP4……

zai-org/GLM-5.2-FP8

@0xSero：GLM-5.1-478B-NVFP4 跑在：4×RTX Pro 6000、SGLang，最大 37 万 token（1.75× 满上下文），p10 27.7 | p90 45…

提交意见反馈