@lmsysorg:NVIDIA 刚刚发布了来自 @Zai_org 的 GLM-5.2 的 NVFP4 检查点,这是一个用于推理和编码的 744B MoE(40B 激活)模型。Day-…

X AI KOLs Following 模型

摘要

NVIDIA 发布了 GLM-5.2 的 NVFP4 量化检查点,这是一个 744B MoE 模型(40B 激活),针对推理和编码进行了优化,并在 SGLang 中提供 Day-0 支持。

NVIDIA 刚刚发布了来自 @Zai_org 的 GLM-5.2 的 NVFP4 检查点,这是一个用于推理和编码的 744B MoE(40B 激活)模型。Day-0 支持已在 SGLang 中上线! @nvidia > 通过 NVIDIA Model Optimizer 进行 NVFP4 量化:以极低的内存成本实现前沿推理能力 > 使用 IndexShare 索引器进行稀疏注意力,实现高效长上下文处理 > 准备在 Blackwell / Grace Blackwell 上运行,立即使用 SGLang 运行!
查看原文
查看缓存全文

缓存时间: 2026/06/28 12:01

NVIDIA 刚刚发布了来自 @Zai_org 的 GLM-5.2 的 NVFP4 检查点,这是一个 744B MoE(40B 活跃参数)模型,专为推理与编程设计。首发支持已在 SGLang 中上线!@nvidia

通过 NVIDIA Model Optimizer 实现 NVFP4 量化:以极低内存消耗达到前沿推理水平
结合 IndexShare 索引器的稀疏注意力机制,实现高效长上下文处理
已准备好部署至 Blackwell / Grace Blackwell,现在即可通过 SGLang 运行!

Cookbook:

相似文章

nvidia/GLM-5.2-NVFP4

Hugging Face Models Trending

NVIDIA 发布了 GLM-5.2-NVFP4,这是 ZAI 的 GLM-5.2 MoE 语言模型的量化版本,使用 Model Optimizer 进行了优化,适用于 NVIDIA Blackwell GPU 上的推理。

zai-org/GLM-5.2-FP8

Hugging Face Models Trending

Z.AI 发布 GLM-5.2,一款旗舰级开源模型,拥有可靠的 1M token 上下文窗口,改进的编码能力,以及新的 IndexShare 稀疏注意力架构,在 1M 上下文下 FLOPs 减少了 2.9 倍。