nvidia/GLM-5.2-NVFP4
摘要
NVIDIA 发布了 GLM-5.2-NVFP4,这是 ZAI 的 GLM-5.2 MoE 语言模型的量化版本,使用 Model Optimizer 进行了优化,适用于 NVIDIA Blackwell GPU 上的推理。
查看缓存全文
缓存时间: 2026/06/26 23:15
nvidia/GLM-5.2-NVFP4 · Hugging Face
来源:https://huggingface.co/nvidia/GLM-5.2-NVFP4
模型概述
描述
NVIDIA GLM-5.2 NVFP4 模型是 ZAI 的 GLM-5.2 模型的量化版本,后者是一种采用优化Transformer架构的自回归语言模型。GLM-5.2 是一款面向推理和编程的混合专家(MoE)模型,使用稀疏注意力(通过 IndexShare 索引器)支持长上下文。更多信息,请参阅此处(https://huggingface.co/zai-org/GLM-5.2)。NVIDIA GLM-5.2 NVFP4 模型通过 Model Optimizer(https://github.com/NVIDIA/Model-Optimizer)进行量化。
该模型可用于商业或非商业用途。
许可/使用条款
管辖条款: 模型的使用受 MIT 许可证(https://huggingface.co/datasets/choosealicense/licenses/blob/main/markdown/mit.md)管辖,与基础模型相同。
部署地域
全球
应用场景
面向希望直接使用预量化模型部署 AI 智能体系统、聊天机器人、RAG 系统及其他 AI 驱动应用的开发者。
发布日期
Hugging Face 2026年6月25日,通过 https://huggingface.co/nvidia/GLM-5.2-NVFP4
参考文献
Nvidia Model Optimizer:https://github.com/NVIDIA/Model-Optimizer
模型架构
架构类型: Transformers 网络架构: GLM-5.2(GlmMoeDsaForCausalLM)模型参数总数: 753B,激活参数 40B
输入
输入类型: 文本 输入格式: 字符串 输入参数: 一维(1D)其他输入相关属性: 上下文长度可达 1M
输出
输出类型: 文本 输出格式: 字符串 输出参数: 一维(1D):序列 其他输出相关属性: 无
我们的 AI 模型设计/优化用于在 NVIDIA GPU 加速系统上运行。通过利用 NVIDIA 硬件(例如 GPU 核心)和软件框架(例如 CUDA 库),该模型相比仅 CPU 方案实现了更快的训练和推理时间。
软件集成
支持的运行时引擎:
- SGLang
- vLLM
支持的硬件微架构兼容性:
- NVIDIA Blackwell
首选操作系统:
- Linux
将基础模型和微调模型集成到 AI 系统中需要额外的、基于特定用例数据的测试,以确保安全有效部署。遵循 V 模型方法论,在单元和系统层面进行迭代测试和验证,对于降低风险、满足技术和功能需求、确保部署前符合安全和伦理标准至关重要。
模型版本
模型版本为 NVFP4 1.0,使用 nvidia-modelopt v0.46.0 量化。
训练、测试和评估数据集
我们使用如下数据集对模型进行校准,并使用评估数据集下所列基准进行评估。本次 Model Optimizer 发布未进行训练或测试。以下训练和测试数据集方法代表第三方用于训练和测试基础模型的数据收集和标注方法。
训练数据集
数据模态: 未公开 数据集数据收集方法: 未公开 数据集标注方法: 未公开 属性: 未公开
测试数据集
数据集数据收集方法: 未公开 数据集标注方法: 未公开 属性: 未公开
评估数据集
数据集: GPQA Diamond、SciCode、IFBench、AA-LCR、τ2-Bench Telecom 数据集数据收集方法: 混合:自动化、人工 数据集标注方法: 混合:人工、自动化 属性: 我们在基于文本的推理、编程、长上下文召回和智能体工具使用基准上评估了模型:GPQA Diamond 包含 448 个由生物、物理和化学领域专家编写的研究生水平选择题;SciCode 评估科学编程能力;IFBench 是一个评估指令遵循能力的基准,涵盖多样且结构化的任务约束;AA-LCR(Artificial Analysis Long Context Recall)评估模型从长输入上下文中准确检索和召回信息的能力;τ2-Bench Telecom 评估智能体工具使用和政策遵守能力,在双控电信客服场景中,模型与模拟用户和外部工具交互以解决账户问题。
推理
加速引擎: SGLang、vLLM 测试硬件: NVIDIA B200、NVIDIA B300
训练后量化
该模型通过将 GLM-5.2 的权重和激活量化为 NVFP4 数据类型获得,可用于 SGLang 和 vLLM 推理。仅量化 MoE 专家中 Transformer 块内线性算子的权重和激活。共享专家未被量化。
使用
SGLang
该检查点使用最新的 SGLang 镜像(lmsysorg/sglang:latest)提供服务。GLM-5.2 的 glm_moe_dsa 架构需要 transformers>=5.3.0,我们在容器内启动服务前已安装:
pip install -U "transformers>=5.3.0" && \
python3 -m sglang.launch_server \
--model nvidia/GLM-5.2-NVFP4 \
--tensor-parallel-size 8 \
--quantization modelopt_fp4 \
--tool-call-parser glm47 \
--reasoning-parser glm45 \
--trust-remote-code \
--chunked-prefill-size 131072 \
--mem-fraction-static 0.80
vLLM
要使用 vLLM(https://github.com/vllm-project/vllm)提供此检查点,请使用 vllm/vllm-openai:v0.23.0 镜像并运行:
vllm serve nvidia/GLM-5.2-NVFP4 \
--tensor-parallel-size 8 \
--enable-expert-parallel \
--trust-remote-code \
--reasoning-parser glm45 \
--tool-call-parser glm47 \
--enable-auto-tool-choice \
--kv-cache-dtype fp8_e4m3 \
--host 0.0.0.0 --port 8000
评估
准确率基准结果如下表所示。AA-LCR 使用 SGLang 测量;其他所有基准使用 vLLM 测量。
| 精度 | GPQA Diamond | SciCode | IFBench | AA-LCR | τ2-Bench Telecom |
|---|---|---|---|---|---|
| 基线 (FP8) | 89.52 | 49.85 | 74.95 | 69.38 | 97.9 |
| NVFP4 | 89.39 | 49.04 | 75.81 | 70.13 | 98.25 |
基线:GLM-5.2-FP8(https://huggingface.co/zai-org/GLM-5.2-FP8)。基准测试使用 temperature=1.0、top_p=0.95。GPQA Diamond 使用 max_new_tokens=100000;其他所有基准使用 max_new_tokens=64000。
模型局限性
基础模型在包含有毒语言和社会偏见的数据上训练,这些数据最初从互联网爬取。因此,模型可能放大这些偏见,并在受到有毒提示时返回有毒响应。即使提示本身不包含明显冒犯内容,模型也可能生成不准确、遗漏关键信息、包含无关或冗余文本的答案,从而产生社会不可接受或不理想的文本。
伦理考量
NVIDIA 认为可信赖 AI 是共同责任,我们已建立政策和实践以支持广泛 AI 应用的开发。开发者应与其内部模型团队合作,确保模型满足相关行业和用例的要求,并应对未预见的滥用风险。
请确保您对所有输入图像和视频内容拥有正当权利和权限;如果图像或视频包含人物、个人健康信息或知识产权,生成的图像或视频不会模糊或改变图像主体的比例。
有关本模型伦理考量的更多详细信息,请参阅 Model Card++ 偏见、可解释性、安全与隐私子卡(https://gitlab-master.nvidia.com/api-catalog/examples)。
请在此处报告模型质量、风险、安全漏洞或 NVIDIA AI 问题(https://www.nvidia.com/en-us/support/submit-security-vulnerability/)。
子卡:
可解释性
字段: 响应: 预期任务/领域: 文本生成、推理、摘要和问答。 模型类型: 文本和图像到文本 Transformer 预期用户: 本模型面向构建/使用 LLM 的开发者、研究人员和客户,同时平衡准确性和效率。 输出: 文本字符串 描述模型工作原理: 通过根据输入序列中提供的上下文,使用多个自注意力层预测下一个单词或 token 来生成文本。 列出已经过测试、能为受影响群体提供可比结果的群体: 不适用 技术局限与缓解措施: 模型在包含有毒语言和社会偏见的数据上训练,这些数据最初从互联网爬取。因此,模型可能放大这些偏见,并在受到有毒提示时返回有毒响应。因此,在部署任何模型应用之前,开发者应针对其特定应用进行安全测试和调优。 已验证符合规定质量标准? 是 性能指标: 准确率、吞吐量和用户端吞吐量 潜在已知风险: 即使提示本身不包含明显冒犯内容,模型也可能生成不准确、遗漏关键信息、包含无关或冗余文本的答案,从而产生社会不可接受或不理想的文本。 许可: 您的使用受以下管辖条款管辖:模型的使用受 MIT 许可证(https://huggingface.co/datasets/choosealicense/licenses/blob/main/markdown/mit.md)管辖,与基础模型相同。
偏见
字段: 响应: 来自受影响群体的参与考虑: 在模型设计和测试中未考虑受保护群体(https://www.senate.ca.gov/content/protected-classes)。 为减轻不必要偏见所采取的措施: 无
安全与隐私
字段: 响应: 模型应用: 聊天、指令遵循、聊天机器人开发、代码生成、推理 描述关键生命周期应用(如有): 不适用 用例限制: 遵守管辖条款: 模型的使用受 MIT 许可证(https://huggingface.co/datasets/choosealicense/licenses/blob/main/markdown/mit.md)管辖,与基础模型相同。 模型与数据集限制: 应用最小权限原则(PoLP),限制数据集生成访问。限制措施在训练期间执行数据集访问,并遵守数据集许可证约束。模型检查点在 Hugging Face 上可用,并可能在云提供商模型目录中提供。
隐私
字段: 响应: 可生成或逆向工程的个人数据? 否 用于创建此模型的个人数据? 否 是否获得任何使用个人数据的同意? 不适用 数据集审核频率: 发布前 是否使用了 AI 模型与用户交互的数据(例如用户输入和提示)来训练模型? 否 训练中使用的所有数据集是否有来源证明? 是 数据标注(注释、元数据)是否符合隐私法律? 是 数据是否符合数据主体关于数据更正或删除的请求(如有此类请求)? 不适用 适用的 NVIDIA 隐私政策: https://www.nvidia.com/en-us/about-nvidia/privacy-policy/
相似文章
@mr_r0b0t:官方 @NVIDIAAI GLM5.1-NVFP4 在 @huggingface 上被发现
NVIDIA 发布了 GLM-5.1-NVFP4,这是 ZAI 的 GLM-5.1 模型的量化版本,总参数 754B(激活参数 40B),在 Hugging Face 上以 MIT 许可证提供。
@HuggingPapers: NVIDIA 刚刚在 Hugging Face 上发布了优化版的 GLM-5.2,这是一个拥有 753B 参数和 1M 上下文的 MoE 模型,针对 Blackwell GPU 量化至 NVFP4……
NVIDIA 在 Hugging Face 上发布了优化版 GLM-5.2 MoE 模型,拥有 753B 参数和 1M 上下文,针对 Blackwell GPU 量化至 NVFP4,精度几乎与 FP8 持平。
@lmsysorg:NVIDIA 刚刚发布了来自 @Zai_org 的 GLM-5.2 的 NVFP4 检查点,这是一个用于推理和编码的 744B MoE(40B 激活)模型。Day-…
NVIDIA 发布了 GLM-5.2 的 NVFP4 量化检查点,这是一个 744B MoE 模型(40B 激活),针对推理和编码进行了优化,并在 SGLang 中提供 Day-0 支持。
nvidia/Qwen3.6-35B-A3B-NVFP4 · Hugging Face
NVIDIA发布了Qwen3.6-35B-A3B-NVFP4,这是阿里巴巴混合专家多模态语言模型的量化版本,使用Model Optimizer优化以在NVIDIA GPU上部署。
zai-org/GLM-5.2-FP8
Z.AI 发布 GLM-5.2,一款旗舰级开源模型,拥有可靠的 1M token 上下文窗口,改进的编码能力,以及新的 IndexShare 稀疏注意力架构,在 1M 上下文下 FLOPs 减少了 2.9 倍。