@mr_r0b0t：官方 @NVIDIAAI GLM5.1-NVFP4 在 @huggingface 上被发现

X AI KOLs Timeline 2026/05/28 12:20 模型

nvidia glm-5.1 nvfp4 quantization transformer open-source huggingface

摘要

NVIDIA 发布了 GLM-5.1-NVFP4，这是 ZAI 的 GLM-5.1 模型的量化版本，总参数 754B（激活参数 40B），在 Hugging Face 上以 MIT 许可证提供。

官方 @NVIDIAAI GLM5.1-NVFP4 在 @huggingface 上被发现 🤩 https://t.co/A2ycGBIpDq

查看原文

查看缓存全文

缓存时间: 2026/05/30 12:35

官方 @NVIDIAAI GLM5.1-NVFP4 已在 @huggingface 上线 🤩

https://t.co/A2ycGBIpDq

nvidia/GLM-5.1-NVFP4 · Hugging Face

来源：https://huggingface.co/nvidia/GLM-5.1-NVFP4

https://huggingface.co/nvidia/GLM-5.1-NVFP4#model-overview模型概述

https://huggingface.co/nvidia/GLM-5.1-NVFP4#description描述:

NVIDIA GLM-5.1 NVFP4 模型是 ZAI 的 GLM-5.1 模型的量化版本，采用优化的 Transformer 架构的自回归语言模型。更多信息请查看此处 (https://huggingface.co/zai-org/GLM-5.1)。NVIDIA GLM-5.1 NVFP4 模型通过 Model Optimizer (https://github.com/NVIDIA/Model-Optimizer) 进行量化。

该模型可用于商业/非商业用途。

https://huggingface.co/nvidia/GLM-5.1-NVFP4#third-party-community-consideration第三方社区注意事项

此模型并非 NVIDIA 拥有或开发。该模型是根据第三方针对此应用和使用场景的要求进行开发和构建的；请查看 ZAI 的 Non-NVIDIA（GLM-5.1）模型卡片 (https://huggingface.co/zai-org/GLM-5.1) 的链接。

https://huggingface.co/nvidia/GLM-5.1-NVFP4#references参考文献

Nvidia Model Optimizer：https://github.com/NVIDIA/Model-Optimizer

https://huggingface.co/nvidia/GLM-5.1-NVFP4#licenseterms-of-use许可证/使用条款：

MIT 许可证 (https://huggingface.co/datasets/choosealicense/licenses/blob/main/markdown/mit.md)

https://huggingface.co/nvidia/GLM-5.1-NVFP4#deployment-geography部署地域：

全球

https://huggingface.co/nvidia/GLM-5.1-NVFP4#use-case-使用场景：

面向希望在 AI 代理系统、聊天机器人、RAG 系统及其他 AI 驱动的应用中部署现成预量化模型的开发者。

https://huggingface.co/nvidia/GLM-5.1-NVFP4#release-date–发布日期：

Huggingface 2026年5月19日，通过 https://huggingface.co/nvidia/GLM-5.1-NVFP4

https://huggingface.co/nvidia/GLM-5.1-NVFP4#model-architecture模型架构：

架构类型： Transformers 网络架构： GLM-5.1 模型参数量： 总参数量 754B，激活参数量 40B

https://huggingface.co/nvidia/GLM-5.1-NVFP4#input输入：

输入类型： 文本 输入格式： 字符串 输入参数： 一维（1D） 其他输入相关属性： 上下文长度最高 200K

https://huggingface.co/nvidia/GLM-5.1-NVFP4#output输出：

输出类型： 文本 输出格式： 字符串 输出参数： 一维（1D）：序列 其他输出相关属性： 无

我们的 AI 模型设计并/或优化为在 NVIDIA GPU 加速系统上运行。通过利用 NVIDIA 的硬件（如 GPU 核心）和软件框架（如 CUDA 库），该模型相比纯 CPU 方案实现了更快的训练和推理时间。

https://huggingface.co/nvidia/GLM-5.1-NVFP4#software-integration软件集成：

支持的运行时引擎：

SGLang
vLLM

支持的硬件微架构兼容性：

NVIDIA Blackwell

推荐操作系统：

Linux

将基础模型和微调模型集成到 AI 系统中需要额外的测试，使用特定于用例的数据，以确保安全有效的部署。遵循 V 模型方法，在单元和系统级别进行迭代测试和验证对于降低风险、满足技术和功能要求、以及在部署前确保符合安全和伦理标准至关重要。

https://huggingface.co/nvidia/GLM-5.1-NVFP4#model-versions模型版本：

模型版本为 NVFP4 1.0 版，使用 nvidia-modelopt v0.45.0 进行量化。

https://huggingface.co/nvidia/GLM-5.1-NVFP4#training-testing-and-evaluation-datasets训练、测试与评估数据集：

我们使用以下数据集对模型进行校准，并使用评估数据集中列出的基准进行了评估。我们未对此次 Model Optimizer 版本进行训练或测试。下方训练数据集和测试数据集中列出的方法代表了第三方用于训练和测试底层模型的数据收集和标注方法。

https://huggingface.co/nvidia/GLM-5.1-NVFP4#calibration-dataset校准数据集：

链接： Nemotron-SFT-Instruction-Following-Chat-v2 (https://huggingface.co/datasets/nvidia/Nemotron-SFT-Instruction-Following-Chat-v2), Nemotron-Science-v1 (https://huggingface.co/datasets/nvidia/Nemotron-Science-v1), Nemotron-Competitive-Programming-v1 (https://huggingface.co/datasets/nvidia/Nemotron-Competitive-Programming-v1), Nemotron-SFT-Agentic-v2 (https://huggingface.co/datasets/nvidia/Nemotron-SFT-Agentic-v2), Nemotron-Math-v2 (https://huggingface.co/datasets/nvidia/Nemotron-Math-v2), Nemotron-SFT-SWE-v2 (https://huggingface.co/datasets/nvidia/Nemotron-SFT-SWE-v2), Nemotron-SFT-Multilingual-v1 (https://huggingface.co/datasets/nvidia/Nemotron-SFT-Multilingual-v1) 每个数据集的数据收集方法： 混合：人工、合成、自动化。标注方法： 混合：人工、自动化。属性： Nemotron-SFT-Instruction-Following-Chat-v2 包含约 200 万条合成聊天样本，旨在增强开放式聊天和精确指令遵循能力。Nemotron-Science-v1 是一个合成科学推理数据集，约 22.6 万条样本，涵盖 GPQA 风格的科学问题和化学问题，以增强大语言模型在科学领域的推理能力。Nemotron-Competitive-Programming-v1 是一个大规模的合成编码数据集，包含超过 200 万条 Python 样本和 100 万条 C++ 样本，涵盖超过 3.4 万个竞赛编程问题，用于代码补全和代码评审。Nemotron-SFT-Agentic-v2 包含约 99.2 万条工具调用轨迹、客服对话和网络搜索轨迹样本，用于训练交互式、使用工具的代理。Nemotron-Math-v2 是一个大规模数学推理数据集，包含约 34.7 万个问题和 700 万条模型生成的推理轨迹，涵盖多种推理模式及工具使用配置。Nemotron-SFT-SWE-v2 包含约 25.6 万条软件工程样本，包括代理式 SWE 轨迹以及无代理的代码定位、修复和测试生成样本，用于 SWE-Bench 风格的任务。Nemotron-SFT-Multilingual-v1 包含约 300 万条多语言推理样本，从数学、代码和 STEM 数据翻译成德语、法语、日语、意大利语、中文和西班牙语。

https://huggingface.co/nvidia/GLM-5.1-NVFP4#training-dataset训练数据集：

数据模态： 未披露 每个数据集的数据收集方法： 未披露 每个数据集的标注方法： 未披露 属性： 未披露

https://huggingface.co/nvidia/GLM-5.1-NVFP4#testing-dataset测试数据集：

每个数据集的数据收集方法： 未披露 每个数据集的标注方法： 未披露 属性： 未披露

https://huggingface.co/nvidia/GLM-5.1-NVFP4#evaluation-dataset评估数据集：

数据集： GPQA Diamond、SciCode、AIME 2026、IFBench、AA-LCR 每个数据集的数据收集方法： 混合：自动化、人工 每个数据集的标注方法： 混合：人工、自动化 属性： 我们在基于文本的推理、编码、代理工具使用和多模态基准上评估了模型：GPQA Diamond 包含 448 道由生物学、物理学和化学领域专家编写的研究生水平选择题；SciCode 评估科学编码能力；AIME 2026 包含来自 2026 年美国数学邀请赛的 30 道奥林匹克级别数学题，测试代数、几何、数论、组合和概率领域的数学推理；IFBench 是一个用于评估在不同结构化任务约束下指令遵循能力的基准；AA-LCR（Artificial Analysis Long Context Recall）评估模型从长输入上下文中准确检索和回忆信息的能力。

https://huggingface.co/nvidia/GLM-5.1-NVFP4#inference推理：

加速引擎： SGLang、vLLM 测试硬件： B300、B200

https://huggingface.co/nvidia/GLM-5.1-NVFP4#post-training-quantization训练后量化

该模型通过将 GLM-5.1 的权重和激活量化为 NVFP4 数据类型获得，可用于 SGLang 和 vLLM 推理。只量化了 MoE 专家中 Transformer 块内线性算子的权重和激活。共享专家未量化。

https://huggingface.co/nvidia/GLM-5.1-NVFP4#usage使用

https://huggingface.co/nvidia/GLM-5.1-NVFP4#sglangSGLang

要使用 SGLang (https://github.com/sgl-project/sglang) 服务该检查点，您可以启动 docker lmsysorg/sglang:dev-cu13（cu13 变体需要 B300；其他 GPU 请使用相应构建版本），并运行以下示例命令：

python3 -m sglang.launch_server \ --model nvidia/GLM-5.1-NVFP4 \ --tensor-parallel-size 8 \ --quantization modelopt_fp4 \ --tool-call-parser glm47 \ --reasoning-parser glm45 \ --trust-remote-code \ --chunked-prefill-size 131072 \ --mem-fraction-static 0.80

https://huggingface.co/nvidia/GLM-5.1-NVFP4#vllmvLLM

要使用 vLLM (https://github.com/vllm-project/vllm) 服务该检查点，您可以使用 docker 镜像 vllm/vllm-openai:v0.19.1 并运行以下示例命令：

vllm serve nvidia/GLM-5.1-NVFP4 \ --tensor-parallel-size 8 \ --trust-remote-code \ --gpu-memory-utilization 0.95 \ --port 8000

要启用专家并行、推理和工具调用：

vllm serve nvidia/GLM-5.1-NVFP4 \ --tensor-parallel-size 8 \ --pipeline-parallel-size 1 \ --data-parallel-size 1 \ --enable-expert-parallel \ --trust-remote-code \ --gpu-memory-utilization 0.9 \ --reasoning-parser glm45 \ --tool-call-parser glm47 \ --enable-auto-tool-choice \ --enable-chunked-prefill \ --max-num-batched-tokens 8192 \ --max-num-seqs 1024 \ --model-loader-extra-config '{"enable_multithread_load": true, "num_threads": 128}' \ --chat-template-content-format string \ -cc.pass_config.fuse_allreduce_rms=False \ --host 0.0.0.0 \ --port 8000

https://huggingface.co/nvidia/GLM-5.1-NVFP4#evaluation评估

下表展示了准确率基准测试结果（使用 vLLM 评估）：

精度	SciCode	IFBench	GPQA Diamond	Amie2026	LCR
baseline (FP8)	47.1	47.6	76.5	85.6	96.67
NVFP4	47.3	47.6	76.3	85.0	96.67

基线：GLM-5.1-FP8 (https://huggingface.co/zai-org/GLM-5.1-FP8)。使用 vLLM (vllm/vllm-openai:v0.19.1) 基准测试，temperature=1.0, top_p=0.95, max num tokens 64000

https://huggingface.co/nvidia/GLM-5.1-NVFP4#model-limitations模型局限性：

基础模型训练的数据包含从互联网爬取的有毒语言和社会偏见。因此，模型可能放大这些偏见，尤其是在使用有毒提示时返回有毒回应。模型可能生成不准确、遗漏关键信息或包含无关或重复文本的答案，即使提示本身不包含任何明确冒犯性内容，也可能产生社会不可接受或不理想的文本。

https://huggingface.co/nvidia/GLM-5.1-NVFP4#ethical-considerations伦理考量

NVIDIA 认为值得信赖的 AI 是共同责任，我们已制定政策和实践以支持广泛 AI 应用的开发。当根据我们的服务条款下载或使用时，开发者应与其内部模型团队合作，确保该模型满足相关行业和用例的要求，并解决未预见的滥用风险。

请在此处 (https://app.intigriti.com/programs/nvidia/nvidiavdp/detail) 报告模型质量、风险、安全漏洞或 NVIDIA AI 相关问题。