nvidia/Qwen3.6-35B-A3B-NVFP4 · Hugging Face

Reddit r/LocalLLaMA 2026/05/30 17:49 模型

nvidia qwen quantized mixture-of-experts multimodal huggingface language-model

摘要

NVIDIA发布了Qwen3.6-35B-A3B-NVFP4，这是阿里巴巴混合专家多模态语言模型的量化版本，使用Model Optimizer优化以在NVIDIA GPU上部署。

NVIDIA Qwen3.6-35B-A3B-NVFP4 模型是阿里巴巴 Qwen3.6-35B-A3B 模型的量化版本，该模型是一种采用优化 Transformer 架构的自回归语言模型。更多信息请查看 [这里](https://huggingface.co/Qwen/Qwen3.6-35B-A3B)。NVIDIA Qwen3.6-35B-A3B-NVFP4 模型使用 [Model Optimizer](https://github.com/NVIDIA/Model-Optimizer) 进行了量化。 # 训练后量化该模型是通过将 Qwen3.6-35B-A3B 的权重量化为 NVFP4 数据类型而获得的，可直接用于 vLLM 推理。仅对 MoE 中 transformer 块内的线性算子的权重和激活进行了量化。此优化将每个参数的位数从 16 位减少到 4 位，从而将磁盘大小和 GPU 内存需求降低约 3.06 倍。 # 评估精度基准测试结果如下表所示： |**精度**|**MMLU Pro**|**GPQA Diamond**|**τ²-Bench Telecom**|**SciCode**|**AIME 2025**|**AA-LCR**|**IFBench**|**MMMU PRO**| |:-|:-|:-|:-|:-|:-|:-|:-|:-| |BF16|**85.6**|**84.9**|**95.5**|**40.8**|**89.2**|**62.0**|**62.3**|**74.1**| |NVFP4|**85.0**|**84.8**|**94.7**|**40.6**|**88.8**|**62.0**|**62.8**|**74.5**|

查看原文

查看缓存全文

缓存时间: 2026/05/30 19:22

nvidia/Qwen3.6-35B-A3B-NVFP4 · Hugging Face

来源：https://huggingface.co/nvidia/Qwen3.6-35B-A3B-NVFP4

模型概述

描述：

NVIDIA Qwen3.6-35B-A3B-NVFP4 模型是阿里巴巴 Qwen3.6-35B-A3B 模型的量化版本，该模型是一种采用优化 Transformer 架构的自回归语言模型。更多信息请查看此处 (https://huggingface.co/Qwen/Qwen3.6-35B-A3B)。NVIDIA Qwen3.6-35B-A3B-NVFP4 模型使用 Model Optimizer (https://github.com/NVIDIA/Model-Optimizer) 进行量化。

该模型可用于商业/非商业用途。

第三方社区注意事项

此模型并非 NVIDIA 拥有或开发。此模型是根据第三方对此应用和用例的要求开发构建的；请参见阿里巴巴的非 NVIDIA（Qwen3.6-35B-A3B）模型卡片链接 (https://huggingface.co/Qwen/Qwen3.6-35B-A3B)。

参考文献

NVIDIA Model Optimizer：https://github.com/NVIDIA/Model-Optimizer

许可/使用条款：

Apache 许可证 2.0 (https://huggingface.co/Qwen/Qwen3.6-35B-A3B/blob/main/LICENSE)

部署地域：

全球

用例：

适合希望使用现成预量化模型，部署到 AI 智能体系统、聊天机器人、RAG 系统及其他 AI 驱动应用中的开发者。

发布日期：

2026 年 5 月 28 日通过 https://huggingface.co/nvidia/Qwen3.6-35B-A3B-NVFP4 发布到 Hugging Face

模型架构：

架构类型： Transformers 网络架构： 混合专家（MoE）与混合注意力 模型参数数量： 总计 35B，激活 3B

输入：

输入类型： 文本、图像、视频 输入格式： 字符串、红绿蓝（RGB）、视频（MP4/WebM） 输入参数： 一维（1D）、二维（2D）、三维（3D） 输入相关其他属性： 上下文长度最高 262K

输出：

输出类型： 文本 输出格式： 字符串 输出参数： 一维（1D）：序列 输出相关其他属性： 无

我们的 AI 模型被设计或优化为在 NVIDIA GPU 加速系统上运行。通过利用 NVIDIA 的硬件（如 GPU 核心）和软件框架（如 CUDA 库），与纯 CPU 解决方案相比，该模型实现了更快的训练和推理时间。

软件集成：

支持的运行时引擎：

vLLM

支持的硬件微架构兼容性：

NVIDIA Hopper, NVIDIA Blackwell

首选操作系统：

Linux

将基础模型和微调模型集成到 AI 系统中需要针对特定用例的数据进行额外测试，以确保安全有效部署。遵循 V 模型方法论，在单元和系统层面进行迭代测试和验证至关重要，以降低风险，满足技术和功能需求，并在部署前确保符合安全与伦理标准。

模型版本：

模型版本为 NVFP4 1.0，使用 nvidia-modelopt v0.44.0 进行量化

训练和评估数据集：

标定数据集：

链接： cnn_dailymail (https://huggingface.co/datasets/abisee/cnn_dailymail)，Nemotron-Post-Training-Dataset-v2 (https://huggingface.co/datasets/nvidia/Nemotron-Post-Training-Dataset-v2) 数据收集方法（按数据集）： 自动。标注方法（按数据集）： 自动。属性： cnn_dailymail 数据集是英文数据集，包含超过 30 万篇由 CNN 和每日邮报记者撰写的独特新闻文章。Nemotron-Post-Training-Dataset-v2 是由 NVIDIA 策划的后训练数据集，包含跨多种主题的多轮对话。

训练数据集：

数据模态： 未公开 数据收集方法（按数据集）： 未公开 标注方法（按数据集）： 未公开 数据大小： 未公开 属性： 未公开

评估数据集：

数据集： MMLU Pro, GPQA Diamond, τ2-Bench Telecom, MMMU Pro, SciCode, AIME 2025, AA-LCR, IFBench 数据收集方法（按数据集）： 混合：自动、人工 标注方法（按数据集）： 混合：人工、自动 属性： 我们在基于文本的推理和编码基准上评估了模型：MMLU Pro 是一个多任务语言理解基准，包含跨多个学术领域的具有挑战性的多选题；GPQA Diamond 包含 448 个由生物学、物理和化学领域专家编写的研究生级多选题；τ2-Bench Telecom 评估在双控电信客服场景中的智能体工具使用和策略遵守能力，模型需与模拟用户和外部工具交互来解决账户问题；MMMU Pro 是大规模多学科多模态理解基准的更具挑战性版本，测量大学级别的多模态推理能力，包含扩展答案选项和纯视觉输入设置；SciCode 评估科学编码能力；AIME 2025 包含美国数学邀请赛的题目；AA-LCR（人工分析长上下文召回）评估模型从长输入上下文中准确检索和召回信息的能力；IFBench 是一个评估指令遵循能力的基准，涵盖多样化和结构化的任务约束。

推理：

加速引擎： vLLM 测试硬件： NVIDIA GB300

训练后量化

该模型通过将 Qwen3.6-35B-A3B 的权重量化为 NVFP4 数据类型获得，可用于 vLLM 推理。仅量化 MoE 中 Transformer 块内线性算子的权重和激活。此优化将每参数位数从 16 位减少到 4 位，将磁盘大小和 GPU 内存需求降低约 3.06 倍。

使用

要使用 vLLM (https://github.com/vllm-project/vllm) 提供此检查点，可以启动 docker vllm/vllm\-openai:nightly 并运行以下示例命令：

vllm serve nvidia/Qwen3.6-35B-A3B-NVFP4 --port 8000 --quantization modelopt --max-model-len 262144 --reasoning-parser qwen3

对于 NVIDIA DGX Spark，建议设置以下环境变量并使用此 vllm serve 命令：

`` export VLLM_USE_FLASHINFER_MOE_FP4=0 export VLLM_FP8_MOE_BACKEND=flashinfer_cutlass export FLASHINFER_DISABLE_VERSION_CHECK=1 export CUTE_DSL_ARCH=sm_121a

vllm serve nvidia/Qwen3.6-35B-A3B-NVFP4 –port 8000 –tensor-parallel-size 1 –trust-remote-code –dtype auto –quantization modelopt –kv-cache-dtype fp8 –attention-backend flashinfer –moe-backend marlin –gpu-memory-utilization 0.85 –max-model-len 65536 –max-num-seqs 4 –max-num-batched-tokens 8192 –enable-chunked-prefill –async-scheduling –enable-prefix-caching –speculative-config ‘{“method”:“mtp”,“num_speculative_tokens”:3,“moe_backend”:“triton”}’ ``

评估

精度基准结果如下表所示：

精度	MMLU Pro	GPQA Diamond	τ2-Bench Telecom	SciCode	AIME 2025	AA-LCR	IFBench	MMMU PRO
BF16	85.6	84.9	95.5	40.8	89.2	62.0	62.3	74.1
NVFP4	85.0	84.8	94.7	40.6	88.8	62.0	62.8	74.5

基线：Qwen3.6-35B-A3B (https://huggingface.co/Qwen/Qwen3.6-35B-A3B)。SciCode 使用 temperature=0.6, top_p=0.95, max num tokens 131072；其他使用 temperature=1.0, top_p=0.95, max num tokens 131072

模型局限性：

基础模型在包含有毒语言和社会偏见的数据上训练，这些数据最初从互联网爬取。因此，模型可能会放大这些偏见并在被提示使用有毒提示时返回有毒响应。模型可能生成不准确的答案，遗漏关键信息，或包含无关或冗余文本，产生社会不可接受或不受欢迎的文本，即使提示本身不包含任何明确冒犯性内容。

伦理考量

NVIDIA 认为可信赖的 AI 是共同责任，我们已制定政策和实践，以支持开发广泛的 AI 应用。开发者应与其内部模型团队合作，确保此模型满足相关行业和用例的需求，并解决未预见的滥用问题。

请确保您对所有输入图像和视频内容拥有适当的权利和权限；如果图像或视频包含人物、个人健康信息或知识产权，生成的图像或视频不会模糊或保持图像主体的比例。

请在此处报告模型质量、风险、安全漏洞或 NVIDIA AI 相关问题 (https://app.intigriti.com/programs/nvidia/nvidiavdp/detail)。

nvidia/Qwen3.6-35B-A3B-NVFP4 · Hugging Face

nvidia/Qwen3.6-35B-A3B-NVFP4 · Hugging Face

模型概述

描述：

第三方社区注意事项

参考文献

许可/使用条款：

部署地域：

用例：

发布日期：

模型架构：

输入：

输出：

软件集成：

模型版本：

训练和评估数据集：

标定数据集：

训练数据集：

评估数据集：

推理：

训练后量化

使用

评估

模型局限性：

伦理考量

相似文章

Qwen/Qwen3.6-27B-FP8

RedHatAI/Qwen3.6-35B-A3B-NVFP4

Qwen/Qwen3.6-35B-A3B-FP8

Qwen/Qwen3.6-35B-A3B

Qwen3.6-27B

提交意见反馈