nvidia/Qwen3.6-35B-A3B-NVFP4 · Hugging Face
摘要
NVIDIA发布了Qwen3.6-35B-A3B-NVFP4,这是阿里巴巴混合专家多模态语言模型的量化版本,使用Model Optimizer优化以在NVIDIA GPU上部署。
查看缓存全文
缓存时间: 2026/05/30 19:22
nvidia/Qwen3.6-35B-A3B-NVFP4 · Hugging Face
来源:https://huggingface.co/nvidia/Qwen3.6-35B-A3B-NVFP4
模型概述
描述:
NVIDIA Qwen3.6-35B-A3B-NVFP4 模型是阿里巴巴 Qwen3.6-35B-A3B 模型的量化版本,该模型是一种采用优化 Transformer 架构的自回归语言模型。更多信息请查看此处 (https://huggingface.co/Qwen/Qwen3.6-35B-A3B)。NVIDIA Qwen3.6-35B-A3B-NVFP4 模型使用 Model Optimizer (https://github.com/NVIDIA/Model-Optimizer) 进行量化。
该模型可用于商业/非商业用途。
第三方社区注意事项
此模型并非 NVIDIA 拥有或开发。此模型是根据第三方对此应用和用例的要求开发构建的;请参见阿里巴巴的非 NVIDIA(Qwen3.6-35B-A3B)模型卡片链接 (https://huggingface.co/Qwen/Qwen3.6-35B-A3B)。
参考文献
NVIDIA Model Optimizer:https://github.com/NVIDIA/Model-Optimizer
许可/使用条款:
Apache 许可证 2.0 (https://huggingface.co/Qwen/Qwen3.6-35B-A3B/blob/main/LICENSE)
部署地域:
全球
用例:
适合希望使用现成预量化模型,部署到 AI 智能体系统、聊天机器人、RAG 系统及其他 AI 驱动应用中的开发者。
发布日期:
2026 年 5 月 28 日通过 https://huggingface.co/nvidia/Qwen3.6-35B-A3B-NVFP4 发布到 Hugging Face
模型架构:
架构类型: Transformers 网络架构: 混合专家(MoE)与混合注意力 模型参数数量: 总计 35B,激活 3B
输入:
输入类型: 文本、图像、视频 输入格式: 字符串、红绿蓝(RGB)、视频(MP4/WebM) 输入参数: 一维(1D)、二维(2D)、三维(3D) 输入相关其他属性: 上下文长度最高 262K
输出:
输出类型: 文本 输出格式: 字符串 输出参数: 一维(1D):序列 输出相关其他属性: 无
我们的 AI 模型被设计或优化为在 NVIDIA GPU 加速系统上运行。通过利用 NVIDIA 的硬件(如 GPU 核心)和软件框架(如 CUDA 库),与纯 CPU 解决方案相比,该模型实现了更快的训练和推理时间。
软件集成:
支持的运行时引擎:
- vLLM
支持的硬件微架构兼容性:
- NVIDIA Hopper, NVIDIA Blackwell
首选操作系统:
- Linux
将基础模型和微调模型集成到 AI 系统中需要针对特定用例的数据进行额外测试,以确保安全有效部署。遵循 V 模型方法论,在单元和系统层面进行迭代测试和验证至关重要,以降低风险,满足技术和功能需求,并在部署前确保符合安全与伦理标准。
模型版本:
模型版本为 NVFP4 1.0,使用 nvidia-modelopt v0.44.0 进行量化
训练和评估数据集:
标定数据集:
链接: cnn_dailymail (https://huggingface.co/datasets/abisee/cnn_dailymail),Nemotron-Post-Training-Dataset-v2 (https://huggingface.co/datasets/nvidia/Nemotron-Post-Training-Dataset-v2) 数据收集方法(按数据集): 自动。标注方法(按数据集): 自动。属性: cnn_dailymail 数据集是英文数据集,包含超过 30 万篇由 CNN 和每日邮报记者撰写的独特新闻文章。Nemotron-Post-Training-Dataset-v2 是由 NVIDIA 策划的后训练数据集,包含跨多种主题的多轮对话。
训练数据集:
数据模态: 未公开 数据收集方法(按数据集): 未公开 标注方法(按数据集): 未公开 数据大小: 未公开 属性: 未公开
评估数据集:
数据集: MMLU Pro, GPQA Diamond, τ2-Bench Telecom, MMMU Pro, SciCode, AIME 2025, AA-LCR, IFBench 数据收集方法(按数据集): 混合:自动、人工 标注方法(按数据集): 混合:人工、自动 属性: 我们在基于文本的推理和编码基准上评估了模型:MMLU Pro 是一个多任务语言理解基准,包含跨多个学术领域的具有挑战性的多选题;GPQA Diamond 包含 448 个由生物学、物理和化学领域专家编写的研究生级多选题;τ2-Bench Telecom 评估在双控电信客服场景中的智能体工具使用和策略遵守能力,模型需与模拟用户和外部工具交互来解决账户问题;MMMU Pro 是大规模多学科多模态理解基准的更具挑战性版本,测量大学级别的多模态推理能力,包含扩展答案选项和纯视觉输入设置;SciCode 评估科学编码能力;AIME 2025 包含美国数学邀请赛的题目;AA-LCR(人工分析长上下文召回)评估模型从长输入上下文中准确检索和召回信息的能力;IFBench 是一个评估指令遵循能力的基准,涵盖多样化和结构化的任务约束。
推理:
加速引擎: vLLM 测试硬件: NVIDIA GB300
训练后量化
该模型通过将 Qwen3.6-35B-A3B 的权重量化为 NVFP4 数据类型获得,可用于 vLLM 推理。仅量化 MoE 中 Transformer 块内线性算子的权重和激活。此优化将每参数位数从 16 位减少到 4 位,将磁盘大小和 GPU 内存需求降低约 3.06 倍。
使用
要使用 vLLM (https://github.com/vllm-project/vllm) 提供此检查点,可以启动 docker vllm/vllm\-openai:nightly 并运行以下示例命令:
vllm serve nvidia/Qwen3.6-35B-A3B-NVFP4 --port 8000 --quantization modelopt --max-model-len 262144 --reasoning-parser qwen3
对于 NVIDIA DGX Spark,建议设置以下环境变量并使用此 vllm serve 命令:
`` export VLLM_USE_FLASHINFER_MOE_FP4=0 export VLLM_FP8_MOE_BACKEND=flashinfer_cutlass export FLASHINFER_DISABLE_VERSION_CHECK=1 export CUTE_DSL_ARCH=sm_121a
vllm serve nvidia/Qwen3.6-35B-A3B-NVFP4 –port 8000 –tensor-parallel-size 1 –trust-remote-code –dtype auto –quantization modelopt –kv-cache-dtype fp8 –attention-backend flashinfer –moe-backend marlin –gpu-memory-utilization 0.85 –max-model-len 65536 –max-num-seqs 4 –max-num-batched-tokens 8192 –enable-chunked-prefill –async-scheduling –enable-prefix-caching –speculative-config ‘{“method”:“mtp”,“num_speculative_tokens”:3,“moe_backend”:“triton”}’ ``
评估
精度基准结果如下表所示:
| 精度 | MMLU Pro | GPQA Diamond | τ2-Bench Telecom | SciCode | AIME 2025 | AA-LCR | IFBench | MMMU PRO |
|---|---|---|---|---|---|---|---|---|
| BF16 | 85.6 | 84.9 | 95.5 | 40.8 | 89.2 | 62.0 | 62.3 | 74.1 |
| NVFP4 | 85.0 | 84.8 | 94.7 | 40.6 | 88.8 | 62.0 | 62.8 | 74.5 |
基线:Qwen3.6-35B-A3B (https://huggingface.co/Qwen/Qwen3.6-35B-A3B)。SciCode 使用 temperature=0.6, top_p=0.95, max num tokens 131072;其他使用 temperature=1.0, top_p=0.95, max num tokens 131072
模型局限性:
基础模型在包含有毒语言和社会偏见的数据上训练,这些数据最初从互联网爬取。因此,模型可能会放大这些偏见并在被提示使用有毒提示时返回有毒响应。模型可能生成不准确的答案,遗漏关键信息,或包含无关或冗余文本,产生社会不可接受或不受欢迎的文本,即使提示本身不包含任何明确冒犯性内容。
伦理考量
NVIDIA 认为可信赖的 AI 是共同责任,我们已制定政策和实践,以支持开发广泛的 AI 应用。开发者应与其内部模型团队合作,确保此模型满足相关行业和用例的需求,并解决未预见的滥用问题。
请确保您对所有输入图像和视频内容拥有适当的权利和权限;如果图像或视频包含人物、个人健康信息或知识产权,生成的图像或视频不会模糊或保持图像主体的比例。
请在此处报告模型质量、风险、安全漏洞或 NVIDIA AI 相关问题 (https://app.intigriti.com/programs/nvidia/nvidiavdp/detail)。
相似文章
Qwen/Qwen3.6-27B-FP8
阿里巴巴发布 Qwen3.6-27B-FP8,一款 27B 参数的 FP8 量化模型,在代理式编码与推理基准上表现强劲,现已上架 Hugging Face。
RedHatAI/Qwen3.6-35B-A3B-NVFP4
Red Hat AI 发布 NVFP4 量化的 35B MoE 版 Qwen3.6,在保持 96.28% GSM8K 精度的同时,通过 vLLM 实现 4-bit 推理。
Qwen/Qwen3.6-35B-A3B-FP8
阿里巴巴发布了Qwen3.6-35B-A3B-FP8,这是Qwen3.6的开源权重量化变体,拥有35B参数,通过MoE激活3B,具有改进的智能编码能力和保持思维链的迭代开发特性。
Qwen/Qwen3.6-35B-A3B
Qwen 发布 Qwen3.6-35B-A3B,一款开源权重的混合专家(MoE)模型,总参数量 35B,激活参数量 3B,在智能体编码和推理能力保持方面实现显著提升。
Qwen3.6-27B
阿里巴巴 Qwen 团队发布 270 亿参数新语言模型 Qwen3.6-27B,并公布基准测试结果。