nvidia/Qwen3.6-35B-A3B-NVFP4 · Hugging Face

Reddit r/LocalLLaMA 模型

摘要

NVIDIA发布了Qwen3.6-35B-A3B-NVFP4,这是阿里巴巴混合专家多模态语言模型的量化版本,使用Model Optimizer优化以在NVIDIA GPU上部署。

NVIDIA Qwen3.6-35B-A3B-NVFP4 模型是阿里巴巴 Qwen3.6-35B-A3B 模型的量化版本,该模型是一种采用优化 Transformer 架构的自回归语言模型。更多信息请查看 [这里](https://huggingface.co/Qwen/Qwen3.6-35B-A3B)。NVIDIA Qwen3.6-35B-A3B-NVFP4 模型使用 [Model Optimizer](https://github.com/NVIDIA/Model-Optimizer) 进行了量化。 # 训练后量化 该模型是通过将 Qwen3.6-35B-A3B 的权重量化为 NVFP4 数据类型而获得的,可直接用于 vLLM 推理。仅对 MoE 中 transformer 块内的线性算子的权重和激活进行了量化。此优化将每个参数的位数从 16 位减少到 4 位,从而将磁盘大小和 GPU 内存需求降低约 3.06 倍。 # 评估 精度基准测试结果如下表所示: |**精度**|**MMLU Pro**|**GPQA Diamond**|**τ²-Bench Telecom**|**SciCode**|**AIME 2025**|**AA-LCR**|**IFBench**|**MMMU PRO**| |:-|:-|:-|:-|:-|:-|:-|:-|:-| |BF16|**85.6**|**84.9**|**95.5**|**40.8**|**89.2**|**62.0**|**62.3**|**74.1**| |NVFP4|**85.0**|**84.8**|**94.7**|**40.6**|**88.8**|**62.0**|**62.8**|**74.5**|
查看原文
查看缓存全文

缓存时间: 2026/05/30 19:22

nvidia/Qwen3.6-35B-A3B-NVFP4 · Hugging Face

来源:https://huggingface.co/nvidia/Qwen3.6-35B-A3B-NVFP4

模型概述

描述:

NVIDIA Qwen3.6-35B-A3B-NVFP4 模型是阿里巴巴 Qwen3.6-35B-A3B 模型的量化版本,该模型是一种采用优化 Transformer 架构的自回归语言模型。更多信息请查看此处 (https://huggingface.co/Qwen/Qwen3.6-35B-A3B)。NVIDIA Qwen3.6-35B-A3B-NVFP4 模型使用 Model Optimizer (https://github.com/NVIDIA/Model-Optimizer) 进行量化。

该模型可用于商业/非商业用途。

第三方社区注意事项

此模型并非 NVIDIA 拥有或开发。此模型是根据第三方对此应用和用例的要求开发构建的;请参见阿里巴巴的非 NVIDIA(Qwen3.6-35B-A3B)模型卡片链接 (https://huggingface.co/Qwen/Qwen3.6-35B-A3B)。

参考文献

NVIDIA Model Optimizer:https://github.com/NVIDIA/Model-Optimizer

许可/使用条款:

Apache 许可证 2.0 (https://huggingface.co/Qwen/Qwen3.6-35B-A3B/blob/main/LICENSE)

部署地域:

全球

用例:

适合希望使用现成预量化模型,部署到 AI 智能体系统、聊天机器人、RAG 系统及其他 AI 驱动应用中的开发者。

发布日期:

2026 年 5 月 28 日通过 https://huggingface.co/nvidia/Qwen3.6-35B-A3B-NVFP4 发布到 Hugging Face

模型架构:

架构类型: Transformers 网络架构: 混合专家(MoE)与混合注意力 模型参数数量: 总计 35B,激活 3B

输入:

输入类型: 文本、图像、视频 输入格式: 字符串、红绿蓝(RGB)、视频(MP4/WebM) 输入参数: 一维(1D)、二维(2D)、三维(3D) 输入相关其他属性: 上下文长度最高 262K

输出:

输出类型: 文本 输出格式: 字符串 输出参数: 一维(1D):序列 输出相关其他属性:

我们的 AI 模型被设计或优化为在 NVIDIA GPU 加速系统上运行。通过利用 NVIDIA 的硬件(如 GPU 核心)和软件框架(如 CUDA 库),与纯 CPU 解决方案相比,该模型实现了更快的训练和推理时间。

软件集成:

支持的运行时引擎:

  • vLLM

支持的硬件微架构兼容性:

  • NVIDIA Hopper, NVIDIA Blackwell

首选操作系统:

  • Linux

将基础模型和微调模型集成到 AI 系统中需要针对特定用例的数据进行额外测试,以确保安全有效部署。遵循 V 模型方法论,在单元和系统层面进行迭代测试和验证至关重要,以降低风险,满足技术和功能需求,并在部署前确保符合安全与伦理标准。

模型版本:

模型版本为 NVFP4 1.0,使用 nvidia-modelopt v0.44.0 进行量化

训练和评估数据集:

标定数据集:

链接: cnn_dailymail (https://huggingface.co/datasets/abisee/cnn_dailymail),Nemotron-Post-Training-Dataset-v2 (https://huggingface.co/datasets/nvidia/Nemotron-Post-Training-Dataset-v2) 数据收集方法(按数据集): 自动。标注方法(按数据集): 自动。属性: cnn_dailymail 数据集是英文数据集,包含超过 30 万篇由 CNN 和每日邮报记者撰写的独特新闻文章。Nemotron-Post-Training-Dataset-v2 是由 NVIDIA 策划的后训练数据集,包含跨多种主题的多轮对话。

训练数据集:

数据模态: 未公开 数据收集方法(按数据集): 未公开 标注方法(按数据集): 未公开 数据大小: 未公开 属性: 未公开

评估数据集:

数据集: MMLU Pro, GPQA Diamond, τ2-Bench Telecom, MMMU Pro, SciCode, AIME 2025, AA-LCR, IFBench 数据收集方法(按数据集): 混合:自动、人工 标注方法(按数据集): 混合:人工、自动 属性: 我们在基于文本的推理和编码基准上评估了模型:MMLU Pro 是一个多任务语言理解基准,包含跨多个学术领域的具有挑战性的多选题;GPQA Diamond 包含 448 个由生物学、物理和化学领域专家编写的研究生级多选题;τ2-Bench Telecom 评估在双控电信客服场景中的智能体工具使用和策略遵守能力,模型需与模拟用户和外部工具交互来解决账户问题;MMMU Pro 是大规模多学科多模态理解基准的更具挑战性版本,测量大学级别的多模态推理能力,包含扩展答案选项和纯视觉输入设置;SciCode 评估科学编码能力;AIME 2025 包含美国数学邀请赛的题目;AA-LCR(人工分析长上下文召回)评估模型从长输入上下文中准确检索和召回信息的能力;IFBench 是一个评估指令遵循能力的基准,涵盖多样化和结构化的任务约束。

推理:

加速引擎: vLLM 测试硬件: NVIDIA GB300

训练后量化

该模型通过将 Qwen3.6-35B-A3B 的权重量化为 NVFP4 数据类型获得,可用于 vLLM 推理。仅量化 MoE 中 Transformer 块内线性算子的权重和激活。此优化将每参数位数从 16 位减少到 4 位,将磁盘大小和 GPU 内存需求降低约 3.06 倍。

使用

要使用 vLLM (https://github.com/vllm-project/vllm) 提供此检查点,可以启动 docker vllm/vllm\-openai:nightly 并运行以下示例命令:

vllm serve nvidia/Qwen3.6-35B-A3B-NVFP4 --port 8000 --quantization modelopt --max-model-len 262144 --reasoning-parser qwen3

对于 NVIDIA DGX Spark,建议设置以下环境变量并使用此 vllm serve 命令:

`` export VLLM_USE_FLASHINFER_MOE_FP4=0 export VLLM_FP8_MOE_BACKEND=flashinfer_cutlass export FLASHINFER_DISABLE_VERSION_CHECK=1 export CUTE_DSL_ARCH=sm_121a

vllm serve nvidia/Qwen3.6-35B-A3B-NVFP4 –port 8000 –tensor-parallel-size 1 –trust-remote-code –dtype auto –quantization modelopt –kv-cache-dtype fp8 –attention-backend flashinfer –moe-backend marlin –gpu-memory-utilization 0.85 –max-model-len 65536 –max-num-seqs 4 –max-num-batched-tokens 8192 –enable-chunked-prefill –async-scheduling –enable-prefix-caching –speculative-config ‘{“method”:“mtp”,“num_speculative_tokens”:3,“moe_backend”:“triton”}’ ``

评估

精度基准结果如下表所示:

精度MMLU ProGPQA Diamondτ2-Bench TelecomSciCodeAIME 2025AA-LCRIFBenchMMMU PRO
BF1685.684.995.540.889.262.062.374.1
NVFP485.084.894.740.688.862.062.874.5

基线:Qwen3.6-35B-A3B (https://huggingface.co/Qwen/Qwen3.6-35B-A3B)。SciCode 使用 temperature=0.6, top_p=0.95, max num tokens 131072;其他使用 temperature=1.0, top_p=0.95, max num tokens 131072

模型局限性:

基础模型在包含有毒语言和社会偏见的数据上训练,这些数据最初从互联网爬取。因此,模型可能会放大这些偏见并在被提示使用有毒提示时返回有毒响应。模型可能生成不准确的答案,遗漏关键信息,或包含无关或冗余文本,产生社会不可接受或不受欢迎的文本,即使提示本身不包含任何明确冒犯性内容。

伦理考量

NVIDIA 认为可信赖的 AI 是共同责任,我们已制定政策和实践,以支持开发广泛的 AI 应用。开发者应与其内部模型团队合作,确保此模型满足相关行业和用例的需求,并解决未预见的滥用问题。

请确保您对所有输入图像和视频内容拥有适当的权利和权限;如果图像或视频包含人物、个人健康信息或知识产权,生成的图像或视频不会模糊或保持图像主体的比例。

请在此处报告模型质量、风险、安全漏洞或 NVIDIA AI 相关问题 (https://app.intigriti.com/programs/nvidia/nvidiavdp/detail)。

相似文章

Qwen/Qwen3.6-27B-FP8

Hugging Face Models Trending

阿里巴巴发布 Qwen3.6-27B-FP8,一款 27B 参数的 FP8 量化模型,在代理式编码与推理基准上表现强劲,现已上架 Hugging Face。

RedHatAI/Qwen3.6-35B-A3B-NVFP4

Hugging Face Models Trending

Red Hat AI 发布 NVFP4 量化的 35B MoE 版 Qwen3.6,在保持 96.28% GSM8K 精度的同时,通过 vLLM 实现 4-bit 推理。

Qwen/Qwen3.6-35B-A3B-FP8

Hugging Face Models Trending

阿里巴巴发布了Qwen3.6-35B-A3B-FP8,这是Qwen3.6的开源权重量化变体,拥有35B参数,通过MoE激活3B,具有改进的智能编码能力和保持思维链的迭代开发特性。

Qwen/Qwen3.6-35B-A3B

Hugging Face Models Trending

Qwen 发布 Qwen3.6-35B-A3B,一款开源权重的混合专家(MoE)模型,总参数量 35B,激活参数量 3B,在智能体编码和推理能力保持方面实现显著提升。

Qwen3.6-27B

Reddit r/LocalLLaMA

阿里巴巴 Qwen 团队发布 270 亿参数新语言模型 Qwen3.6-27B,并公布基准测试结果。