@onusoz: 16路并行 Gemma-4-26B-A4B-NVFP4 运行,每路18输出 token/s,合计300 tok/s 一台配备128GB统一内存的DGX Spark…
摘要
@onusoz 展示了在单一 DGX Spark(128GB统一内存)上运行16个并行实例的 NVIDIA 量化版 Gemma-4-26B-A4B-NVFP4 模型,合计达到300 tok/s,展示高并发能力且未使用 flashinfer。
查看缓存全文
缓存时间: 2026/06/18 14:17
16x 并行运行 Gemma-4-26B-A4B-NVFP4
18 个输出 token/秒,聚合 300 tok/s
1 台 DGX Spark,配备 128 GB 统一内存
并发度太高,我不得不以编程方式演示
甚至可以跑到 32!但这样你的屏幕就看不清了
而且这还没用上 flashinfer!如果你知道是否支持即将到来,请回复
请注意,这不是那种可以在普通笔记本上运行的傻大个 e4b 或 e2b。这是大型 Gemma MoE
模型链接:https://huggingface.co/nvidia/Gemma-4-26B-A4B-NVFP4…
nvidia/Gemma-4-26B-A4B-NVFP4 · Hugging Face
来源:https://huggingface.co/nvidia/Gemma-4-26B-A4B-NVFP4
https://huggingface.co/nvidia/Gemma-4-26B-A4B-NVFP4#model-overview模型概述
https://huggingface.co/nvidia/Gemma-4-26B-A4B-NVFP4#description描述:
Gemma 4 26B IT 是一个由 Google DeepMind 构建的开放多模态模型,可处理文本和图像输入,能够将视频作为帧序列处理,并生成文本输出。它旨在为消费级 GPU 和工作站提供推理、代理工作流、编程和多模态理解的前沿性能,具有 256K token 的上下文窗口,支持超过 140 种语言。该模型采用混合注意力机制,交织了局部滑动窗口和全局全注意力,在全局层具有统一的 Keys 和 Values,并使用 Proportional RoPE (p-RoPE) 支持长上下文性能。NVIDIA Gemma 4 26B IT NVFP4 模型是使用 NVIDIA Model Optimizer (https://github.com/NVIDIA/TensorRT-Model-Optimizer) 进行量化得到的。
该模型可用于商业/非商业用途。
https://huggingface.co/nvidia/Gemma-4-26B-A4B-NVFP4#third-party-community-consideration第三方社区注意事项
该模型并非由 NVIDIA 拥有或开发。该模型是针对此应用和用例的第三方需求开发和构建的;请参阅非 NVIDIA Gemma 4 26B IT 模型卡 (https://huggingface.co/google/gemma-4-26B-A4B-it) 的链接。
https://huggingface.co/nvidia/Gemma-4-26B-A4B-NVFP4#license-and-terms-of-use许可和使用条款:
Apache License 2.0 | Gemma | Google AI for Developers (https://ai.google.dev/gemma/apache_2)
https://huggingface.co/nvidia/Gemma-4-26B-A4B-NVFP4#deployment-geography部署地区:
全球
https://huggingface.co/nvidia/Gemma-4-26B-A4B-NVFP4#use-case用例:
用例: 设计用于文本生成、聊天机器人和对话式 AI、文本摘要、图像数据提取、推理、编程、多模态理解、函数调用以及研究或教育用途。
https://huggingface.co/nvidia/Gemma-4-26B-A4B-NVFP4#release-date发布日期:
Hugging Face [04/30/2026] 通过 https://huggingface.co/nvidia/Gemma-4-26B-A4B-NVFP4
https://huggingface.co/nvidia/Gemma-4-26B-A4B-NVFP4#model-architecture模型架构:
属性26B A4B MoE架构类型: Transformers总参数量25.2B激活参数量3.8B层数30滑动窗口1024 tokens上下文长度256K tokens词汇量262K专家数量8 激活 / 128 总 + 1 共享支持模态文本,图像视觉编码器参数量约550M 26B A4B 中的 “A” 指的是“激活参数“,与模型包含的总参数相对应。
https://huggingface.co/nvidia/Gemma-4-26B-A4B-NVFP4#input输入:
输入类型: 处理文本、图像(支持可变宽高比和分辨率,所有型号)、视频和音频(E2B 和 E4B 型号原生支持)。输入格式: 字符串,红绿蓝 (RGB),视频 (MP4/WebM) 输入参数: 一维 (1D),二维 (2D),三维 (3D) 输入其他属性: 支持可变图像宽高比和分辨率,可配置的视觉 token 预算 (70, 140, 280, 560, 1120),以及每秒一帧最长 60 秒的视频输入。输入上下文长度 (ISL): 256K
https://huggingface.co/nvidia/Gemma-4-26B-A4B-NVFP4#output输出:
输出类型: 文本 输出格式: 字符串 输出参数: 1D (一维): 序列 输出其他属性: 为聊天、推理、编程、多模态理解和函数调用工作流生成文本响应。当启用思考时,模型也会输出推理 token。
我们的 AI 模型设计/优化用于在 NVIDIA GPU 加速系统上运行。通过利用 NVIDIA 的硬件(例如 GPU 核心)和软件框架(例如 CUDA 库),与纯 CPU 解决方案相比,该模型实现了更快的训练和推理时间。
https://huggingface.co/nvidia/Gemma-4-26B-A4B-NVFP4#software-integration软件集成:
支持的运行时引擎:
- vLLM
支持的硬件微架构兼容性: NVIDIA Blackwell
首选操作系统:
- Linux
https://huggingface.co/nvidia/Gemma-4-26B-A4B-NVFP4#model-versions模型版本:
模型版本为 v1.0,使用 nvidia-modelopt v0.43.0 进行 NVFP4 量化。
https://huggingface.co/nvidia/Gemma-4-26B-A4B-NVFP4#training-testing-and-evaluation-datasets训练、测试和评估数据集:
我们使用下面列出的数据集进行模型校准,并使用评估数据集部分列出的基准进行评估。我们没有为此 Model Optimizer 发布版本进行训练或测试。下面训练和测试数据集部分中注明的方法代表了第三方用于训练和测试底层 Gemma 4 26B IT 模型的数据收集和标注方法。
https://huggingface.co/nvidia/Gemma-4-26B-A4B-NVFP4#calibration-dataset校准数据集:
链接: cnn_dailymail (https://huggingface.co/datasets/abisee/cnn_dailymail) , Nemotron-Post-Training-Dataset-v2 (https://huggingface.co/datasets/nvidia/Nemotron-Post-Training-Dataset-v2) 按数据集划分的数据收集方法: 自动。按数据集划分的标注方法: 自动。属性: cnn_dailymail 数据集包含英文新闻文章和摘要。Nemotron-Post-Training-Dataset-v2 是 NVIDIA 整理的训练后数据集,包含跨多种主题的多轮对话。
训练数据集****数据模态: 文本、图像、音频、其他(代码)训练数据收集: 自动 训练标注: 未公开 训练属性: 大规模多模态预训练数据,涵盖网页文档、代码、图像和音频,截止日期为 2025 年 1 月,覆盖超过 140 种语言。数据经过 CSAM、敏感数据、质量和安全过滤。
测试数据集****测试数据收集: 未公开 测试标注: 未公开 测试属性: 未公开
https://huggingface.co/nvidia/Gemma-4-26B-A4B-NVFP4#evaluation-dataset评估数据集:
按数据集划分的数据收集方法: 混合:人工、自动 按数据集划分的标注方法: 混合:人工、自动 属性: 我们在基于文本的推理和编程基准上评估了模型:MMLU Pro 是一个多任务语言理解基准,包含跨多个学术领域的具有挑战性的多项选择题;LiveCodeBench V6 包含竞赛编程问题;SciCode 评估科学编程能力;IFEval 是一个测试语言模型是否能够遵循内容生成提示中明确、可验证的格式和结构约束的基准;GPQA Diamond 包含 448 个由生物学、物理学和化学领域专家编写的研究生级多项选择题;AIME 2025 包含来自美国邀请数学考试的问题;IFBench 是一个用于评估跨多样化结构化任务约束的指令遵循能力的基准。
https://huggingface.co/nvidia/Gemma-4-26B-A4B-NVFP4#inference推理:
引擎: vLLM 测试硬件: B200
https://huggingface.co/nvidia/Gemma-4-26B-A4B-NVFP4#post-training-quantization训练后量化
该模型是通过将 Gemma-4-26B-IT-NVFP4 的权重和激活量化为 NVFP4 数据类型(使用 nvfp4_experts_only 方案)而获得,准备好用于 vLLM 推理。
https://huggingface.co/nvidia/Gemma-4-26B-A4B-NVFP4#usage使用
目前,对于该模型,vllm 仅支持 TP=1,它支持 EP,但在 vLLM (https://github.com/vllm-project/vllm/issues/39595) 和 Flashinfer (https://github.com/flashinfer-ai/flashinfer/issues/3206) 中有一个开放问题。此外,当前的 MoE 后端是 VLLM_CUTLASS 或 Marlin,要使用 Flashinfer-TRTLLM,在 vLLM 中有一个开放的 PR (https://github.com/vllm-project/vllm/pull/41050)。
要使用 vLLM (https://hub.docker.com/layers/vllm/vllm-openai/v0.20.0/images/sha256-77797441eae630c2e79eefa03957b3d61a278670f2a9928d64ce102e7a0790cc) 服务此检查点,并运行下面的示例命令。
vllm serve nvidia/Gemma-4-26B-A4B-NVFP4 \ --tool-call-parser gemma4 \ --reasoning-parser gemma4 \ --enable-auto-tool-choice \ --trust-remote-code
https://huggingface.co/nvidia/Gemma-4-26B-A4B-NVFP4#evaluation-results评估结果:
基准基线(全精度)NVFP4GPQA Diamond80.30%79.90%AIME 202588.95%90.00%MMLU Pro85.00%84.80%LiveCodeBench (pass@1)80.50%79.80%IFBench77.77%78.1%IFEval96.60%96.40%
基线:Gemma-4-26B-A4B-it-bf16 (https://huggingface.co/google/gemma-4-26B-A4B-it) 以 temperature=1.0, top_p=0.95, max_new_tokens=131072 进行基准测试
https://huggingface.co/nvidia/Gemma-4-26B-A4B-NVFP4#model-limitations模型局限性:
基础模型是在包含有毒语言和社会偏见的互联网爬取数据上训练的。因此,模型可能会放大这些偏见,尤其是在被触发时返回有害响应。模型可能生成不准确的答案、省略关键信息,或包含无关或冗余文本,产生社会不可接受或不受欢迎的文本,即使提示本身不包含明显的冒犯性内容。
https://huggingface.co/nvidia/Gemma-4-26B-A4B-NVFP4#ethical-considerations伦理考量
NVIDIA 认为可信赖的 AI 是共同责任,我们已建立政策和实践以支持广泛 AI 应用的开发。当您根据服务条款下载或使用时,开发者应与其内部模型团队合作,确保此模型满足相关行业和用例的要求,并解决不可预见的产品滥用问题。
请确保您对所有输入图像和视频内容拥有适当的权利和权限;如果图像或视频包含人物、个人健康信息或知识产权,则生成的图像或视频不会模糊或保持图像主体的比例。
请在此举报模型质量、风险、安全漏洞或 NVIDIA AI 关切 (https://www.nvidia.com/en-us/support/submit-security-vulnerability/)。
相似文章
@antirez: DS4 正在 DGX Spark (GB10 / CUDA) 上运行,目前为私有分支。12 tokens/sec,此系统的内存带宽受限……
Antirez 报告了在 DGX Spark (GB10) 上对 DS4 推理进行的基准测试,指出生成速度为 12 tokens/sec,预填充性能较高,并计划在该代码库成熟后将其合并。
Gemma 4 26B 在单块 RTX 5090 上达到 600 Tok/s
一项基准测试显示,使用 vLLM 搭配 DFlash 投机解码,在单块 RTX 5090 上将 Gemma 4 26B 的推理速度提升至约 578 tokens/s,相比基线实现了 2.56 倍的加速。
@leopardracer: GEMMA 4 26B 在 RTX 4060 上运行,拥有 248K Token 上下文窗口,每秒 20 个 Token,上下文窗口大得可以……
Gemma 4 26B 在 RTX 4060 上运行,通过 llama.cpp 和 Q4_K_XL 量化实现 248K Token 上下文和每秒 20 Token 的速度,从而在消费级硬件上本地处理整个代码库。
@analogalok: Gemma 4 12B QAT(密集)在8GB显存和120k上下文下实现超过1000 tokens/秒的预填充速度 Gemma 4 12B QAT(密集),TurboQ…
Gemma 4 12B QAT(密集)使用TurboQuant在8GB RTX 4060上实现超过1000 tokens/秒的预填充速度,支持120k上下文,实现完整的GPU层卸载。相比之前的方法,预填充速度提升了42%。
DGX Spark 智能体使用数据
一位用户分享了在 NVIDIA DGX Spark 上使用 vLLM 运行 Qwen3.6 模型的基准测试结果和配置,重点关注包含并发请求和工具调用的智能体工作负载。