最快、最大、最强:NVIDIA Blackwell 横扫 MLPerf Training 6.0
摘要
NVIDIA 的 Blackwell 平台在所有 MLPerf Training 6.0 基准测试中实现了最快的训练时间,扩展到 8,192 块 GPU,并且 GB300 NVL72 相比 GB200 NVL72 展示了高达 1.6 倍的性能提升。
<div id="bsf_rt_marker"></div><p><span style="font-weight: 400;">每一个突破性 AI 模型的诞生都始于训练过程。运行这些训练任务的基础设施决定了团队迭代的速度、可构建的模型规模以及任务的完成可靠性。</span></p>
<p><span style="font-weight: 400;">随着模型在规模、复杂性和智能水平上的增长,对训练基础设施的需求也在不断提升。</span></p>
<p><span style="font-weight: 400;">在 MLPerf Training 6.0 —— 系列严谨且经过同行评审的 AI 训练性能行业基准测试的最新版本 —— 中,NVIDIA Blackwell 平台在所有类别中均处于领先地位,展现出:</span></p>
<ul>
<li style="font-weight: 400;" aria-level="1"><span style="font-weight: 400;">每个基准测试上最快的训练时间</span></li>
<li style="font-weight: 400;" aria-level="1"><span style="font-weight: 400;">使用 NVIDIA Blackwell NVL72 系统进行最大规模的训练,覆盖 8,192 块 GPU</span></li>
<li style="font-weight: 400;" aria-level="1"><span style="font-weight: 400;">唯一一个提交了套件中全部七个基准测试的平台</span></li>
</ul>
<p><span style="font-weight: 400;">NVIDIA 通过极致的协同设计,将性能、规模和可靠性整合到一个单一平台中,使 AI 模型构建者能够更快地推出前沿模型,最小化训练成本并尽早创收。</span></p>
<h2><b>性能:每个基准测试上最快的训练时间</b></h2>
<p><span style="font-weight: 400;">MLPerf Training 6.0 在套件中新增了两个混合专家 (MoE) 预训练任务:DeepSeek-V3 671B 和 GPT-OSS-20B,反映了 MoE 架构日益增长的核心地位。NVIDIA 平台是唯一一个在所有基准测试上都有提交的平台,并且在全部七个测试中实现了最快的训练时间。</span></p>
<p><img fetchpriority="high" decoding="async" class="alignnone wp-image-94513 size-full" src="https://blogs.nvidia.com/wp-content/uploads/2026/06/end-to-end-graphics-mlperf-6.0-training-charts-5311563-v6_Slide2.jpg" alt="" width="1920" height="1080" srcset="https://blogs.nvidia.com/wp-content/uploads/2026/06/end-to-end-graphics-mlperf-6.0-training-charts-5311563-v6_Slide2.jpg 1920w, https://blogs.nvidia.com/wp-content/uploads/2026/06/end-to-end-graphics-mlperf-6.0-training-charts-5311563-v6_Slide2-960x540.jpg 960w, https://blogs.nvidia.com/wp-content/uploads/2026/06/end-to-end-graphics-mlperf-6.0-training-charts-5311563-v6_Slide2-1680x945.jpg 1680w, https://blogs.nvidia.com/wp-content/uploads/2026/06/end-to-end-graphics-mlperf-6.0-training-charts-5311563-v6_Slide2-1280x720.jpg 1280w, https://blogs.nvidia.com/wp-content/uploads/2026/06/end-to-end-graphics-mlperf-6.0-training-charts-5311563-v6_Slide2-1536x864.jpg 1536w, https://blogs.nvidia.com/wp-content/uploads/2026/06/end-to-end-graphics-mlperf-6.0-training-charts-5311563-v6_Slide2-1290x725.jpg 1290w, https://blogs.nvidia.com/wp-content/uploads/2026/06/end-to-end-graphics-mlperf-6.0-training-charts-5311563-v6_Slide2-630x354.jpg 630w, https://blogs.nvidia.com/wp-content/uploads/2026/06/end-to-end-graphics-mlperf-6.0-training-charts-5311563-v6_Slide2-300x169.jpg 300w, https://blogs.nvidia.com/wp-content/uploads/2026/06/end-to-end-graphics-mlperf-6.0-training-charts-5311563-v6_Slide2-400x225.jpg 400w" sizes="(max-width: 1920px) 100vw, 1920px" /></p>
<p><span style="font-weight: 400;">本轮,NVIDIA 在 NVIDIA GB200 NVL72 和 GB300 NVL72 机架级系统上都提交了结果。在每个机架级系统内部,第五代 NVIDIA NVLink 交换机以高带宽连接所有 72 块 GPU,形成统一的计算和内存池,使它们能够像一块巨大的 GPU 一样工作。</span></p>
<p><span style="font-weight: 400;">大规模 MoE 训练面临着与 MoE 推理相同的全对全通信挑战 —— token 必须在 GPU 之间路由才能到达正确的专家子网络 —— 而 NVLink 的带宽优势正是使其在大规模下快速高效的原因。</span></p>
<p><span style="font-weight: 400;">NVIDIA 还展示了 NVFP4 训练方法,该方法在满足严格精度要求的同时,提升了大规模和小规模预训练以及微调任务的性能。NVIDIA 继续在不同模型架构上推动低精度训练创新,最近使用 NVFP4 预训练了庞大的 5500 亿参数 NVIDIA Nemotron 3 Ultra 模型。</span></p>
<p><b>NVIDIA GB300 NVL72 性能相比 GB200 NVL72 提升高达 1.6 倍:</b><span style="font-weight: 400;">在本轮测试中,GB300 NVL72 在相同规模下比 GB200 NVL72 的训练速度提升了高达 1.6 倍。Blackwell Ultra 的关键能力,如借助 NVFP4 实现更高的计算密度、扩展的内存容量以及让 GPU 维持峰值性能的更高功耗上限,推动了这一改进。</span></p>
<p><img decoding="async" class="alignnone wp-image-94516 size-full" src="https://blogs.nvidia.com/wp-content/uploads/2026/06/end-to-end-graphics-mlperf-6.0-training-charts-5311563-v6_Slide1.jpg" alt="" width="1920" height="1080" srcset="https://blogs.nvidia.com/wp-content/uploads/2026/06/end-to-end-graphics-mlperf-6.0-training-charts-5311563-v6_Slide1.jpg 1920w, https://blogs.nvidia.com/wp-content/uploads/2026/06/end-to-end-graphics-mlperf-6.0-training-charts-5311563-v6_Slide1-960x540.jpg 960w, https://blogs.nvidia.com/wp-content/uploads/2026/06/end-to-end-graphics-mlperf-6.0-training-charts-5311563-v6_Slide1-1680x945.jpg 1680w, https://blogs.nvidia.com/wp-content/uploads/2026/06/end-to-end-graphics-mlperf-6.0-training-charts-5311563-v6_Slide1-1280x720.jpg 1280w, https://blogs.nvidia.com/wp-content/uploads/2026/06/end-to-end-graphics-mlperf-6.0-training-charts-5311563-v6_Slide1-1536x864.jpg 1536w, https://blogs.nvidia.com/wp-content/uploads/2026/06/end-to-end-graphics-mlperf-6.0-training-charts-5311563-v6_Slide1-1290x725.jpg 1290w, https://blogs.nvidia.com/wp-content/uploads/2026/06/end-to-end-graphics-mlperf-6.0-training-charts-5311563-v6_Slide1-630x354.jpg 630w, https://blogs.nvidia.com/wp-content/uploads/2026/06/end-to-end-graphics-mlperf-6.0-training-charts-5311563-v6_Slide1-300x169.jpg 300w, https://blogs.nvidia.com/wp-content/uploads/2026/06/end-to-end-graphics-mlperf-6.0-training-charts-5311563-v6_Slide1-400x225.jpg 400w" sizes="(max-width: 1920px) 100vw, 1920px" /></p>
<h2><b>规模:MLPerf Training 中最大的 Blackwell 集群</b></h2>
<p><span style="font-weight: 400;">为了支持大规模分布式训练,NVIDIA 提供了两种互补的横向扩展网络平台 —— NVIDIA Quantum InfiniBand 和 NVIDIA Spectrum-X Ethernet —— 让数据中心能够灵活构建针对其基础设施优化的大规模集群。</span></p>
<p><span style="font-weight: 400;">在套件中最大的 MoE 模型 DeepSeek-V3 671B 上,NVIDIA 使用 GB200 NVL72 系统将提交规模扩展到 8,192 块 GPU,这是迄今为止 MLPerf Training 中基于 Blackwell 的最大规模提交。</span></p>
<p><span style="font-weight: 400;">NVIDIA 还提交了结果在</span></p>
查看缓存全文
缓存时间: 2026/06/16 17:32
# 最快、最大、最强:NVIDIA Blackwell 横扫 MLPerf Training 6.0
来源:https://blogs.nvidia.com/blog/blackwell-mlperf-training-6-0/
每一个突破性 AI 模型的起点都是相同的:一次训练运行。支撑这些训练任务的基础设施决定了一切:团队迭代的速度、能构建的模型规模、以及任务能否可靠完成。
随着模型在规模、复杂度和智能水平上的增长,对训练基础设施的要求也在不断提高。
在 MLPerf Training 6.0——这是一系列严格且经同行评审的行业基准测试,用于评估 AI 训练性能——中,NVIDIA Blackwell 平台在所有类别中均处于领先地位,展示了:
- 每个基准测试中最快的训练时间
- 使用 NVIDIA Blackwell NVL72 系统在 8,192 块 GPU 上进行的最大规模训练
- 唯一在所有七项基准测试中都有提交的平台
NVIDIA 将性能、规模和可靠性整合在一个通过极致协同设计打造的单一平台中,使 AI 模型构建者能够更快地推出前沿模型,降低训练成本,并尽早开始创收。
## **性能:每个基准测试的最快训练时间**
MLPerf Training 6.0 在该套件中新增了两个混合专家(MoE)预训练工作负载:DeepSeek-V3 671B 和 GPT-OSS-20B,这反映了 MoE 架构日益增长的核心地位。NVIDIA 平台是唯一在所有基准测试中都有提交的平台,并且在全部七项基准测试中都实现了最快的训练时间。
本轮,NVIDIA 提交了基于 NVIDIA GB200 NVL72 和 GB300 NVL72 机架级系统的结果。在每个机架级系统内,第五代 NVIDIA NVLink 交换机通过高带宽将所有 72 块 GPU 连接成一个统一的计算和内存池,使它们能够像一个巨型 GPU 一样工作。
大规模 MoE 训练面临与 MoE 推理相同的全互联通信挑战——令牌必须在 GPU 之间路由,以到达正确的专家子网络——而 NVLink 的带宽优势正是实现大规模快速高效通信的关键。
NVIDIA 还展示了 NVFP4 训练方法,该方法在满足大规模和小规模预训练以及微调工作负载的严格精度要求的同时,提升了性能。NVIDIA 持续推动不同模型架构的低精度训练创新,最近还在大规模 5500 亿参数的 NVIDIA Nemotron 3 Ultra 模型上使用 NVFP4 进行预训练。
**NVIDIA GB300 NVL72 性能相较于 GB200 NVL72 提升高达 1.6 倍:** 在本轮中,GB300 NVL72 在相同规模下比 GB200 NVL72 提供了高达 1.6 倍的更快训练速度。这一提升得益于 Blackwell Ultra 的关键功能,例如通过 NVFP4 实现更高的计算密度、扩展的内存容量以及更高的功率上限,使 GPU 能够维持峰值性能。
## **规模:MLPerf Training 中最大的 Blackwell 集群**
为支持大规模分布式训练,NVIDIA 提供了两个互补的扩展网络平台——NVIDIA Quantum InfiniBand 和 NVIDIA Spectrum-X 以太网——使数据中心能够灵活构建针对其基础设施优化的大规模集群。
在 DeepSeek-V3 671B(该套件中最大的 MoE 模型)上,NVIDIA 将其提交扩展至 8,192 块 GPU(使用 GB200 NVL72 系统),这是 MLPerf Training 迄今为止规模最大的基于 Blackwell 的提交。
NVIDIA 还提交了使用 NVIDIA GB200 NVL72 系统在 5,120 块 GPU 上对 Llama 3.1 405B(该套件中最大的密集大语言模型之一)进行训练的结果。
本轮结果也反映了 NVIDIA 与其合作伙伴在系统架构、网络和软件方面的深度协同工程:
- Microsoft Azure 使用 GB200 NVL72 系统将 Llama 3.1 405B 训练扩展至 8,192 块 GPU,并在 7.07 分钟内达到参考质量目标,是该基准测试的最快训练时间。
- CoreWeave 在 DeepSeek-V3 671B 上实现了最快训练时间,使用通过 Spectrum-X 以太网连接的 GB300 NVL72 系统,在 8,192 块 GPU 规模下,于 2.02 分钟内达到质量目标。
## **大规模可靠性:为生产而构建**
在生产训练环境中,训练运行可能跨越数周或数月,涉及数十万块 GPU。在这种规模下,有效训练吞吐量既取决于系统的性能,也取决于使其随时间可复现的韧性。
上述 MLPerf Training v6.0 结果体现了 NVIDIA 平台的性能。在韧性方面,NVIDIA 平台在两个维度上进行了工程设计:
- **更少的干扰**:NVIDIA GPU 旨在防患于未然。在 GPU 到达数据中心之前,NVIDIA 会通过 30 多个制造测试阶段对其进行筛选,以尽早发现潜在故障。部署后,可靠性、可用性和可服务性引擎几乎监控整个芯片,自愈功能会在检测到故障时自动绕过,而不会中断工作负载。在网络层面,Spectrum-X 以太网可在毫秒内重路由绕过故障链路,保持网络结构健康,且不中断任务。
- **发生干扰时更快恢复**:NVIDIA 弹性扩展(NVRx)通过涵盖整个集群的故障检测、恢复和健康监控功能,最大程度减少发生故障时的损失。它能自动检测并管理性能不佳的节点,防止它们拖慢集群其余部分的速度。当某个节点发生中断时,系统不会重启整个任务,而是从最近的检查点(即训练状态的保存快照)恢复。
## **基于 NVIDIA 的前沿 AI**
NVIDIA 生态系统合作伙伴本轮也广泛参与,共有 19 个组织提交了令人瞩目的成果,包括 ASUSTeK、Microsoft Azure、Cisco、CoreWeave、Dell Technologies、Fujitsu、Giga Computing、Google Cloud、Hewlett Packard Enterprise、Inventec、Krai、Lambda、Nebius、Netweb Technologies India Ltd.、Quanta Cloud Computing (QCT)、Scitix、Supermicro 和 TTA。这些合作伙伴中有许多正在 NVIDIA 基础设施上运行一些要求最严苛的 AI 训练工作负载。
CoreWeave 将其 NVIDIA 基础设施部署在 Dell PowerRack 系统(配备 Dell PowerEdge 服务器)中,是多个此类工作负载的所在地。Cohere 在其 North 智能体 AI 平台上使用 GB200 NVL72 实现了 3 倍更快的训练。Midjourney 使用 Blackwell 集群训练了其 v8 图像生成模型,现在正在 CoreWeave 上扩展一个庞大的 Blackwell Ultra GPU 集群,用于训练即将推出的图像和视频模型。
在 Google Cloud 上,Thinking Machines Lab 在 GB300 NVL72 上相较于上一代 GPU 实现了 2 倍更快的训练和服务速度,加速了前沿模型研究和强化学习工作流程。
Nebius 在其 AI 云上运行 NVIDIA Blackwell 和 Blackwell Ultra 基础设施,使 Higgsfield 能够将模型训练时间减少 30%,支持一个现已服务 2200 万用户、每天生成超过 600 万条 AI 内容的平台。
要更深入地了解 MLPerf Training 6.0 的结果及其背后的优化,请阅读此技术博客。
相似文章
NVIDIA Blackwell 在首个自主AI基础设施基准测试中领先
NVIDIA Blackwell GB300 NVL72 平台在 Artificial Analysis 的首个自主AI基础设施基准测试 AgentPerf 中领先,每兆瓦可运行的智能体数量是上一代 Hopper 的 20 倍。
Blackwell LLM 工具包 - 针对 Blackwell GPU 的 NVFP4 配置 + Wheels + TensorRT-LLM 基准测试 - Nemotron 3 Omni 达到 270 tok/s
一个开发者工具包,提供在使用 TensorRT-LLM 通过 Nvidia Blackwell GPU 以 NVFP4 精度运行大型语言模型时的配置、预编译包(wheels)及基准测试数据。
@rohanpaul_ai: NVIDIA 刚刚发布了首个代理型 AI 基准测试结果,其中 GB300 NVL72 每兆瓦可运行多达 20 倍以上的编码代理…
NVIDIA 发布了首个代理型 AI 基准测试结果,显示 GB300 NVL72 每兆瓦可运行的编码代理数量比 H200 多出 20 倍,该测试基于 Artificial Analysis 的 AgentPerf 基准。
RTX Pro 4500 Blackwell 性能实测
一位用户分享了将 Nvidia RTX Pro 4500 Blackwell 32GB GPU 与 RTX 5060 Ti 16GB 进行 AI 推理性能对比的基准测试结果,显示根据模型大小和量化水平,速度提升了 1.6 到 6 倍。
Blackwell 与 PDL 性能提升
Llama.cpp 现已支持适用于 Blackwell GPU 的 Nvidia 程序化依赖启动 (PDL),在 Token 生成时可带来 5-10% 的性能提升。该功能默认未启用,需通过编译标志开启。