NVIDIA Blackwell 在首个自主AI基础设施基准测试中领先
摘要
NVIDIA Blackwell GB300 NVL72 平台在 Artificial Analysis 的首个自主AI基础设施基准测试 AgentPerf 中领先,每兆瓦可运行的智能体数量是上一代 Hopper 的 20 倍。
<div id="bsf_rt_marker"></div><p><span style="font-weight: 400;">Artificial Analysis 的 AgentPerf 是业界首个自主AI基准测试,为开发者、企业和基础设施提供商提供了一种清晰的方式,用于比较自主AI系统。在首轮公布的结果中,</span><a target="_blank" href="https://www.nvidia.com/en-us/data-center/technologies/blackwell-architecture/"><span style="font-weight: 400;">NVIDIA Blackwell Ultra NVL72</span></a><span style="font-weight: 400;"> 平台在所测试的自主AI工作负载上展现了领先性能,每兆瓦可运行的智能体数量是 NVIDIA Hopper 的 20 倍。</span></p>
<p><span style="font-weight: 400;">自主AI与对话式AI的工作负载本质不同。一次单独的聊天完成就像短跑:一次大语言模型(LLM)调用,一次回复。而智能体的运作更像接力赛:它将目标分解为多个步骤,并持续进行直到任务完成。</span></p>
<figure id="attachment_94457" aria-describedby="caption-attachment-94457" style="width: 16339px" class="wp-caption alignnone"><img fetchpriority="high" decoding="async" class="wp-image-94457 size-full" src="https://blogs.nvidia.com/wp-content/uploads/2026/06/Agentic-Pipeline_v1-2.png" alt="" width="16339" height="8097" /><figcaption id="caption-attachment-94457" class="wp-caption-text">智能体将多次LLM调用和工具调用串联起来,以收集上下文、观察、推理和行动。</figcaption></figure>
<p><span style="font-weight: 400;">这导致数十到数百次LLM调用被串联起来,每次都将不断增长的上下文传递给下一次,每次交接时还涉及代码编译和执行、数据库搜索、网页浏览等工具调用。复杂性不是相加的,而是相乘的。</span></p>
<p><span style="font-weight: 400;">这种区别对性能测量至关重要。现有的AI推理基准测试测量的是单次LLM调用:LLM对单个请求的响应速度以及系统能同时处理多少请求。它们并非为自主工作负载而设计,在这些工作负载中,链式LLM调用、工具调用延迟和不断增长的上下文对加速计算系统造成的压力,与单次LLM调用完全不同。</span></p>
<p><span style="font-weight: 400;">对于大规模构建和部署智能体的公司来说,了解智能体的响应速度、可同时部署的数量以及AI基础设施每投入一美元和每瓦特能完成多少有用工作至关重要。</span></p>
<h2><b>NVIDIA GB300 NVL72 每兆瓦运行 20 倍智能体</b></h2>
<p><span style="font-weight: 400;">在首轮测试中,AgentPerf 使用</span><a target="_blank" href="https://artificialanalysis.ai/models/deepseek-v4-pro/providers"><span style="font-weight: 400;">DeepSeek V4 Pro</span></a><span style="font-weight: 400;"> 测量自主性能,该模型是一个大型混合专家(MoE)模型,代表了驱动当今最强大智能体的前沿模型类别。在此工作负载上,NVIDIA GB300 NVL72 在基准测试中取得了最高性能,每兆瓦可运行的智能体数量是 NVIDIA HGX H200 系统的 20 倍。</span></p>
<figure id="attachment_94444" aria-describedby="caption-attachment-94444" style="width: 1996px" class="wp-caption alignnone"><img decoding="async" class="wp-image-94444 size-full" src="https://blogs.nvidia.com/wp-content/uploads/2026/06/agentperf-blackwell-graph-1.jpg" alt="" width="1996" height="1113" srcset="https://blogs.nvidia.com/wp-content/uploads/2026/06/agentperf-blackwell-graph-1.jpg 1996w, https://blogs.nvidia.com/wp-content/uploads/2026/06/agentperf-blackwell-graph-1-960x535.jpg 960w, https://blogs.nvidia.com/wp-content/uploads/2026/06/agentperf-blackwell-graph-1-1680x937.jpg 1680w, https://blogs.nvidia.com/wp-content/uploads/2026/06/agentperf-blackwell-graph-1-1280x714.jpg 1280w, https://blogs.nvidia.com/wp-content/uploads/2026/06/agentperf-blackwell-graph-1-1536x856.jpg 1536w, https://blogs.nvidia.com/wp-content/uploads/2026/06/agentperf-blackwell-graph-1-630x351.jpg 630w" sizes="(max-width: 1996px) 100vw, 1996px" /><figcaption id="caption-attachment-94444" class="wp-caption-text">在每智能体每秒20和60 tokens的服务级目标下,NVIDIA GB300 NVL72 每兆瓦支持的并发智能体数量远超 NVIDIA H200。</figcaption></figure>
<p><span style="font-weight: 400;">这一性能优势源于全栈的极致协同设计。GB300 NVL72 将72块GPU连接到一个机架级系统中,使得 DeepSeek V4 Pro 等大型MoE模型能够高效地大规模分布执行模型。</span></p>
<p><span style="font-weight: 400;">CUDA内核通过重叠通信和计算进一步加速,从而将跨专家协调的成本吸收掉,而不是增加延迟。</span></p>
<p><span style="font-weight: 400;">NVIDIA TensorRT LLM 在并发智能体会话扩展时保持效率。例如,它将输入处理与输出生成分离,以便各自独立优化。</span></p>
<p><span style="font-weight: 400;">这些结果基于从头构建的基准测试方法,以反映自主AI在生产中的实际工作方式。</span></p>
<h2><b>Artificial Analysis AgentPerf:基于真实世界的自主工作负载构建</b></h2>
<p><span style="font-weight: 400;">AgentPerf 基于真实的编码智能体轨迹构建:智能体接收任务、读取文件、编写和编辑代码、执行命令,并根据结果进行迭代——所有这些都来自超过12种编程语言的真实公共代码仓库。长序列长度、工具调用模式和延迟均代表真实的编码工作流程。</span></p>
<p><span style="font-weight: 400;">AgentPerf 随后测量一个平台在满足定义的响应时间和输出token速率性能阈值的情况下,能同时支持多少此类自主任务。工具调用并不实际执行,而是使用代表性的CPU处理时间进行模拟,因此结果的差异仅反映加速计算性能。</span></p>
<p><span style="font-weight: 400;">这些结果直接转化为基础设施决策:每个加速器和每兆瓦功率可运行多少并发自主任务。对于大规模部署AI智能体的企业,这些数字决定了给定基础设施投资实际能带来多少生产性工作。</span></p>
<h2><b>NVIDIA生态系统合作伙伴利用Blackwell的领先性能</b></h2>
<p><span style="font-weight: 400;">包括 Baseten、DeepInfra 和 Together AI 在内的领先推理提供商,已经在 NVIDIA Blackwell 上为</span><a target="_blank" href="https://artificialanalysis.ai/models/deepseek-v4-pro/providers"><span style="font-weight: 400;">DeepSeek V4 Pro</span></a><span style="font-weight: 400;"> 等前沿模型提供自主工作负载服务,并在今天为生产级自主应用提供动力。</span></p>
<p><a target="_blank" href="https://www.together.ai/blog/learn-how-cursor-partnered-with-together-ai-to-deliver-real-time-low-latency-inference-at-scale"><span style="font-weight: 400;">Together AI 在 NVIDIA Blackwell 上为 Cursor</span></a><span style="font-weight: 400;">(一个AI驱动的自主编码平台)提供实时推理。Cursor 的智能体在开发者继续工作的同时,调试问题、生成功能并执行重构。</span></p>
<p><span style="font-weight: 400;">DeepInfra 为</span><a target="_blank" href="https://pam.ai"><span style="font-weight: 400;">Pam.ai</span></a><span style="font-weight: 400;">(一个面向汽车经销商的AI劳动力平台)提供支持,该平台部署智能体来预订服务预约、处理电话和运行外呼销售活动,全部基于 NVIDIA Blackwell。</span></p>
<p><span style="font-weight: 400;">随着 NVIDIA 和开源生态系统继续</span></p>
查看缓存全文
缓存时间: 2026/06/14 00:17
# NVIDIA Blackwell 在首个智能体 AI 基础设施基准测试中领跑
来源:https://blogs.nvidia.com/blog/nvidia-blackwell-agentperf-artificial-analysis/
Artificial Analysis 推出的 AgentPerf 是业界首个智能体 AI 基准测试,为开发者、企业和基础设施提供商提供了一种清晰的方式,用于比较智能体 AI 系统。在首轮发布的结果中,基于 NVIDIA Blackwell Ultra NVL72 (https://www.nvidia.com/en-us/data-center/technologies/blackwell-architecture/) 平台在测试的智能体 AI 工作负载中表现出领先性能,每兆瓦可运行的智能体数量是 NVIDIA Hopper 的 20 倍。
智能体 AI 与对话式 AI 是截然不同的工作负载。一次简单的聊天补全就像短跑:一次大语言模型(LLM)调用,一次响应。而智能体更像接力赛:它将一个目标分解为多个步骤,持续执行直至任务完成。
智能体将多个 LLM 调用与工具调用串联起来,用于收集上下文、观察、推理和行动。这导致数十到数百次 LLM 调用被链接在一起,每次调用都将不断增长的上下文传递给下一次调用,并在每次交接时进行代码编译与执行、数据库搜索和网页浏览等工具调用。其复杂性不是相加的,而是相乘的。
这种区别对于性能测量至关重要。现有 AI 推理基准测试衡量的是单次 LLM 调用:LLM 对单个请求的响应速度以及系统能同时处理多少个请求。它们并非为智能体工作负载而设计——在智能体工作负载中,链式 LLM 调用、工具调用延迟和不断增长的上下文,对加速计算系统的压力与单次 LLM 调用完全不同。
对于大规模构建和部署智能体的企业来说,了解智能体的响应速度、可同时部署的数量以及每美元和每瓦特投资能带来多少有用工作,至关重要。
## **NVIDIA GB300 NVL72 每兆瓦可运行 20 倍智能体**
在首轮测试中,AgentPerf 使用 DeepSeek V4 Pro (https://artificialanalysis.ai/models/deepseek-v4-pro/providers) 来衡量智能体性能。这是一个大型混合专家(MoE)模型,代表了驱动当今最强大智能体的前沿模型类别。在此工作负载下,NVIDIA GB300 NVL72 在基准测试中实现了最高性能,每兆瓦可运行的智能体数量是 NVIDIA HGX H200 系统的 20 倍。
在每秒每个智能体 20 和 60 token 的服务级别目标下,NVIDIA GB300 NVL72 每兆瓦支持的并发智能体数量远高于 NVIDIA H200。这种性能优势源于全栈的极致协同设计。GB300 NVL72 将 72 个 GPU 连接成一个机架级系统,使得像 DeepSeek V4 Pro 这样的大型 MoE 模型能够高效地大规模分布执行。
CUDA 内核通过重叠通信与计算进一步加速,因此跨专家协调的成本被吸收,而非增加延迟。
NVIDIA TensorRT LLM 在并发智能体会话扩展时保持高效。例如,它将输入处理与输出生成分离,使两者可以分别独立优化。
这些结果建立在从头构建的基准测试方法之上,该方法反映了智能体 AI 在实际生产中的工作方式。
## **Artificial Analysis AgentPerf:基于真实世界智能体工作负载构建**
AgentPerf 基于真实的编码智能体轨迹构建:智能体接收任务、读取文件、编写和编辑代码、执行命令并根据结果迭代——所有数据均来自超过 12 种编程语言的真实公共代码仓库。其长序列长度、工具调用模式和延迟均代表真实编码工作流。
然后,AgentPerf 测量一个平台在满足定义的响应速度和输出 token 速率性能阈值的同时,能同时支持多少此类智能体任务。工具调用不会实际执行,而是使用代表性的 CPU 处理时间进行模拟,因此结果的差异仅反映加速计算性能。
结果直接转化为基础设施决策:每个加速器和每兆瓦功率可运行多少并发智能体任务。对于大规模部署 AI 智能体的企业来说,这些数字决定了特定基础设施投资能实际带来多少有效工作。
## **NVIDIA 生态系统合作伙伴利用 Blackwell 的领先性能**
包括 Baseten、DeepInfra 和 Together AI 在内的领先推理提供商,已在 NVIDIA Blackwell 上为 DeepSeek V4 Pro (https://artificialanalysis.ai/models/deepseek-v4-pro/providers) 等前沿模型提供智能体工作负载服务,并推动生产级智能体应用的发展。
Together AI 在 NVIDIA Blackwell 上为基于 AI 的智能体编码平台 Cursor (https://www.together.ai/blog/learn-how-cursor-partnered-with-together-ai-to-deliver-real-time-low-latency-inference-at-scale) 提供实时推理支持。Cursor 的智能体在开发者继续工作的同时,调试问题、生成功能并执行重构。
DeepInfra 为汽车经销商的 AI 劳动力平台 Pam.ai (https://pam.ai/) 提供支持,该平台部署智能体来预约服务、处理电话以及运行外呼销售活动,全部基于 NVIDIA Blackwell。
随着 NVIDIA 和开源生态系统持续优化推理软件,智能体工作负载的性能和效率只会不断提高。NVIDIA Vera Rubin 架构现已全面投入生产,为满足大规模智能体 AI 日益增长的需求带来了下一代基础设施容量。
*深入了解 AgentPerf 的方法论以及 NVIDIA 为智能体 AI 提供的全栈优化,请参阅此技术博客 (https://developer.nvidia.com/blog/nvidia-achieves-leading-agentic-coding-performance-on-first-agentic-ai-benchmark/)。*
相似文章
@rohanpaul_ai: NVIDIA 刚刚发布了首个代理型 AI 基准测试结果,其中 GB300 NVL72 每兆瓦可运行多达 20 倍以上的编码代理…
NVIDIA 发布了首个代理型 AI 基准测试结果,显示 GB300 NVL72 每兆瓦可运行的编码代理数量比 H200 多出 20 倍,该测试基于 Artificial Analysis 的 AgentPerf 基准。
最快、最大、最强:NVIDIA Blackwell 横扫 MLPerf Training 6.0
NVIDIA 的 Blackwell 平台在所有 MLPerf Training 6.0 基准测试中实现了最快的训练时间,扩展到 8,192 块 GPU,并且 GB300 NVL72 相比 GB200 NVL72 展示了高达 1.6 倍的性能提升。
@CNET:Nvidia GTC 2026,黄仁勋谈“AI原生”投资
Supermicro 与 NVIDIA 发布交钥匙“AI Factory”参考架构,整合 Blackwell GPU、认证服务器、网络、存储与部署服务,让企业更快搭建集群级 AI 基础设施。
HPE与NVIDIA的AI工厂面向智能体时代扩展
NVIDIA与HPE正在扩展其AI工厂合作,推出用于智能体AI的NVIDIA Vera CPU、用于HPE Private Cloud AI的NVIDIA Agent Toolkit,以及在整个产品组合中部署NVIDIA机密计算,助力企业将智能体AI投入生产。
@mr_r0b0t: 16个本地AI代理同时流式传输!MiniMax M2.7 NVFP4 — 2x GB10,没有云API。
演示展示了使用MiniMax M2.7 NVFP4在两个Nvidia GB10芯片上同时流式传输16个本地AI代理,无需云API。