NVIDIA Blackwell 在首个自主AI基础设施基准测试中领先

NVIDIA Blog 2026/06/12 21:00 新闻

nvidia blackwell agentic-ai benchmark agentperf ai-infrastructure

摘要

NVIDIA Blackwell GB300 NVL72 平台在 Artificial Analysis 的首个自主AI基础设施基准测试 AgentPerf 中领先，每兆瓦可运行的智能体数量是上一代 Hopper 的 20 倍。

<div id="bsf_rt_marker"></div>Artificial Analysis 的 AgentPerf 是业界首个自主AI基准测试，为开发者、企业和基础设施提供商提供了一种清晰的方式，用于比较自主AI系统。在首轮公布的结果中，<a target="_blank" href="https://www.nvidia.com/en-us/data-center/technologies/blackwell-architecture/">NVIDIA Blackwell Ultra NVL72</a> 平台在所测试的自主AI工作负载上展现了领先性能，每兆瓦可运行的智能体数量是 NVIDIA Hopper 的 20 倍。 自主AI与对话式AI的工作负载本质不同。一次单独的聊天完成就像短跑：一次大语言模型(LLM)调用，一次回复。而智能体的运作更像接力赛：它将目标分解为多个步骤，并持续进行直到任务完成。 <figure id="attachment_94457" aria-describedby="caption-attachment-94457" style="width: 16339px" class="wp-caption alignnone"><img fetchpriority="high" decoding="async" class="wp-image-94457 size-full" src="https://blogs.nvidia.com/wp-content/uploads/2026/06/Agentic-Pipeline_v1-2.png" alt="" width="16339" height="8097" /><figcaption id="caption-attachment-94457" class="wp-caption-text">智能体将多次LLM调用和工具调用串联起来，以收集上下文、观察、推理和行动。</figcaption></figure> 这导致数十到数百次LLM调用被串联起来，每次都将不断增长的上下文传递给下一次，每次交接时还涉及代码编译和执行、数据库搜索、网页浏览等工具调用。复杂性不是相加的，而是相乘的。 这种区别对性能测量至关重要。现有的AI推理基准测试测量的是单次LLM调用：LLM对单个请求的响应速度以及系统能同时处理多少请求。它们并非为自主工作负载而设计，在这些工作负载中，链式LLM调用、工具调用延迟和不断增长的上下文对加速计算系统造成的压力，与单次LLM调用完全不同。 对于大规模构建和部署智能体的公司来说，了解智能体的响应速度、可同时部署的数量以及AI基础设施每投入一美元和每瓦特能完成多少有用工作至关重要。 <h2>NVIDIA GB300 NVL72 每兆瓦运行 20 倍智能体</h2> 在首轮测试中，AgentPerf 使用<a target="_blank" href="https://artificialanalysis.ai/models/deepseek-v4-pro/providers">DeepSeek V4 Pro</a> 测量自主性能，该模型是一个大型混合专家(MoE)模型，代表了驱动当今最强大智能体的前沿模型类别。在此工作负载上，NVIDIA GB300 NVL72 在基准测试中取得了最高性能，每兆瓦可运行的智能体数量是 NVIDIA HGX H200 系统的 20 倍。 <figure id="attachment_94444" aria-describedby="caption-attachment-94444" style="width: 1996px" class="wp-caption alignnone"><img decoding="async" class="wp-image-94444 size-full" src="https://blogs.nvidia.com/wp-content/uploads/2026/06/agentperf-blackwell-graph-1.jpg" alt="" width="1996" height="1113" srcset="https://blogs.nvidia.com/wp-content/uploads/2026/06/agentperf-blackwell-graph-1.jpg 1996w, https://blogs.nvidia.com/wp-content/uploads/2026/06/agentperf-blackwell-graph-1-960x535.jpg 960w, https://blogs.nvidia.com/wp-content/uploads/2026/06/agentperf-blackwell-graph-1-1680x937.jpg 1680w, https://blogs.nvidia.com/wp-content/uploads/2026/06/agentperf-blackwell-graph-1-1280x714.jpg 1280w, https://blogs.nvidia.com/wp-content/uploads/2026/06/agentperf-blackwell-graph-1-1536x856.jpg 1536w, https://blogs.nvidia.com/wp-content/uploads/2026/06/agentperf-blackwell-graph-1-630x351.jpg 630w" sizes="(max-width: 1996px) 100vw, 1996px" /><figcaption id="caption-attachment-94444" class="wp-caption-text">在每智能体每秒20和60 tokens的服务级目标下，NVIDIA GB300 NVL72 每兆瓦支持的并发智能体数量远超 NVIDIA H200。</figcaption></figure> 这一性能优势源于全栈的极致协同设计。GB300 NVL72 将72块GPU连接到一个机架级系统中，使得 DeepSeek V4 Pro 等大型MoE模型能够高效地大规模分布执行模型。 CUDA内核通过重叠通信和计算进一步加速，从而将跨专家协调的成本吸收掉，而不是增加延迟。 NVIDIA TensorRT LLM 在并发智能体会话扩展时保持效率。例如，它将输入处理与输出生成分离，以便各自独立优化。 这些结果基于从头构建的基准测试方法，以反映自主AI在生产中的实际工作方式。 <h2>Artificial Analysis AgentPerf：基于真实世界的自主工作负载构建</h2> AgentPerf 基于真实的编码智能体轨迹构建：智能体接收任务、读取文件、编写和编辑代码、执行命令，并根据结果进行迭代——所有这些都来自超过12种编程语言的真实公共代码仓库。长序列长度、工具调用模式和延迟均代表真实的编码工作流程。 AgentPerf 随后测量一个平台在满足定义的响应时间和输出token速率性能阈值的情况下，能同时支持多少此类自主任务。工具调用并不实际执行，而是使用代表性的CPU处理时间进行模拟，因此结果的差异仅反映加速计算性能。 这些结果直接转化为基础设施决策：每个加速器和每兆瓦功率可运行多少并发自主任务。对于大规模部署AI智能体的企业，这些数字决定了给定基础设施投资实际能带来多少生产性工作。 <h2>NVIDIA生态系统合作伙伴利用Blackwell的领先性能</h2> 包括 Baseten、DeepInfra 和 Together AI 在内的领先推理提供商，已经在 NVIDIA Blackwell 上为<a target="_blank" href="https://artificialanalysis.ai/models/deepseek-v4-pro/providers">DeepSeek V4 Pro</a> 等前沿模型提供自主工作负载服务，并在今天为生产级自主应用提供动力。 <a target="_blank" href="https://www.together.ai/blog/learn-how-cursor-partnered-with-together-ai-to-deliver-real-time-low-latency-inference-at-scale">Together AI 在 NVIDIA Blackwell 上为 Cursor</a>（一个AI驱动的自主编码平台）提供实时推理。Cursor 的智能体在开发者继续工作的同时，调试问题、生成功能并执行重构。 DeepInfra 为<a target="_blank" href="https://pam.ai">Pam.ai</a>（一个面向汽车经销商的AI劳动力平台）提供支持，该平台部署智能体来预订服务预约、处理电话和运行外呼销售活动，全部基于 NVIDIA Blackwell。 随着 NVIDIA 和开源生态系统继续

查看原文

查看缓存全文

缓存时间: 2026/06/14 00:17

# NVIDIA Blackwell 在首个智能体 AI 基础设施基准测试中领跑来源：https://blogs.nvidia.com/blog/nvidia-blackwell-agentperf-artificial-analysis/ Artificial Analysis 推出的 AgentPerf 是业界首个智能体 AI 基准测试，为开发者、企业和基础设施提供商提供了一种清晰的方式，用于比较智能体 AI 系统。在首轮发布的结果中，基于 NVIDIA Blackwell Ultra NVL72 (https://www.nvidia.com/en-us/data-center/technologies/blackwell-architecture/) 平台在测试的智能体 AI 工作负载中表现出领先性能，每兆瓦可运行的智能体数量是 NVIDIA Hopper 的 20 倍。智能体 AI 与对话式 AI 是截然不同的工作负载。一次简单的聊天补全就像短跑：一次大语言模型（LLM）调用，一次响应。而智能体更像接力赛：它将一个目标分解为多个步骤，持续执行直至任务完成。智能体将多个 LLM 调用与工具调用串联起来，用于收集上下文、观察、推理和行动。这导致数十到数百次 LLM 调用被链接在一起，每次调用都将不断增长的上下文传递给下一次调用，并在每次交接时进行代码编译与执行、数据库搜索和网页浏览等工具调用。其复杂性不是相加的，而是相乘的。这种区别对于性能测量至关重要。现有 AI 推理基准测试衡量的是单次 LLM 调用：LLM 对单个请求的响应速度以及系统能同时处理多少个请求。它们并非为智能体工作负载而设计——在智能体工作负载中，链式 LLM 调用、工具调用延迟和不断增长的上下文，对加速计算系统的压力与单次 LLM 调用完全不同。对于大规模构建和部署智能体的企业来说，了解智能体的响应速度、可同时部署的数量以及每美元和每瓦特投资能带来多少有用工作，至关重要。 ## **NVIDIA GB300 NVL72 每兆瓦可运行 20 倍智能体** 在首轮测试中，AgentPerf 使用 DeepSeek V4 Pro (https://artificialanalysis.ai/models/deepseek-v4-pro/providers) 来衡量智能体性能。这是一个大型混合专家（MoE）模型，代表了驱动当今最强大智能体的前沿模型类别。在此工作负载下，NVIDIA GB300 NVL72 在基准测试中实现了最高性能，每兆瓦可运行的智能体数量是 NVIDIA HGX H200 系统的 20 倍。在每秒每个智能体 20 和 60 token 的服务级别目标下，NVIDIA GB300 NVL72 每兆瓦支持的并发智能体数量远高于 NVIDIA H200。这种性能优势源于全栈的极致协同设计。GB300 NVL72 将 72 个 GPU 连接成一个机架级系统，使得像 DeepSeek V4 Pro 这样的大型 MoE 模型能够高效地大规模分布执行。 CUDA 内核通过重叠通信与计算进一步加速，因此跨专家协调的成本被吸收，而非增加延迟。 NVIDIA TensorRT LLM 在并发智能体会话扩展时保持高效。例如，它将输入处理与输出生成分离，使两者可以分别独立优化。这些结果建立在从头构建的基准测试方法之上，该方法反映了智能体 AI 在实际生产中的工作方式。 ## **Artificial Analysis AgentPerf：基于真实世界智能体工作负载构建** AgentPerf 基于真实的编码智能体轨迹构建：智能体接收任务、读取文件、编写和编辑代码、执行命令并根据结果迭代——所有数据均来自超过 12 种编程语言的真实公共代码仓库。其长序列长度、工具调用模式和延迟均代表真实编码工作流。然后，AgentPerf 测量一个平台在满足定义的响应速度和输出 token 速率性能阈值的同时，能同时支持多少此类智能体任务。工具调用不会实际执行，而是使用代表性的 CPU 处理时间进行模拟，因此结果的差异仅反映加速计算性能。结果直接转化为基础设施决策：每个加速器和每兆瓦功率可运行多少并发智能体任务。对于大规模部署 AI 智能体的企业来说，这些数字决定了特定基础设施投资能实际带来多少有效工作。 ## **NVIDIA 生态系统合作伙伴利用 Blackwell 的领先性能** 包括 Baseten、DeepInfra 和 Together AI 在内的领先推理提供商，已在 NVIDIA Blackwell 上为 DeepSeek V4 Pro (https://artificialanalysis.ai/models/deepseek-v4-pro/providers) 等前沿模型提供智能体工作负载服务，并推动生产级智能体应用的发展。 Together AI 在 NVIDIA Blackwell 上为基于 AI 的智能体编码平台 Cursor (https://www.together.ai/blog/learn-how-cursor-partnered-with-together-ai-to-deliver-real-time-low-latency-inference-at-scale) 提供实时推理支持。Cursor 的智能体在开发者继续工作的同时，调试问题、生成功能并执行重构。 DeepInfra 为汽车经销商的 AI 劳动力平台 Pam.ai (https://pam.ai/) 提供支持，该平台部署智能体来预约服务、处理电话以及运行外呼销售活动，全部基于 NVIDIA Blackwell。随着 NVIDIA 和开源生态系统持续优化推理软件，智能体工作负载的性能和效率只会不断提高。NVIDIA Vera Rubin 架构现已全面投入生产，为满足大规模智能体 AI 日益增长的需求带来了下一代基础设施容量。 *深入了解 AgentPerf 的方法论以及 NVIDIA 为智能体 AI 提供的全栈优化，请参阅此技术博客 (https://developer.nvidia.com/blog/nvidia-achieves-leading-agentic-coding-performance-on-first-agentic-ai-benchmark/)。*

NVIDIA Blackwell 在首个自主AI基础设施基准测试中领先

相似文章

@rohanpaul_ai: NVIDIA 刚刚发布了首个代理型 AI 基准测试结果，其中 GB300 NVL72 每兆瓦可运行多达 20 倍以上的编码代理…

最快、最大、最强：NVIDIA Blackwell 横扫 MLPerf Training 6.0

@CNET：Nvidia GTC 2026，黄仁勋谈“AI原生”投资

HPE与NVIDIA的AI工厂面向智能体时代扩展

@mr_r0b0t: 16个本地AI代理同时流式传输！MiniMax M2.7 NVFP4 — 2x GB10，没有云API。

提交意见反馈