@rohanpaul_ai: NVIDIA 刚刚发布了首个代理型 AI 基准测试结果,其中 GB300 NVL72 每兆瓦可运行多达 20 倍以上的编码代理…

X AI KOLs Following 新闻

摘要

NVIDIA 发布了首个代理型 AI 基准测试结果,显示 GB300 NVL72 每兆瓦可运行的编码代理数量比 H200 多出 20 倍,该测试基于 Artificial Analysis 的 AgentPerf 基准。

NVIDIA 刚刚发布了首个代理型 AI 基准测试结果,其中 GB300 NVL72 每兆瓦可运行的编码代理数量比 H200 多出 20 倍。 传统的推理基准测试大多只关注系统在处理单个提示后生成令牌的速度。 而 Artificial Analysis 的 AgentPerf 提出了一个更困难的问题:在保持响应流畅的同时,可以同时运行多少个代理。 它测试的工作负载比普通的 LLM 服务更重,因为代理并非单一请求和单一回答,而是一长串模型调用、代码编辑、命令执行、工具延迟以及不断增长的上下文。 该基准测试重现了来自 12 种以上编程语言的公开仓库中真实的编码代理路径,请求长度从 5K 到 131K 令牌不等,平均约为 27K 令牌。 NVIDIA 表示,在最低服务层级下,GB300 NVL72 每兆瓦可达到 61.4K 个并发代理,而 H200 仅为 2.6K。 这一优势得益于 72 块 GPU 通过 NVLink 整合成一台机架级机器,以及软件能够分散 MoE 专家工作、重叠通信与计算、并保持批处理规模较大。 @NVIDIAAIDev
查看原文
查看缓存全文

缓存时间: 2026/06/13 01:04

NVIDIA 刚刚发布了首个代理式 AI 基准测试结果,其中 GB300 NVL72 每兆瓦可运行的编码代理数量比 H200 高出最多 20 倍。

以往的推理基准测试大多询问系统在一次提示后能多快生成 token。

而来自 Artificial Analysis 的 AgentPerf 提出了一个更难的问题:在保持响应流畅的前提下,能同时运行多少个代理?

它测试的工作负载比常规 LLM 服务更重,因为一个代理并非一次请求加一次回答,而是一长串模型调用、代码编辑、命令执行、工具延迟以及不断增长的上下文。

该基准测试回放了来自公开仓库的、涉及 12 种以上编程语言的真实编码代理路径,请求长度从 5K 到 131K token 不等,平均约为 27K token。

NVIDIA 表示,GB300 NVL72 在最低服务层级上每兆瓦可达 61.4K 个并发代理,而 H200 仅为 2.6K 个。

这一提升源自 72 块 GPU 通过 NVLink 像一台机架级机器一样协同工作,再加上软件层将 MoE 专家工作分散、重叠通信与计算、并保持大批量处理。

@NVIDIAAIDev

相似文章