NVIDIA推理软件栈如何实现最低Token成本
摘要
NVIDIA全栈推理软件与硬件协同设计,仅一个月内就在Blackwell平台上将Token成本降低多达5倍,为AI工厂实现更低的每Token成本。Baseten、Cognition、Deep Infra和Together AI等公司正在使用该软件栈优化推理性能。
<div id="bsf_rt_marker"></div><p><span style="font-weight: 400;">随着组织从AI试点转向生产级AI工厂,基础设施决策已从峰值芯片规格转向每Token成本:每美元、每瓦特以及在所需延迟目标内能提供多少个有用Token。</span></p>
<p><span style="font-weight: 400;">与NVIDIA GPU、CPU、网络和系统协同设计,并通过广泛的开源生态增强,NVIDIA的全栈推理软件持续提升硬件性能。在</span><a target="_blank" href="https://www.nvidia.com/en-us/data-center/technologies/blackwell-architecture/"><span style="font-weight: 400;">NVIDIA Blackwell</span></a><span style="font-weight: 400;">平台上,该软件栈已在一个月内将DeepSeek V4模型的Token成本降低了多达5倍。</span></p>
<figure id="attachment_95787" aria-describedby="caption-attachment-95787" style="width: 1920px" class="wp-caption alignnone"><img fetchpriority="high" decoding="async" class="wp-image-95787 size-full" src="https://blogs.nvidia.com/wp-content/uploads/2026/06/semi-analysis-inference-x-5x.jpg" alt="" width="1920" height="1080" srcset="https://blogs.nvidia.com/wp-content/uploads/2026/06/semi-analysis-inference-x-5x.jpg 1920w, https://blogs.nvidia.com/wp-content/uploads/2026/06/semi-analysis-inference-x-5x-960x540.jpg 960w, https://blogs.nvidia.com/wp-content/uploads/2026/06/semi-analysis-inference-x-5x-1680x945.jpg 1680w, https://blogs.nvidia.com/wp-content/uploads/2026/06/semi-analysis-inference-x-5x-1280x720.jpg 1280w, https://blogs.nvidia.com/wp-content/uploads/2026/06/semi-analysis-inference-x-5x-1536x864.jpg 1536w, https://blogs.nvidia.com/wp-content/uploads/2026/06/semi-analysis-inference-x-5x-1290x725.jpg 1290w, https://blogs.nvidia.com/wp-content/uploads/2026/06/semi-analysis-inference-x-5x-630x354.jpg 630w, https://blogs.nvidia.com/wp-content/uploads/2026/06/semi-analysis-inference-x-5x-300x169.jpg 300w, https://blogs.nvidia.com/wp-content/uploads/2026/06/semi-analysis-inference-x-5x-400x225.jpg 400w" sizes="(max-width: 1920px) 100vw, 1920px" /><figcaption id="caption-attachment-95787" class="wp-caption-text">SemiAnalysis InferenceX结果比较了使用SGLang和NVIDIA Dynamo推理框架的NVIDIA GB300 NVL72系统的Token成本和交互性。</figcaption></figure>
<p><span style="font-weight: 400;">领先企业和推理提供商已经看到了NVIDIA推理软件栈在Blackwell上的复合价值:</span></p>
<ul>
<li style="font-weight: 400;" aria-level="1"><span style="font-weight: 400;"><a target="_blank" href="https://www.baseten.co/products/model-apis/">Baseten</a>使用NVIDIA TensorRT-LLM开源库在Blackwell GPU上为推理、编码和长上下文工作负载提供DeepSeek V4 Pro服务,并应用专有运行时优化,每秒Token数提升高达50%。</span></li>
<li style="font-weight: 400;" aria-level="1"><a target="_blank" href="https://cognition.com/blog/swe-1-6"><span style="font-weight: 400;">Cognition</span></a><span style="font-weight: 400;">正在使用NVIDIA Dynamo推理框架管理推理GPU,为其团队提供了一条现成的路径来扩展强化学习工作负载,无需从头构建该基础设施。</span></li>
<li style="font-weight: 400;" aria-level="1"><a target="_blank" href="https://deepinfra.com/blog/deepinfra-nvidia-inference-stack"><span style="font-weight: 400;">Deep Infra</span></a><span style="font-weight: 400;">使用NVIDIA推理软件栈从第一天起就在Blackwell上高性能地提供前沿开源模型,包括DeepSeek V4。</span></li>
<li style="font-weight: 400;" aria-level="1"><a target="_blank" href="https://youtu.be/10Kb3IB0d70"><span style="font-weight: 400;">Together AI</span></a><span style="font-weight: 400;">在Blackwell上使用NVIDIA TensorRT-LLM帮助Cursor加速从模型优化到生产端点的路径,以实现其实时编码体验。</span></li>
</ul>
<h2><strong>为什么软件对推理经济至关重要</strong></h2>
<p><span style="font-weight: 400;">传统的Web、搜索和软件即服务工作负载相对可预测:用户可能加载页面、刷新信息流或更新业务记录。这些请求通常遵循相似的软件路径,读取或写入数据库,并通过添加更多相同服务器来扩展。</span></p>
<p><span style="font-weight: 400;">Agentic AI则不同。</span></p>
<figure id="attachment_95793" aria-describedby="caption-attachment-95793" style="width: 1920px" class="wp-caption alignnone"><img decoding="async" class="wp-image-95793 size-full" src="https://blogs.nvidia.com/wp-content/uploads/2026/06/traditional-vs-agentic-think-smart.jpg" alt="" width="1920" height="1080" srcset="https://blogs.nvidia.com/wp-content/uploads/2026/06/traditional-vs-agentic-think-smart.jpg 1920w, https://blogs.nvidia.com/wp-content/uploads/2026/06/traditional-vs-agentic-think-smart-960x540.jpg 960w, https://blogs.nvidia.com/wp-content/uploads/2026/06/traditional-vs-agentic-think-smart-1680x945.jpg 1680w, https://blogs.nvidia.com/wp-content/uploads/2026/06/traditional-vs-agentic-think-smart-1280x720.jpg 1280w, https://blogs.nvidia.com/wp-content/uploads/2026/06/traditional-vs-agentic-think-smart-1536x864.jpg 1536w, https://blogs.nvidia.com/wp-content/uploads/2026/06/traditional-vs-agentic-think-smart-1290x725.jpg 1290w, https://blogs.nvidia.com/wp-content/uploads/2026/06/traditional-vs-agentic-think-smart-630x354.jpg 630w, https://blogs.nvidia.com/wp-content/uploads/2026/06/traditional-vs-agentic-think-smart-300x169.jpg 300w, https://blogs.nvidia.com/wp-content/uploads/2026/06/traditional-vs-agentic-think-smart-400x225.jpg 400w" sizes="(max-width: 1920px) 100vw, 1920px" /><figcaption id="caption-attachment-95793" class="wp-caption-text">Agentic AI运行分布式、有状态的工作流,跨越LLM、工具、内存、安全、网络和整个数据中心的加速计算。</figcaption></figure>
<p><span style="font-weight: 400;">智能体可以进行推理、规划、调用工具、启动专门的子智能体,并管理跨多轮工作流的大量上下文。它们将单个请求转变为分布式的计算问题,可能涉及数百个子智能体、数千个任务和多个大语言模型,运行在GPU、CPU、DPU和存储系统上。</span></p>
<p><span style="font-weight: 400;">软件栈决定了这种复杂性是变成浪费的容量还是更低的</span><a href="https://blogs.nvidia.com/blog/lowest-token-cost-ai-factories/"><span style="font-weight: 400;">每Token成本</span></a><span style="font-weight: 400;">。</span></p>
<p><span style="font-weight: 400;">更低的每Token成本来自于将单个优化转化为系统级性能。NVIDIA的推理软件栈通过连接三个层次来实现这一点:</span></p>
<ul>
<li style="font-weight: 400;" aria-level="1"><b>生产运营:</b><span style="font-weight: 400;">协调分布式服务、编排、自动扩展和内存管理,使推理能够在正确的计算和存储资源上运行。</span></li>
<li style="font-weight: 400;" aria-level="1"><b>应用加速:</b><span style="font-weight: 400;">以高性能运行模型,同时为开发者提供调优和定制的空间,利用诸如计算与通信重叠以及内核融合等运行时优化。</span></li>
<li style="font-weight: 400;" aria-level="1"><b>基础设施访问:</b><span style="font-weight: 400;">暴露NVIDIA GPU、网络、内存和系统能力,而无需开发者</span></li>
</ul>
查看缓存全文
缓存时间: 2026/06/30 17:27
# NVIDIA 推理软件栈如何实现最低 Token 成本
来源:https://blogs.nvidia.com/blog/inference-software-lowest-token-cost/
随着企业从 AI 试点转向生产级 AI 工厂,基础设施决策已从峰值芯片规格转向每 Token 成本(https://blogs.nvidia.com/blog/ai-tokens-explained/):每个美元、每瓦特以及在所需延迟目标内能交付多少有用 Token。
NVIDIA 的完整推理软件栈与 NVIDIA GPU、CPU、网络和系统协同设计,并借助广泛的开源生态得以强化,持续提升硬件性能。在 NVIDIA Blackwell(https://www.nvidia.com/en-us/data-center/technologies/blackwell-architecture/)平台上,该软件栈已在一个月内将 DeepSeek V4 模型的 Token 成本降低多达 5 倍。
SemiAnalysis InferenceX 结果对比了采用 SGLang 和 NVIDIA Dynamo 推理框架的 NVIDIA GB300 NVL72 系统的 Token 成本和交互性。领先企业和推理提供商已在 Blackwell 上亲眼见证 NVIDIA 推理软件栈的复合价值:
- Baseten(https://www.baseten.co/products/model-apis/)使用 NVIDIA TensorRT-LLM 开源库,在 Blackwell GPU 上服务 DeepSeek V4 Pro,用于推理、编码和长上下文工作负载,通过专有运行时优化实现了每秒多 50% 的 Token 生成量。
- Cognition(https://cognition.com/blog/swe-1-6)正在使用 NVIDIA Dynamo 推理框架管理推理 GPU,为其团队提供了一条现成的路径来扩展强化学习工作负载,无需从头构建基础设施。
- Deep Infra(https://deepinfra.com/blog/deepinfra-nvidia-inference-stack)使用 NVIDIA 推理软件栈,在 Blackwell 上从第一天起高性能地服务前沿开源模型,包括 DeepSeek V4。
- Together AI(https://youtu.be/10Kb3IB0d70)在 Blackwell 上使用 NVIDIA TensorRT-LLM,帮助 Cursor 加速从模型优化到生产端点的过程,以提供实时编码体验。
## **软件为何对推理经济至关重要**
传统的 Web、搜索和软件即服务工作负载相对可预测:用户可能会加载一个页面、刷新一个 feed 或更新一条业务记录。这些请求通常遵循类似的软件路径,从数据库读取或写入数据库,并通过增加相同服务器来扩展。
Agentic AI 则不同。
Agentic AI 运行分布式、有状态的工作流,跨越 LLM、工具、内存、安全、网络和数据中心的加速计算。Agent 可以推理、规划、调用工具、创建专业子 Agent,并在多轮工作流中管理海量上下文。它将单个请求转化为一个分布式计算问题,可能涉及数百个子 Agent、数千个任务和多个大语言模型,跨 GPU、CPU、DPU 和存储系统运行。
软件栈决定了这种复杂性是变成浪费的算力,还是降低每 Token 成本(https://blogs.nvidia.com/blog/lowest-token-cost-ai-factories/)。
更低的每 Token 成本来自于将单个优化转化为系统级性能。NVIDIA 的推理软件栈通过连接三个层次实现这一点:
- **生产运营**:协调分布式服务、编排、自动扩缩容和内存管理,使推理能够在合适的计算和存储资源上运行。
- **应用加速**:以高性能运行模型,同时为开发者提供调优和定制的空间,使用运行时优化(如计算与通信重叠、内核融合)。
- **基础设施访问**:暴露 NVIDIA GPU、网络、内存和系统能力,无需开发人员直接管理每个设备的指令集或数据传输协议。
NVIDIA 软件栈涵盖模型服务、运行时调度、内核、通信库和硬件感知优化,随着各层改进的叠加,能够快速提升性能并降低服务成本。当这些层次作为整体系统运行时,单个优化的效果会复合放大。
解耦服务、基于 NVIDIA NVLink(https://www.nvidia.com/en-us/data-center/nvlink/)互连技术的大规模专家并行、NVFP4 精度和多 Token 预测各自都能带来显著提升。组合使用时,吞吐量可提高多达 20 倍。
下图展示了这一结果。在生产中实现这一增益是复杂的,需要整个推理栈的协调——从生产运营、模型运行时间到内核、通信库和硬件访问。NVIDIA 的推理软件栈旨在让这些层次协同工作,使每个优化都能建立在前者之上。
叠加软件优化可复合性能增益,将 NVIDIA Blackwell 每 GPU Token 吞吐量从基线提升至最高 20 倍:通过解耦服务、大规模专家并行(Large EP)、NVFP4 和多 Token 预测(MTP)。
## **开源放大了全栈优势**
同样的全栈基础也因开源生态得以放大。今天许多最广泛使用的开源 AI 框架和推理项目都是基于 NVIDIA CUDA(https://developer.nvidia.com/cuda)原生构建的,这意味着新的研究和软件优化从一开始就能在 NVIDIA GPU 上以领先性能运行。
PyTorch 是一个典型例子。PyTorch 于 2016 年推出,原生支持 CUDA,与 NVIDIA 架构共同演进,使开发者能够通过熟悉的框架直接访问 Tensor Core、Transformer Engine 和 NVFP4 等创新。
当诸如 DFlash 推测解码(https://developer.nvidia.com/blog/boost-inference-performance-up-to-15x-on-nvidia-blackwell-using-dflash-speculative-decoding/)(在现有硬件上提供高达 15 倍的吞吐量提升)或 FastVideo(https://haoailab.com/blogs/fastvideo_realtime_1080p/)(在不到 5 秒内生成 1080p 视频)这样的突破性成果落地 PyTorch 时,它们可以立即在 NVIDIA 上运行,帮助 AI 工厂将研究进展转化为更低的 Token 成本。
NVIDIA 和 PyTorch 的协同开发帮助将新的 AI 软件创新带给开发者,随着 PyTorch 的普及,CUDA 原生成果能转化为生产性能。同样的开源动力也解释了为何当像 DeepSeek V4 这样的新前沿开放模型发布时,领先的推理框架(如 vLLM 和 SGLang)会立即提供针对 NVIDIA Blackwell 架构的首日部署方案(https://developer.nvidia.com/blog/build-with-deepseek-v4-using-nvidia-blackwell-and-gpu-accelerated-endpoints/),使模型可在数百万 Blackwell GPU 上使用。这也是 DeepSeek V4 在 Blackwell 上的性能在约一个月内通过 vLLM 和 SGLang(https://pytorch.org/blog/serving-deepseek-v4-on-gb300-with-sglang-5x-higher-throughput-at-the-same-interactivity-since-day-0/)框架提升了最多 5 倍,将 Token 成本降至约原有水平五分之一的原因。
SemiAnalysis InferenceX 结果对比了在相同交互性下,采用 vLLM 和 NVIDIA Dynamo 推理框架的 NVIDIA GB200 NVL72 系统的 Token 吞吐量。这就是开源飞轮:更多开发者优化 CUDA 原生推理路径,更多生产部署反馈回生态,每项软件改进都会在提升 Token 输出的同时,逐步降低每 Token 成本。
*在本期探讨 Tokenomics 的 NVIDIA AI 播客(https://www.youtube.com/watch?v=zNuOOMM20Tk)和推理解决方案页面(https://www.nvidia.com/en-us/solutions/ai/inference/)中,深入了解软件如何放大硬件性能。*
相似文章
@rohanpaul_ai: NVIDIA最新发布的报告称其Blackwell推理栈在一个月内将DeepSeek V4的token成本降低了多达5倍。
NVIDIA报告称其Blackwell推理栈在一个月内将DeepSeek V4的token成本降低了多达5倍。
重新思考 AI 总体拥有成本:为何每 Token 成本是唯一关键指标
NVIDIA 认为,每 Token 成本是衡量 AI 总体拥有成本(TCO)的最关键指标,优于 FLOPS/美元等传统衡量标准,能更准确地反映现实世界中的推理效率和盈利能力。
五家中国AI实验室将Token价格最高下调99%
五家中国AI实验室在价格战中将推理Token价格下调高达99%,使得前沿推理几乎免费,竞争优势从模型转向分发和工具链。
@CNET:NVIDIA GTC 主题演讲中,CEO 黄仁勋谈到我们正面临的推理拐点
NVIDIA CEO 黄仁勋在 GTC 主题演讲中指出 AI 推理正处于拐点;Supermicro 正与 NVIDIA 合作,基于 Blackwell 平台交付一站式“AI 工厂”基础设施方案。
Tensordyne 发布对数AI计算芯片:每瓦特令牌数比NVIDIA Blackwell多17倍,吞吐量高13倍。
Tensordyne 宣布了一项突破性推理系统,在硬件中使用对数数学,声称每瓦特令牌数比NVIDIA Blackwell多17倍,吞吐量高13倍,这是通过将对数空间中的复杂乘法替换为简单加法实现的。