NVIDIA推理软件栈如何实现最低Token成本

NVIDIA Blog 2026/06/30 15:00 新闻

inference software-stack nvidia blackwell token-cost ai-factories gpus

摘要

NVIDIA全栈推理软件与硬件协同设计，仅一个月内就在Blackwell平台上将Token成本降低多达5倍，为AI工厂实现更低的每Token成本。Baseten、Cognition、Deep Infra和Together AI等公司正在使用该软件栈优化推理性能。

<div id="bsf_rt_marker"></div>随着组织从AI试点转向生产级AI工厂，基础设施决策已从峰值芯片规格转向每Token成本：每美元、每瓦特以及在所需延迟目标内能提供多少个有用Token。 与NVIDIA GPU、CPU、网络和系统协同设计，并通过广泛的开源生态增强，NVIDIA的全栈推理软件持续提升硬件性能。在<a target="_blank" href="https://www.nvidia.com/en-us/data-center/technologies/blackwell-architecture/">NVIDIA Blackwell</a>平台上，该软件栈已在一个月内将DeepSeek V4模型的Token成本降低了多达5倍。 <figure id="attachment_95787" aria-describedby="caption-attachment-95787" style="width: 1920px" class="wp-caption alignnone"><img fetchpriority="high" decoding="async" class="wp-image-95787 size-full" src="https://blogs.nvidia.com/wp-content/uploads/2026/06/semi-analysis-inference-x-5x.jpg" alt="" width="1920" height="1080" srcset="https://blogs.nvidia.com/wp-content/uploads/2026/06/semi-analysis-inference-x-5x.jpg 1920w, https://blogs.nvidia.com/wp-content/uploads/2026/06/semi-analysis-inference-x-5x-960x540.jpg 960w, https://blogs.nvidia.com/wp-content/uploads/2026/06/semi-analysis-inference-x-5x-1680x945.jpg 1680w, https://blogs.nvidia.com/wp-content/uploads/2026/06/semi-analysis-inference-x-5x-1280x720.jpg 1280w, https://blogs.nvidia.com/wp-content/uploads/2026/06/semi-analysis-inference-x-5x-1536x864.jpg 1536w, https://blogs.nvidia.com/wp-content/uploads/2026/06/semi-analysis-inference-x-5x-1290x725.jpg 1290w, https://blogs.nvidia.com/wp-content/uploads/2026/06/semi-analysis-inference-x-5x-630x354.jpg 630w, https://blogs.nvidia.com/wp-content/uploads/2026/06/semi-analysis-inference-x-5x-300x169.jpg 300w, https://blogs.nvidia.com/wp-content/uploads/2026/06/semi-analysis-inference-x-5x-400x225.jpg 400w" sizes="(max-width: 1920px) 100vw, 1920px" /><figcaption id="caption-attachment-95787" class="wp-caption-text">SemiAnalysis InferenceX结果比较了使用SGLang和NVIDIA Dynamo推理框架的NVIDIA GB300 NVL72系统的Token成本和交互性。</figcaption></figure> 领先企业和推理提供商已经看到了NVIDIA推理软件栈在Blackwell上的复合价值： <ul> <li style="font-weight: 400;" aria-level="1"><a target="_blank" href="https://www.baseten.co/products/model-apis/">Baseten</a>使用NVIDIA TensorRT-LLM开源库在Blackwell GPU上为推理、编码和长上下文工作负载提供DeepSeek V4 Pro服务，并应用专有运行时优化，每秒Token数提升高达50%。</li> <li style="font-weight: 400;" aria-level="1"><a target="_blank" href="https://cognition.com/blog/swe-1-6">Cognition</a>正在使用NVIDIA Dynamo推理框架管理推理GPU，为其团队提供了一条现成的路径来扩展强化学习工作负载，无需从头构建该基础设施。</li> <li style="font-weight: 400;" aria-level="1"><a target="_blank" href="https://deepinfra.com/blog/deepinfra-nvidia-inference-stack">Deep Infra</a>使用NVIDIA推理软件栈从第一天起就在Blackwell上高性能地提供前沿开源模型，包括DeepSeek V4。</li> <li style="font-weight: 400;" aria-level="1"><a target="_blank" href="https://youtu.be/10Kb3IB0d70">Together AI</a>在Blackwell上使用NVIDIA TensorRT-LLM帮助Cursor加速从模型优化到生产端点的路径，以实现其实时编码体验。</li> </ul> <h2>为什么软件对推理经济至关重要</h2> 传统的Web、搜索和软件即服务工作负载相对可预测：用户可能加载页面、刷新信息流或更新业务记录。这些请求通常遵循相似的软件路径，读取或写入数据库，并通过添加更多相同服务器来扩展。 Agentic AI则不同。 <figure id="attachment_95793" aria-describedby="caption-attachment-95793" style="width: 1920px" class="wp-caption alignnone"><img decoding="async" class="wp-image-95793 size-full" src="https://blogs.nvidia.com/wp-content/uploads/2026/06/traditional-vs-agentic-think-smart.jpg" alt="" width="1920" height="1080" srcset="https://blogs.nvidia.com/wp-content/uploads/2026/06/traditional-vs-agentic-think-smart.jpg 1920w, https://blogs.nvidia.com/wp-content/uploads/2026/06/traditional-vs-agentic-think-smart-960x540.jpg 960w, https://blogs.nvidia.com/wp-content/uploads/2026/06/traditional-vs-agentic-think-smart-1680x945.jpg 1680w, https://blogs.nvidia.com/wp-content/uploads/2026/06/traditional-vs-agentic-think-smart-1280x720.jpg 1280w, https://blogs.nvidia.com/wp-content/uploads/2026/06/traditional-vs-agentic-think-smart-1536x864.jpg 1536w, https://blogs.nvidia.com/wp-content/uploads/2026/06/traditional-vs-agentic-think-smart-1290x725.jpg 1290w, https://blogs.nvidia.com/wp-content/uploads/2026/06/traditional-vs-agentic-think-smart-630x354.jpg 630w, https://blogs.nvidia.com/wp-content/uploads/2026/06/traditional-vs-agentic-think-smart-300x169.jpg 300w, https://blogs.nvidia.com/wp-content/uploads/2026/06/traditional-vs-agentic-think-smart-400x225.jpg 400w" sizes="(max-width: 1920px) 100vw, 1920px" /><figcaption id="caption-attachment-95793" class="wp-caption-text">Agentic AI运行分布式、有状态的工作流，跨越LLM、工具、内存、安全、网络和整个数据中心的加速计算。</figcaption></figure> 智能体可以进行推理、规划、调用工具、启动专门的子智能体，并管理跨多轮工作流的大量上下文。它们将单个请求转变为分布式的计算问题，可能涉及数百个子智能体、数千个任务和多个大语言模型，运行在GPU、CPU、DPU和存储系统上。 软件栈决定了这种复杂性是变成浪费的容量还是更低的<a href="https://blogs.nvidia.com/blog/lowest-token-cost-ai-factories/">每Token成本</a>。 更低的每Token成本来自于将单个优化转化为系统级性能。NVIDIA的推理软件栈通过连接三个层次来实现这一点： <ul> <li style="font-weight: 400;" aria-level="1">生产运营：协调分布式服务、编排、自动扩展和内存管理，使推理能够在正确的计算和存储资源上运行。</li> <li style="font-weight: 400;" aria-level="1">应用加速：以高性能运行模型，同时为开发者提供调优和定制的空间，利用诸如计算与通信重叠以及内核融合等运行时优化。</li> <li style="font-weight: 400;" aria-level="1">基础设施访问：暴露NVIDIA GPU、网络、内存和系统能力，而无需开发者</li> </ul>

查看原文

查看缓存全文

缓存时间: 2026/06/30 17:27

# NVIDIA 推理软件栈如何实现最低 Token 成本来源：https://blogs.nvidia.com/blog/inference-software-lowest-token-cost/ 随着企业从 AI 试点转向生产级 AI 工厂，基础设施决策已从峰值芯片规格转向每 Token 成本（https://blogs.nvidia.com/blog/ai-tokens-explained/）：每个美元、每瓦特以及在所需延迟目标内能交付多少有用 Token。 NVIDIA 的完整推理软件栈与 NVIDIA GPU、CPU、网络和系统协同设计，并借助广泛的开源生态得以强化，持续提升硬件性能。在 NVIDIA Blackwell（https://www.nvidia.com/en-us/data-center/technologies/blackwell-architecture/）平台上，该软件栈已在一个月内将 DeepSeek V4 模型的 Token 成本降低多达 5 倍。 SemiAnalysis InferenceX 结果对比了采用 SGLang 和 NVIDIA Dynamo 推理框架的 NVIDIA GB300 NVL72 系统的 Token 成本和交互性。领先企业和推理提供商已在 Blackwell 上亲眼见证 NVIDIA 推理软件栈的复合价值： - Baseten（https://www.baseten.co/products/model-apis/）使用 NVIDIA TensorRT-LLM 开源库，在 Blackwell GPU 上服务 DeepSeek V4 Pro，用于推理、编码和长上下文工作负载，通过专有运行时优化实现了每秒多 50% 的 Token 生成量。 - Cognition（https://cognition.com/blog/swe-1-6）正在使用 NVIDIA Dynamo 推理框架管理推理 GPU，为其团队提供了一条现成的路径来扩展强化学习工作负载，无需从头构建基础设施。 - Deep Infra（https://deepinfra.com/blog/deepinfra-nvidia-inference-stack）使用 NVIDIA 推理软件栈，在 Blackwell 上从第一天起高性能地服务前沿开源模型，包括 DeepSeek V4。 - Together AI（https://youtu.be/10Kb3IB0d70）在 Blackwell 上使用 NVIDIA TensorRT-LLM，帮助 Cursor 加速从模型优化到生产端点的过程，以提供实时编码体验。 ## **软件为何对推理经济至关重要** 传统的 Web、搜索和软件即服务工作负载相对可预测：用户可能会加载一个页面、刷新一个 feed 或更新一条业务记录。这些请求通常遵循类似的软件路径，从数据库读取或写入数据库，并通过增加相同服务器来扩展。 Agentic AI 则不同。 Agentic AI 运行分布式、有状态的工作流，跨越 LLM、工具、内存、安全、网络和数据中心的加速计算。Agent 可以推理、规划、调用工具、创建专业子 Agent，并在多轮工作流中管理海量上下文。它将单个请求转化为一个分布式计算问题，可能涉及数百个子 Agent、数千个任务和多个大语言模型，跨 GPU、CPU、DPU 和存储系统运行。软件栈决定了这种复杂性是变成浪费的算力，还是降低每 Token 成本（https://blogs.nvidia.com/blog/lowest-token-cost-ai-factories/）。更低的每 Token 成本来自于将单个优化转化为系统级性能。NVIDIA 的推理软件栈通过连接三个层次实现这一点： - **生产运营**：协调分布式服务、编排、自动扩缩容和内存管理，使推理能够在合适的计算和存储资源上运行。 - **应用加速**：以高性能运行模型，同时为开发者提供调优和定制的空间，使用运行时优化（如计算与通信重叠、内核融合）。 - **基础设施访问**：暴露 NVIDIA GPU、网络、内存和系统能力，无需开发人员直接管理每个设备的指令集或数据传输协议。 NVIDIA 软件栈涵盖模型服务、运行时调度、内核、通信库和硬件感知优化，随着各层改进的叠加，能够快速提升性能并降低服务成本。当这些层次作为整体系统运行时，单个优化的效果会复合放大。解耦服务、基于 NVIDIA NVLink（https://www.nvidia.com/en-us/data-center/nvlink/）互连技术的大规模专家并行、NVFP4 精度和多 Token 预测各自都能带来显著提升。组合使用时，吞吐量可提高多达 20 倍。下图展示了这一结果。在生产中实现这一增益是复杂的，需要整个推理栈的协调——从生产运营、模型运行时间到内核、通信库和硬件访问。NVIDIA 的推理软件栈旨在让这些层次协同工作，使每个优化都能建立在前者之上。叠加软件优化可复合性能增益，将 NVIDIA Blackwell 每 GPU Token 吞吐量从基线提升至最高 20 倍：通过解耦服务、大规模专家并行（Large EP）、NVFP4 和多 Token 预测（MTP）。 ## **开源放大了全栈优势** 同样的全栈基础也因开源生态得以放大。今天许多最广泛使用的开源 AI 框架和推理项目都是基于 NVIDIA CUDA（https://developer.nvidia.com/cuda）原生构建的，这意味着新的研究和软件优化从一开始就能在 NVIDIA GPU 上以领先性能运行。 PyTorch 是一个典型例子。PyTorch 于 2016 年推出，原生支持 CUDA，与 NVIDIA 架构共同演进，使开发者能够通过熟悉的框架直接访问 Tensor Core、Transformer Engine 和 NVFP4 等创新。当诸如 DFlash 推测解码（https://developer.nvidia.com/blog/boost-inference-performance-up-to-15x-on-nvidia-blackwell-using-dflash-speculative-decoding/）（在现有硬件上提供高达 15 倍的吞吐量提升）或 FastVideo（https://haoailab.com/blogs/fastvideo_realtime_1080p/）（在不到 5 秒内生成 1080p 视频）这样的突破性成果落地 PyTorch 时，它们可以立即在 NVIDIA 上运行，帮助 AI 工厂将研究进展转化为更低的 Token 成本。 NVIDIA 和 PyTorch 的协同开发帮助将新的 AI 软件创新带给开发者，随着 PyTorch 的普及，CUDA 原生成果能转化为生产性能。同样的开源动力也解释了为何当像 DeepSeek V4 这样的新前沿开放模型发布时，领先的推理框架（如 vLLM 和 SGLang）会立即提供针对 NVIDIA Blackwell 架构的首日部署方案（https://developer.nvidia.com/blog/build-with-deepseek-v4-using-nvidia-blackwell-and-gpu-accelerated-endpoints/），使模型可在数百万 Blackwell GPU 上使用。这也是 DeepSeek V4 在 Blackwell 上的性能在约一个月内通过 vLLM 和 SGLang（https://pytorch.org/blog/serving-deepseek-v4-on-gb300-with-sglang-5x-higher-throughput-at-the-same-interactivity-since-day-0/）框架提升了最多 5 倍，将 Token 成本降至约原有水平五分之一的原因。 SemiAnalysis InferenceX 结果对比了在相同交互性下，采用 vLLM 和 NVIDIA Dynamo 推理框架的 NVIDIA GB200 NVL72 系统的 Token 吞吐量。这就是开源飞轮：更多开发者优化 CUDA 原生推理路径，更多生产部署反馈回生态，每项软件改进都会在提升 Token 输出的同时，逐步降低每 Token 成本。 *在本期探讨 Tokenomics 的 NVIDIA AI 播客（https://www.youtube.com/watch?v=zNuOOMM20Tk）和推理解决方案页面（https://www.nvidia.com/en-us/solutions/ai/inference/）中，深入了解软件如何放大硬件性能。*

NVIDIA推理软件栈如何实现最低Token成本

相似文章

@rohanpaul_ai: NVIDIA最新发布的报告称其Blackwell推理栈在一个月内将DeepSeek V4的token成本降低了多达5倍。

重新思考 AI 总体拥有成本：为何每 Token 成本是唯一关键指标

五家中国AI实验室将Token价格最高下调99%

@CNET：NVIDIA GTC 主题演讲中，CEO 黄仁勋谈到我们正面临的推理拐点

Tensordyne 发布对数AI计算芯片：每瓦特令牌数比NVIDIA Blackwell多17倍，吞吐量高13倍。

提交意见反馈