重新思考 AI 总体拥有成本：为何每 Token 成本是唯一关键指标

NVIDIA Blog 2026/04/15 15:00 新闻

摘要

NVIDIA 认为，每 Token 成本是衡量 AI 总体拥有成本（TCO）的最关键指标，优于 FLOPS/美元等传统衡量标准，能更准确地反映现实世界中的推理效率和盈利能力。

<div id="bsf_rt_marker"></div>传统数据中心仅负责存储、检索和处理数据。在生成式和智能体 AI 时代，这些设施已演变为 AI Token 工厂。随着 AI 推理成为其主要工作负载，其主要产出是以 Token 形式制造出来的智能。 这一转变要求我们相应地改变对 AI 基础设施经济学（包括总体拥有成本，TCO）的评估方式。企业在评估 AI 基础设施时，仍过于频繁地关注峰值芯片规格、计算成本或每美元浮点运算次数（即 FLOPS 每美元）。 关键的区分在于： <ul> <li>计算成本 是企业为 AI 基础设施支付的代价，无论是从云服务商租赁还是自有机房所有。</li> <li>FLOPS 每美元 是企业每花费一美元所能获得的原始计算能力，但原始计算能力与现实世界的 Token 产出并非同一概念。</li> <li>每 Token 成本 是企业生产每个交付 Token 的全部投入成本，通常以每百万 Token 的成本表示。</li> </ul> 前两者仅仅是输入指标。优化输入指标，而业务实际运行依赖于输出指标，这是一种根本性的错配。 每 Token 成本决定了企业是否能以有利可图的方式扩展 AI 规模。它是唯一直接考量硬件性能、软件优化、生态系统支持及实际使用率的 TCO 指标——而 NVIDIA 在行业内提供了最低的每 Token 成本。 <h2>降低 Token 成本的因素有哪些？</h2> 要理解如何优化 Token 成本，需要审视每百万 Token 成本的计算公式。 <img loading="lazy" decoding="async" class="alignnone wp-image-92324 size-full" src="https://blogs.nvidia.com/wp-content/uploads/2026/04/inference-equation-token-5115300-scaled.png" alt="描述如何计算每百万 Token 成本的公式。每百万 Token 成本 = [每 GPU 每小时成本 / (每 GPU 每秒 Token 数 x 60 秒 x 60 分钟) ] x 100 万。" width="2048" height="1152" srcset="https://blogs.nvidia.com/wp-content/uploads/2026/04/inference-equation-token-5115300-scaled.png 2048w, https://blogs.nvidia.com/wp-content/uploads/2026/04/inference-equation-token-5115300-960x540.png 960w, https://blogs.nvidia.com/wp-content/uploads/2026/04/inference-equation-token-5115300-1680x945.png 1680w, https://blogs.nvidia.com/wp-content/uploads/2026/04/inference-equation-token-5115300-1280x720.png 1280w, https://blogs.nvidia.com/wp-content/uploads/2026/04/inference-equation-token-5115300-1536x864.png 1536w, https://blogs.nvidia.com/wp-content/uploads/2026/04/inference-equation-token-5115300-1290x725.png 1290w, https://blogs.nvidia.com/wp-content/uploads/2026/04/inference-equation-token-5115300-630x354.png 630w, https://blogs.nvidia.com/wp-content/uploads/2026/04/inference-equation-token-5115300-300x169.png 300w, https://blogs.nvidia.com/wp-content/uploads/2026/04/inference-equation-token-5115300-400x225.png 400w" sizes="auto, (max-width: 2048px) 100vw, 2048px" /> 在这个公式中，许多评估 AI 基础设施的企业关注的是分子：每 GPU 每小时成本。对于云端部署，这是支付给云服务商的小时费率；对于本地部署，这是通过摊销自有基础设施得出的有效每小时成本。然而，降低 Token 成本的关键实际上在于分母：最大化交付的 Token 产出。 该分母带来两个商业影响。 <ul> <li>最小化 Token 成本：当 Token 产出的增加反映在成本公式中时，它会降低每 Token 成本，从而增加每次服务交互的利润边际。</li> <li>最大化收入：每秒交付更多 Token 也意味着每兆瓦产出更多 Token，这意味着可以在 AI 驱动的产品和服务中使用更多智能，从而从相同的基础设施投资中产生更多收入。 因此，只关注分子意味着忽略了驱动分母的因素。将其想象为“推理冰山”：分子位于水面之上，可见且易于比较。分母则是水面之下的一切，代表了决定现实世界 Token 产出的关键因素。准确评估 AI 基础设施始于探究水面之下隐藏着什么。 <img loading="lazy" decoding="async" class="alignnone wp-image-92321 size-full" src="https://blogs.nvidia.com/wp-content/uploads/2026/04/Inference-Iceberg-5115325_004-1-scaled.jpg" alt="描述“推理冰山”的图像。冰山顶部特征是峰值芯片规格，如 FLOPS 和高带宽内存（每 GPU 每小时成本，每美元 FLOPS）。冰山底部特征是计算、网络、软件、内存、存储、软件及生态系统的极致协同设计（每 Token 成本，每瓦特 Token 数）。" width="2048" height="1152" srcset="https://blogs.nvidia.com/wp-content/uploads/2026/04/Inference-Iceberg-5115325_004-1-scaled.jpg 2048w, https://blogs.nvidia.com/wp-content/uploads/2026/04/Inference-Iceberg-5115325_004-1-960x540.jpg 960w, https://blogs.nvidia.com/wp-content/uploads/2026/04/Inference-Iceberg-5115325_004-1-1680x945.jpg 1680w, https://blogs.nvidia.com/wp-content/uploads/2026/04/Inference-Iceberg-5115325_004-1-1280x720.jpg 1280w, https://blogs.nvidia.com/wp-content/uploads/2026/04/Inference-Iceberg-5115325_004-1-1536x864.jpg 1536w, https://blogs.nvidia.com/wp-content/uploads/2026/04/Inference-Iceberg-5115325_004-1-1290x725.jpg 1290w, https://blogs.nvidia.com/wp-content/uploads/2026/04/Inference-Iceberg-5115325_004-1-630x354.jpg 630w, https://blogs.nvidia.com/wp-content/uploads/2026/04/Inference-Iceberg-5115325_004-1-300x169.jpg 300w, https://blogs.nvidia.com/wp-content/uploads/2026/04/Inference-Iceberg-5115325_004-1-400x225.jpg 400w" sizes="auto, (max-width: 2048px) 100vw, 2048px" /> <ul> <li aria-level="1">表面层查询： <ul> <li>每 GPU 小时的成本是多少？</li> <li>峰值 Petaflops 和高带宽内存容量是多少？</li> <li>每美元的 FLOPS 是多少？</li> </ul> </li> <li aria-level="1">深入的成本分析： <ul> <li>每百万 Token 的成本是多少？具体而言，对于大规模混合专家（MoE）推理模型（这是目前部署最广泛的 AI 模型类型），每百万 Token 的成本是多少？</li> <li>交付的<a target="_blank" href="https://developer.nvidia.com/blog/scaling-token-factory-revenue-and-ai-efficiency-by-maximizing-performance-per-watt/">每兆瓦 Token 产出</a>是多少？特别是在本地部署场景中，对土地、电力和基础设施的资本投入巨大，最大化每兆瓦产生的智能尤为关键。</li> </ul> </li> </ul> 所以，仅关注分子意味着忽略了驱动分母的因素。可以将其视为“推理冰山”：分子位于水面之上，可见且易于比较。分母则是水面之下的一切，代表决定现实世界 Token 产出的关键因素。准确评估 AI 基础设施始于探究水面之下隐藏着什么。

查看原文

查看缓存全文

缓存时间: 2026/05/08 07:57

# 重新思考 AI 的总体拥有成本（TCO）：为何“每 Token 成本”是唯一重要的指标来源: https://blogs.nvidia.com/blog/lowest-token-cost-ai-factories/ 传统的数据中心仅用于存储、检索和处理数据。在生成式 AI 和代理式 AI（Agentic AI）时代，这些设施已演变为 AI Token 工厂。随着 AI 推理成为其主要工作负载，其核心产出是以 Token 形式制造的智能。这一转型要求我们在评估 AI 基础设施的经济性（包括总体拥有成本，TCO）时做出相应的转变。企业在评估 AI 基础设施时，仍然过于频繁地关注芯片的峰值规格、计算成本或每美元花费所能获得的浮点运算次数（即每美元 FLOPS）。关键在于以下区别： - **计算成本**是企业为 AI 基础设施支付的费用，无论是从云提供商处租用还是本地自建。 - **每美元 FLOPS**是企业每花费一美元能获得的原始计算能力，但原始计算能力与现实世界中的 Token 输出并不等同。 - **每 Token 成本**是企业生产每个交付 Token 的全部投入成本，通常表示为每百万 Token 的成本。前两者仅仅是输入指标。当业务运行依赖于输出时，仅优化输入指标会造成根本性的错配。每 Token 成本决定了企业能否以盈利的方式扩展 AI 应用。它是唯一能直接反映硬件性能、软件优化、生态系统支持以及现实世界利用率的 TCO 指标——而 NVIDIA 提供了业内最低的每 Token 成本。 ## **哪些因素会降低 Token 成本？** 了解如何优化 Token 成本，需要查看计算每百万 Token 成本的公式。 ![描述如何计算每百万 Token 成本的方程。每百万 Token 成本 = [每小时 GPU 成本 / (每秒每 GPU Token 数 x 60 秒 x 60 分钟)] x 100 万。](https://blogs.nvidia.com/wp-content/uploads/2026/04/inference-equation-token-5115300-scaled.png) 在此公式中，许多评估 AI 基础设施的企业往往关注分子：每小时 GPU 成本。对于云端部署而言，这是支付给云提供商的小时费率；对于本地部署而言，这是通过对自有基础设施进行摊销得出的有效小时成本。然而，降低 Token 成本的关键实际上在于分母：最大化交付的 Token 输出量。该分母带来两方面的业务影响。 - **最小化 Token 成本**：当这种 Token 输出的增加通过成本公式体现时，它会降低每 Token 成本，从而提升每次服务交互的利润边际。 - **最大化收入**：每秒交付更多的 Token 也意味着每兆瓦（MW）产生更多的 Token，这意味着可以在 AI 驱动的产品和服务中使用更多的智能，从而从相同的基础设施投资中产生更多收入。因此，仅关注分子意味着忽略了驱动分母的关键因素。可以将其视为“推理冰山”：分子位于水面之上，可见且易于比较。分母则位于水面之下，代表了决定现实世界 Token 输出的关键因素。准确评估 AI 基础设施始于探究水面之下究竟隐藏着什么。描述“推理冰山”的图片。冰山顶部特征为峰值芯片规格，如 FLOPS 和高带宽内存（每小时 GPU 成本、每美元 FLOPS）。冰山底部特征为跨计算、网络、软件、内存、存储、软件及生态系统的极致协同设计（每 Token 成本、每瓦特 Token 数）。 - **表面层查询：** - *每小时 GPU 成本是多少？* - *峰值 Petaflops 和高带宽内存容量是多少？* - *每美元 FLOPS 是多少？* - **深入的成本分析：** - ***每百万 Token 成本*** (https://blogs.nvidia.com/blog/inference-open-source-models-blackwell-reduce-cost-per-token/)**是多少？** 具体而言，大规模混合专家（MoE）推理模型的每百万 Token 成本是多少？这类模型代表了目前部署最广泛的 AI 模型类型。 - ***每兆瓦交付的 Token 输出量*** (https://developer.nvidia.com/blog/scaling-token-factory-revenue-and-ai-efficiency-by-maximizing-performance-per-watt/)**是多少？** 特别是在本地部署中，由于对土地、电力和基础设施的资本投入巨大，最大化每兆瓦产生的智能至关重要。 - ***Scale-up 互连*** (https://blogs.nvidia.com/blog/mixture-of-experts-frontier-models/)**能否处理 MoE 模型的“全对全”（all-to-all）流量？** - ***是否支持 FP4 精度*** (https://developer.nvidia.com/blog/introducing-nvfp4-for-efficient-and-accurate-low-precision-inference/)**？推理栈能否在保持高精度的同时利用 FP4？** - ***推理运行时*** (https://developer.nvidia.com/blog/an-introduction-to-speculative-decoding-for-reducing-latency-in-ai-inference/)**是否支持投机解码或多 Token 预测以提高用户交互性？** - ***服务层*** (https://developer.nvidia.com/blog/nvidia-dynamo-1-production-ready/)**是否支持分离式服务、KV 感知路由、KV 缓存卸载及其他优化？** - 平台是否支持代理式 AI 的独特工作负载需求——包括超低延迟、高吞吐量和长输入序列长度？ - 平台是否支持从训练、后训练到大规模推理的全生命周期，涵盖所有模型架构，以确保基础设施的可替代性和高利用率？所有这些算法、硬件和软件优化必须处于激活并集成状态，否则分母就会崩溃。如果“更便宜”的 GPU 每秒交付的 Token 数量显著减少，将导致每 Token 成本大幅上升。在全栈层面做得正确的 AI 基础设施确保每一项优化都能增强其他优化。 ## **为何每 Token 成本比每美元 FLOPS 重要得多？** 以下关于 DeepSeek-R1 AI 模型的数据展示了理论结果与实际业务成果之间的差异。仅看计算成本，NVIDIA Blackwell 平台的成本似乎比 NVIDIA Hopper 高出约 2 倍——但计算成本并未说明该投资所购买的输出量。仅分析每美元 FLOPS 表明，与 NVIDIA Hopper 架构相比，NVIDIA Blackwell 具有 2 倍的优势。然而，实际结果却相差几个数量级：Blackwell 每瓦特的 Token 输出量比 Hopper 高出 50 倍以上，使得每百万 Token 成本降低了近 35 倍。 **指标**| **NVIDIA Hopper (HGX H200)** | **NVIDIA Blackwell (GB300 NVL72)** | **NVIDIA Blackwell 相对于 Hopper** ---|---|---|--- 每小时 GPU 成本 ($) | $1.41 | $2.65 | 2x 每美元 FLOP (PFLOPS) | 2.8 | 5.6 | 2x 每秒每 GPU Token 数 | 906,000 | **65x** | 每秒每兆瓦 Token 数 | 54K | 2.8M | **50x** 每百万 Token 成本 ($) | $4.20 | $0.12 | **低 35x** *注：数据源自 NVIDIA 分析及**SemiAnalysis InferenceX v2* (https://inferencex.semianalysis.com/inference)*基准测试。* 这种巨大的差异证明，NVIDIA Blackwell 相比早期的 Hopper 世代，在业务价值上实现了巨大飞跃，远远超过了系统成本的任何增加。 ## **如何选择合适的 AI 基础设施** 基于计算成本或理论每美元 FLOPS 来比较 AI 基础设施不仅是不够的，而且无法准确反映推理经济的实际情况。如数据所示，要准确评估 AI 基础设施的收入潜力和盈利能力，需要从输入指标转向每 Token 成本和实际交付的 Token 输出量。通过跨计算、网络、内存、存储、软件及合作伙伴技术的极致协同设计 (https://blogs.nvidia.com/blog/blackwell-ai-inference/)，NVIDIA 提供了业内最低的 Token 成本和最高的 Token 吞吐量。此外，构建在 NVIDIA 平台上的开源推理软件（如 vLLM、SGLang、NVIDIA TensorRT-LLM 和 NVIDIA Dynamo）的持续优化意味着，在现有的 NVIDIA 基础设施上，即使在采购之后很长一段时间内，Token 输出量仍在不断增加，而每 Token 成本仍在持续下降。领先的云提供商和 NVIDIA 云合作伙伴已经在大范围内提供这一优势。合作伙伴如 CoreWeave (https://x.com/NVIDIADC/status/2044514332508082515?s=20)、Nebius (https://x.com/NVIDIADC/status/2044514334437437687?s=20)、Nscale (https://x.com/NVIDIADC/status/2044514336303890477?s=20) 和 Together AI (https://x.com/NVIDIADC/status/2044514338132709762?s=20) 已部署 NVIDIA Blackwell 基础设施 (https://www.youtube.com/watch?v=jw_o0xr8MWU&t=3982s) 并优化其技术栈，为企业带来当今可用的最低 Token 成本，并在每一次服务交互的背后，充分受益于 NVIDIA 硬件、软件和生态系统的协同设计。

重新思考 AI 总体拥有成本：为何每 Token 成本是唯一关键指标

相似文章

@levie: Token成本将成为企业未来AI应用中的主导话题。刚与许多Fortu…

AI token 使用在什么情况下会成为业务问题？

@rohanpaul_ai: "并非所有令牌都生而平等，有一种方法可以看待令牌的价值。有两个关键因素影响令牌价值…"

智能每美元（2分钟阅读）

成本至关重要

提交意见反馈