重新思考 AI 总体拥有成本:为何每 Token 成本是唯一关键指标
摘要
NVIDIA 认为,每 Token 成本是衡量 AI 总体拥有成本(TCO)的最关键指标,优于 FLOPS/美元等传统衡量标准,能更准确地反映现实世界中的推理效率和盈利能力。
<div id="bsf_rt_marker"></div><p><span style="font-weight: 400;">传统数据中心仅负责存储、检索和处理数据。在生成式和智能体 AI 时代,这些设施已演变为 AI Token 工厂。随着 AI 推理成为其主要工作负载,其主要产出是以 Token 形式制造出来的智能。</span></p>
<p><span style="font-weight: 400;">这一转变要求我们相应地改变对 AI 基础设施经济学(包括总体拥有成本,TCO)的评估方式。企业在评估 AI 基础设施时,仍过于频繁地关注峰值芯片规格、计算成本或每美元浮点运算次数(即 FLOPS 每美元)。</span></p>
<p><span style="font-weight: 400;">关键的区分在于:</span></p>
<ul>
<li><b>计算成本 </b><span style="font-weight: 400;">是企业为 AI 基础设施支付的代价,无论是从云服务商租赁还是自有机房所有。</span></li>
<li><b>FLOPS 每美元</b><span style="font-weight: 400;"> 是企业每花费一美元所能获得的原始计算能力,但原始计算能力与现实世界的 Token 产出并非同一概念。</span></li>
<li><b>每 Token 成本</b><span style="font-weight: 400;"> 是企业生产每个交付 Token 的全部投入成本,通常以每百万 Token 的成本表示。</span></li>
</ul>
<p><span style="font-weight: 400;">前两者仅仅是输入指标。优化输入指标,而业务实际运行依赖于输出指标,这是一种根本性的错配。</span></p>
<p><span style="font-weight: 400;">每 Token 成本决定了企业是否能以有利可图的方式扩展 AI 规模。它是唯一直接考量硬件性能、软件优化、生态系统支持及实际使用率的 TCO 指标——而 NVIDIA 在行业内提供了最低的每 Token 成本。</span></p>
<h2><b>降低 Token 成本的因素有哪些?</b></h2>
<p><span style="font-weight: 400;">要理解如何优化 Token 成本,需要审视每百万 Token 成本的计算公式。</span></p>
<p><img loading="lazy" decoding="async" class="alignnone wp-image-92324 size-full" src="https://blogs.nvidia.com/wp-content/uploads/2026/04/inference-equation-token-5115300-scaled.png" alt="描述如何计算每百万 Token 成本的公式。每百万 Token 成本 = [每 GPU 每小时成本 / (每 GPU 每秒 Token 数 x 60 秒 x 60 分钟) ] x 100 万。" width="2048" height="1152" srcset="https://blogs.nvidia.com/wp-content/uploads/2026/04/inference-equation-token-5115300-scaled.png 2048w, https://blogs.nvidia.com/wp-content/uploads/2026/04/inference-equation-token-5115300-960x540.png 960w, https://blogs.nvidia.com/wp-content/uploads/2026/04/inference-equation-token-5115300-1680x945.png 1680w, https://blogs.nvidia.com/wp-content/uploads/2026/04/inference-equation-token-5115300-1280x720.png 1280w, https://blogs.nvidia.com/wp-content/uploads/2026/04/inference-equation-token-5115300-1536x864.png 1536w, https://blogs.nvidia.com/wp-content/uploads/2026/04/inference-equation-token-5115300-1290x725.png 1290w, https://blogs.nvidia.com/wp-content/uploads/2026/04/inference-equation-token-5115300-630x354.png 630w, https://blogs.nvidia.com/wp-content/uploads/2026/04/inference-equation-token-5115300-300x169.png 300w, https://blogs.nvidia.com/wp-content/uploads/2026/04/inference-equation-token-5115300-400x225.png 400w" sizes="auto, (max-width: 2048px) 100vw, 2048px" /></p>
<p><span style="font-weight: 400;">在这个公式中,许多评估 AI 基础设施的企业关注的是分子:每 GPU 每小时成本。对于云端部署,这是支付给云服务商的小时费率;对于本地部署,这是通过摊销自有基础设施得出的有效每小时成本。然而,降低 Token 成本的关键实际上在于分母:最大化交付的 Token 产出。</span></p>
<p><span style="font-weight: 400;">该分母带来两个商业影响。</span></p>
<ul>
<li><b>最小化 Token 成本</b><span style="font-weight: 400;">:当 Token 产出的增加反映在成本公式中时,它会降低每 Token 成本,从而增加每次服务交互的利润边际。</span></li>
<li><b>最大化收入</b><span style="font-weight: 400;">:每秒交付更多 Token 也意味着每兆瓦产出更多 Token,这意味着可以在 AI 驱动的产品和服务中使用更多智能,从而从相同的基础设施投资中产生更多收入。</span></p>
<p><span style="font-weight: 400;">因此,只关注分子意味着忽略了驱动分母的因素。将其想象为“推理冰山”:分子位于水面之上,可见且易于比较。分母则是水面之下的一切,代表了决定现实世界 Token 产出的关键因素。准确评估 AI 基础设施始于探究水面之下隐藏着什么。</span></p>
<p><img loading="lazy" decoding="async" class="alignnone wp-image-92321 size-full" src="https://blogs.nvidia.com/wp-content/uploads/2026/04/Inference-Iceberg-5115325_004-1-scaled.jpg" alt="描述“推理冰山”的图像。冰山顶部特征是峰值芯片规格,如 FLOPS 和高带宽内存(每 GPU 每小时成本,每美元 FLOPS)。冰山底部特征是计算、网络、软件、内存、存储、软件及生态系统的极致协同设计(每 Token 成本,每瓦特 Token 数)。" width="2048" height="1152" srcset="https://blogs.nvidia.com/wp-content/uploads/2026/04/Inference-Iceberg-5115325_004-1-scaled.jpg 2048w, https://blogs.nvidia.com/wp-content/uploads/2026/04/Inference-Iceberg-5115325_004-1-960x540.jpg 960w, https://blogs.nvidia.com/wp-content/uploads/2026/04/Inference-Iceberg-5115325_004-1-1680x945.jpg 1680w, https://blogs.nvidia.com/wp-content/uploads/2026/04/Inference-Iceberg-5115325_004-1-1280x720.jpg 1280w, https://blogs.nvidia.com/wp-content/uploads/2026/04/Inference-Iceberg-5115325_004-1-1536x864.jpg 1536w, https://blogs.nvidia.com/wp-content/uploads/2026/04/Inference-Iceberg-5115325_004-1-1290x725.jpg 1290w, https://blogs.nvidia.com/wp-content/uploads/2026/04/Inference-Iceberg-5115325_004-1-630x354.jpg 630w, https://blogs.nvidia.com/wp-content/uploads/2026/04/Inference-Iceberg-5115325_004-1-300x169.jpg 300w, https://blogs.nvidia.com/wp-content/uploads/2026/04/Inference-Iceberg-5115325_004-1-400x225.jpg 400w" sizes="auto, (max-width: 2048px) 100vw, 2048px" /></p>
<ul>
<li aria-level="1"><b>表面层查询:</b>
<ul>
<li><i><span style="font-weight: 400;">每 GPU 小时的成本是多少?</span></i></li>
<li><i><span style="font-weight: 400;">峰值 Petaflops 和高带宽内存容量是多少?</span></i></li>
<li><i><span style="font-weight: 400;">每美元的 FLOPS 是多少?</span></i></li>
</ul>
</li>
<li aria-level="1"><b>深入的成本分析:</b>
<ul>
<li><i><span style="font-weight: 400;">每百万 Token 的成本是多少?具体而言,对于大规模混合专家(MoE)推理模型(这是目前部署最广泛的 AI 模型类型),每百万 Token 的成本是多少?</span></i></li>
<li><i><span style="font-weight: 400;">交付的</span></i><a target="_blank" href="https://developer.nvidia.com/blog/scaling-token-factory-revenue-and-ai-efficiency-by-maximizing-performance-per-watt/"><i><span style="font-weight: 400;">每兆瓦 Token 产出</span></i></a><i><span style="font-weight: 400;">是多少?特别是在本地部署场景中,对土地、电力和基础设施的资本投入巨大,最大化每兆瓦产生的智能尤为关键。</span></i></li>
</ul>
</li>
</ul>
<p><span style="font-weight: 400;">所以,仅关注分子意味着忽略了驱动分母的因素。可以将其视为“推理冰山”:分子位于水面之上,可见且易于比较。分母则是水面之下的一切,代表决定现实世界 Token 产出的关键因素。准确评估 AI 基础设施始于探究水面之下隐藏着什么。</span></p>
查看缓存全文
缓存时间: 2026/05/08 07:57
# 重新思考 AI 的总体拥有成本(TCO):为何“每 Token 成本”是唯一重要的指标
来源: https://blogs.nvidia.com/blog/lowest-token-cost-ai-factories/
传统的数据中心仅用于存储、检索和处理数据。在生成式 AI 和代理式 AI(Agentic AI)时代,这些设施已演变为 AI Token 工厂。随着 AI 推理成为其主要工作负载,其核心产出是以 Token 形式制造的智能。
这一转型要求我们在评估 AI 基础设施的经济性(包括总体拥有成本,TCO)时做出相应的转变。企业在评估 AI 基础设施时,仍然过于频繁地关注芯片的峰值规格、计算成本或每美元花费所能获得的浮点运算次数(即每美元 FLOPS)。
关键在于以下区别:
- **计算成本**是企业为 AI 基础设施支付的费用,无论是从云提供商处租用还是本地自建。
- **每美元 FLOPS**是企业每花费一美元能获得的原始计算能力,但原始计算能力与现实世界中的 Token 输出并不等同。
- **每 Token 成本**是企业生产每个交付 Token 的全部投入成本,通常表示为每百万 Token 的成本。
前两者仅仅是输入指标。当业务运行依赖于输出时,仅优化输入指标会造成根本性的错配。
每 Token 成本决定了企业能否以盈利的方式扩展 AI 应用。它是唯一能直接反映硬件性能、软件优化、生态系统支持以及现实世界利用率的 TCO 指标——而 NVIDIA 提供了业内最低的每 Token 成本。
## **哪些因素会降低 Token 成本?**
了解如何优化 Token 成本,需要查看计算每百万 Token 成本的公式。
![描述如何计算每百万 Token 成本的方程。每百万 Token 成本 = [每小时 GPU 成本 / (每秒每 GPU Token 数 x 60 秒 x 60 分钟)] x 100 万。](https://blogs.nvidia.com/wp-content/uploads/2026/04/inference-equation-token-5115300-scaled.png)
在此公式中,许多评估 AI 基础设施的企业往往关注分子:每小时 GPU 成本。对于云端部署而言,这是支付给云提供商的小时费率;对于本地部署而言,这是通过对自有基础设施进行摊销得出的有效小时成本。然而,降低 Token 成本的关键实际上在于分母:最大化交付的 Token 输出量。
该分母带来两方面的业务影响。
- **最小化 Token 成本**:当这种 Token 输出的增加通过成本公式体现时,它会降低每 Token 成本,从而提升每次服务交互的利润边际。
- **最大化收入**:每秒交付更多的 Token 也意味着每兆瓦(MW)产生更多的 Token,这意味着可以在 AI 驱动的产品和服务中使用更多的智能,从而从相同的基础设施投资中产生更多收入。
因此,仅关注分子意味着忽略了驱动分母的关键因素。可以将其视为“推理冰山”:分子位于水面之上,可见且易于比较。分母则位于水面之下,代表了决定现实世界 Token 输出的关键因素。准确评估 AI 基础设施始于探究水面之下究竟隐藏着什么。
描述“推理冰山”的图片。冰山顶部特征为峰值芯片规格,如 FLOPS 和高带宽内存(每小时 GPU 成本、每美元 FLOPS)。冰山底部特征为跨计算、网络、软件、内存、存储、软件及生态系统的极致协同设计(每 Token 成本、每瓦特 Token 数)。
- **表面层查询:**
- *每小时 GPU 成本是多少?*
- *峰值 Petaflops 和高带宽内存容量是多少?*
- *每美元 FLOPS 是多少?*
- **深入的成本分析:**
- ***每百万 Token 成本*** (https://blogs.nvidia.com/blog/inference-open-source-models-blackwell-reduce-cost-per-token/)**是多少?** 具体而言,大规模混合专家(MoE)推理模型的每百万 Token 成本是多少?这类模型代表了目前部署最广泛的 AI 模型类型。
- ***每兆瓦交付的 Token 输出量*** (https://developer.nvidia.com/blog/scaling-token-factory-revenue-and-ai-efficiency-by-maximizing-performance-per-watt/)**是多少?** 特别是在本地部署中,由于对土地、电力和基础设施的资本投入巨大,最大化每兆瓦产生的智能至关重要。
- ***Scale-up 互连*** (https://blogs.nvidia.com/blog/mixture-of-experts-frontier-models/)**能否处理 MoE 模型的“全对全”(all-to-all)流量?**
- ***是否支持 FP4 精度*** (https://developer.nvidia.com/blog/introducing-nvfp4-for-efficient-and-accurate-low-precision-inference/)**?推理栈能否在保持高精度的同时利用 FP4?**
- ***推理运行时*** (https://developer.nvidia.com/blog/an-introduction-to-speculative-decoding-for-reducing-latency-in-ai-inference/)**是否支持投机解码或多 Token 预测以提高用户交互性?**
- ***服务层*** (https://developer.nvidia.com/blog/nvidia-dynamo-1-production-ready/)**是否支持分离式服务、KV 感知路由、KV 缓存卸载及其他优化?**
- 平台是否支持代理式 AI 的独特工作负载需求——包括超低延迟、高吞吐量和长输入序列长度?
- 平台是否支持从训练、后训练到大规模推理的全生命周期,涵盖所有模型架构,以确保基础设施的可替代性和高利用率?
所有这些算法、硬件和软件优化必须处于激活并集成状态,否则分母就会崩溃。如果“更便宜”的 GPU 每秒交付的 Token 数量显著减少,将导致每 Token 成本大幅上升。在全栈层面做得正确的 AI 基础设施确保每一项优化都能增强其他优化。
## **为何每 Token 成本比每美元 FLOPS 重要得多?**
以下关于 DeepSeek-R1 AI 模型的数据展示了理论结果与实际业务成果之间的差异。
仅看计算成本,NVIDIA Blackwell 平台的成本似乎比 NVIDIA Hopper 高出约 2 倍——但计算成本并未说明该投资所购买的输出量。仅分析每美元 FLOPS 表明,与 NVIDIA Hopper 架构相比,NVIDIA Blackwell 具有 2 倍的优势。然而,实际结果却相差几个数量级:Blackwell 每瓦特的 Token 输出量比 Hopper 高出 50 倍以上,使得每百万 Token 成本降低了近 35 倍。
**指标**| **NVIDIA Hopper (HGX H200)** | **NVIDIA Blackwell (GB300 NVL72)** | **NVIDIA Blackwell 相对于 Hopper**
---|---|---|---
每小时 GPU 成本 ($) | $1.41 | $2.65 | 2x
每美元 FLOP (PFLOPS) | 2.8 | 5.6 | 2x
每秒每 GPU Token 数 | 906,000 | **65x** |
每秒每兆瓦 Token 数 | 54K | 2.8M | **50x**
每百万 Token 成本 ($) | $4.20 | $0.12 | **低 35x**
*注:数据源自 NVIDIA 分析及**SemiAnalysis InferenceX v2* (https://inferencex.semianalysis.com/inference)*基准测试。*
这种巨大的差异证明,NVIDIA Blackwell 相比早期的 Hopper 世代,在业务价值上实现了巨大飞跃,远远超过了系统成本的任何增加。
## **如何选择合适的 AI 基础设施**
基于计算成本或理论每美元 FLOPS 来比较 AI 基础设施不仅是不够的,而且无法准确反映推理经济的实际情况。如数据所示,要准确评估 AI 基础设施的收入潜力和盈利能力,需要从输入指标转向每 Token 成本和实际交付的 Token 输出量。
通过跨计算、网络、内存、存储、软件及合作伙伴技术的极致协同设计 (https://blogs.nvidia.com/blog/blackwell-ai-inference/),NVIDIA 提供了业内最低的 Token 成本和最高的 Token 吞吐量。此外,构建在 NVIDIA 平台上的开源推理软件(如 vLLM、SGLang、NVIDIA TensorRT-LLM 和 NVIDIA Dynamo)的持续优化意味着,在现有的 NVIDIA 基础设施上,即使在采购之后很长一段时间内,Token 输出量仍在不断增加,而每 Token 成本仍在持续下降。
领先的云提供商和 NVIDIA 云合作伙伴已经在大范围内提供这一优势。合作伙伴如 CoreWeave (https://x.com/NVIDIADC/status/2044514332508082515?s=20)、Nebius (https://x.com/NVIDIADC/status/2044514334437437687?s=20)、Nscale (https://x.com/NVIDIADC/status/2044514336303890477?s=20) 和 Together AI (https://x.com/NVIDIADC/status/2044514338132709762?s=20) 已部署 NVIDIA Blackwell 基础设施 (https://www.youtube.com/watch?v=jw_o0xr8MWU&t=3982s) 并优化其技术栈,为企业带来当今可用的最低 Token 成本,并在每一次服务交互的背后,充分受益于 NVIDIA 硬件、软件和生态系统的协同设计。
相似文章
@levie: Token成本将成为企业未来AI应用中的主导话题。刚与许多Fortu…
Token成本正成为企业采用AI的关键关注点,CIO们难以管理不同模型和用例的开支。OpenAI宣布推出Guaranteed Capacity以解决长期计算资源获取问题。
AI token 使用在什么情况下会成为业务问题?
文章强调了AI token使用经济性在大规模应用时被低估的挑战,讨论了随着组织从概念验证转向企业级部署,成本如何成为治理问题。它提出了关于成本可见性、监控以及平衡性能与成本的问题。
@rohanpaul_ai: "并非所有令牌都生而平等,有一种方法可以看待令牌的价值。有两个关键因素影响令牌价值…"
讨论了人工智能中的令牌经济,强调令牌的价值取决于智能和速度,并且优化令牌经济应从客户用例开始。
智能每美元(2分钟阅读)
微软在模型发布卡上引入'平均Token使用量'作为衡量每美元智能的新指标,将AI竞争转向效率和成本效益。该指标在性能和实现智能的成本两方面对模型进行基准测试。
成本至关重要
一份Citadel Securities的报告指出,前沿人工智能因算力和推理成本正面临真正的经济限制,导致向成本纪律和模型替代的转变。该报告验证了近期高额令牌费用体验,并预测了AI使用将出现分化。