为什么AI代币会让你的企业云账单再次飙升
摘要
文章分析了向基于代币的AI定价模式的转变,这种模式比固定费用模式昂贵得多,并且给企业带来了成本不可预测性,与早期云定价的挑战相类似。
暂无内容
查看缓存全文
缓存时间: 2026/06/29 18:41
# 为什么AI代币将再次推高企业云账单
来源:https://www.zdnet.com/article/why-ai-tokens-will-send-enterprise-cloud-bill-sky-high/
redtokens-gettyimages-2219663429
imaginima/ iStock / Getty Images Plus via Getty Images*关注 ZDNET:*添加我们为首选来源 (https://cc.zdnet.com/v1/otc/00hQi47eqnEWQ6T9d4QLBUc?element=BODY&element_label=Add+us+as+a+preferred+source&module=LINK&object_type=text-link&object_uuid=b2ef2ba4-7e3b-45dd-9336-508fca1e5d60&position=1&template=article&track_code=__COM_CLICK_ID__&url=https%3A%2F%2Fwww.google.com%2Fpreferences%2Fsource%3Fq%3Dzdnet.com&view_instance_uuid=63b49478-7842-44af-9a06-3b3ba4127b73&object_version=1bd08e41-81c3-497e-9d47-06e5ca27beb4)*于 Google\.*
---
### ZDNET 关键要点
- AI 使用正在转向基于代币的定价。
- 代币定价远高于此前的固定费用模式。
- 衡量 AI 带来的价值仍是一个未解决的难题。
---
圣迭戈——几个月前,大多数人还为 AI 访问支付固定费用。那是过去。这是现在。AI 定价作为亏本销售 (https://www.investopedia.com/terms/l/lossleader.asp) 的日子已经结束。正如大家在 FinOps X 2026 (https://x.finops.org/#link={%22role%22:%22standard%22,%22href%22:%22https://x.finops.org/%22,%22target%22:%22_blank%22,%22absolute%22:%22%22,%22linkText%22:%22FinOps%20X%202026%22}) 上讨论的那样,AI 的基于代币定价模式正成为整个生成式 AI 经济的基础,而且远比旧模式昂贵。问问那些因新代币定价而苦恼的 CoPilot 用户就知道了 (https://techcrunch.com/2026/05/30/what-a-joke-github-copilots-new-token-based-billing-spurs-consternation-among-devs/)。
对于许多企业客户来说,这让他们想起了云定价的早期阶段,那时他们不得不应对波动性发票和商业模式的不断变化。在混乱的表象之下,代币正悄然标准化:实验室如何将稀缺的 GPU 产能转化为可计费单位,企业如何衡量 AI 使用量,以及软件供应商如何重新定价其产品。
**另请参阅:部署 AI 代理?4 种快速行动但须极度谨慎的方法 (https://www.zdnet.com/article/rolling-out-ai-agents-move-fast-and-furious-but-with-extreme-caution/)**
## 代币:AI 的原子单位
在这个新世界中,代币是 AI 工作的基本单位。FinOps 基金会 (https://www.finops.org/) 执行董事 J.R. Storment 称其为“AI 的原子单位”。在他的 FinOps 主题演讲中,Storment 表示,“代币在现代经济中扮演的角色,几乎比现代历史上任何其他商品都要多,也许,也许仅次于 20 世纪的石油。”他告诉 FinOps X 受众,代币同时是“所有硬件、计算和数据中心的输出单位”、“实验室如何定价其输出和输入”以及“企业寻求货币化的价值单位”。
正是这种抽象性让实验室和超大规模云服务商喜欢它。他们无需直接按 GPU 类型、内存和功率收费,而是可以暴露一个单一单位——每百万代币——覆盖令人困惑的各种架构和部署拓扑。OpenAI、Anthropic、Google 等公司现在都会发布每个模型的费率卡,其中输入代币(你发送给模型的所有内容)和输出代币(模型返回的所有内容)分别定价,通常以每百万代币多少美元报价。
**另请参阅:制定能带来回报的代理型 AI 策略——且不冒业务失败的风险 (https://www.zdnet.com/article/building-an-agentic-ai-strategy-that-pays-off/)**
那么代币到底是什么?Storment 说,AI 代币是“单词或短语在被大语言模型 (LLM) 处理时可以分解的最小单位”。在模型处理文本之前,它会将其分解为片段,这个过程称为分词。对于英语,一个常见的经验法则是“一个代币大约相当于四个字符,或者大约四分之三个单词”,因此“100 代币 ≈ 75 个单词”。
代币隐藏了巨大的复杂性。正如 SAP (https://www.sap.com/index.html) 的 FinOps 团队在会议中所说:“你按代币付费,而这个小小的代币在可预测性之下隐藏着巨大的复杂性”,从模型选择和量化到使用缓存或代理的程度。FinOps 团队现在正被要求解码这种复杂性。
## 代币无限量供应时代已经结束
如果说 2023 年到 2025 年初是廉价实验的时代,那么过去 18 个月则是一次残酷的觉醒。Storment 描述了三个不同的阶段:ChatGPT 之前的“AI 旧时代”,聊天机器人“能写一些不错代码”的“AI 美好旧时代”,以及 2025 年 11 月之后主要模型发布“将 AI 从相当好提升到非常好”的世界。
在美好旧时代,也就是代币和订阅无限量供应的时代,我们经历了一个短暂的代币最大化时期。那时每个人都对他们的代币排行榜 (https://www.zdnet.com/article/you-can-now-give-notebooklm-more-instructions-heres-why-thats-a-game-changer/) 感到兴奋,这显示了谁拥有最多的代币使用量。如今,代币排行榜已经痛苦地过时了,因为没有人能负担得起浪费代币。正如亚马逊高级副总裁 Dave Treadwell 恳求的那样:“请不要为了使用 AI 而使用 AI。(https://www.businessinsider.com/amazon-ai-leaderboard-tokenmaxxing-2026-5?op=1)”
客观地说,Storment 表示,去年 6 月到 11 月,全球代币使用量呈“漂亮的线性增长”。然后新模型和代理模式出现了。上下文窗口“从几千或几万或几十万代币增加到单次对话中的数百万代币”,而“代理模式突然爆发”,增加了“循环、重试、纠正以及所有这些疯狂的行为”。
**另请参阅:自主业务即将到来。为什么这种转变对专业人士来说是好事 (https://www.zdnet.com/article/the-autonomous-business-is-coming-heres-why-that-shift-is-good-news-for-professionals/)**
公司曾乐于补贴这种行为……直到他们看到账单。Storment 讲述了一些“每月 200 美元”的重度用户实际上“当你在最新模型上运行所有内容时,每月花费高达数万美元”。例如,AI 分析公司 SemiAnalysis (https://semianalysis.com/) 最近估计,一个 200 美元的 Anthropic 计划过去提供价值 8,000 美元的 Claude 代币 (https://x.com/SemiAnalysis_/status/2064815044085318040),而类似的 OpenAI 产品提供价值 14,000 美元的 Codex 代币。
那些日子和价格已经结束了。展望未来,公司将不得不支付 AI 代币的实际成本。
“所以现在最重要的是 AI 价值,”Storment 对与会者说。“我们必须把价值带回我们所做的事情中……我们正处于一个代币是主要衡量标准的时代。我们正处于一个代币存在于软件一切之中的时代,它们正在驱动着全球代币经济的大部分。”
## 稀缺性防止代币价格崩溃
如果只有摩尔定律和超大规模竞争在起作用,你可能会预期代币价格持续下跌。在某种程度上,确实如此。“自 2023 年以来,代币价格大幅下降,”Storment 承认。SAP 的内部遥测数据也讲述了类似的故事。“这是我们同期每代币的成本,”SAP 数据科学家 Maida Nazifi 展示他们的内部图表时说。“它显然在下降,尽管最后略有平缓。老实说,这符合每个人都想相信的说法,对吧?代币价格持续下跌。”
但两人都强调了一个警告:底部可能已在眼前。Storment 指出,如果“你查看顶级实验室及其定价,并使用 Wayback Machine。自 2025 年 11 月以来,代币价格一直相当平稳”,他将其直接归因于硬件和电力限制:“我们无法获得足够的硬件,无法获得足够的电力……我们看到积压、长期承诺期以及短缺。”
**另请参阅:AI 代理正在获得自己的搜索引擎 (https://www.zdnet.com/article/ai-agents-are-getting-their-own-search-engine/)**
他引用英特尔 CEO 的话,称他不期望 GPU 及相关组件供应真正缓解“直到 2028 年”。Nazifi 和 SAP 副总裁 Frederik Pohl 在其公司也看到同样的情况:Pohl 警告说:“我们面临供应链限制,硬件价格上涨,新前沿模型的成本越来越高。”
最终结果是经典的杰文斯悖论 (https://www.npr.org/sections/planet-money/2025/02/04/g-s1-46018/ai-deepseek-economics-jevons-paradox):单位成本下降,总支出爆炸式增长。“即使代币价格下降,我们的支出仍在上升,这就是著名的悖论,”Pohl 说。“在我们的规模下,单位成本在下降,但有些月份支出翻了一番。”
Storment 认为悖论才刚刚开始。高盛估计,全球使用量将从今天的“6 万亿代币”上升到大约 3.5 年后的“预测 120 万亿代币”。即使代币价格在供应放松后进一步下降,它们也不太可能以增长速度的 24 倍速度下降。
## FinOps 发现代币经济学
对于 FinOps 社区来说,他们曾在云资源优化和预留实例方面积累了经验,代币定价既熟悉又完全陌生。熟悉的部分是它按使用量计费,发票金额大,预测困难。陌生的部分?单位与语言相关,而非基础设施,并且随着模型发布而快速变化,而非像服务器折旧计划那样缓慢。
Pohl 断言:“AI 不仅延伸了云剧本,它还打破了它;AI 与云的区别,比云与数据中心的区别更大。”与 CPU 不同,“AI 模型绝非如此……它们有独特的优缺点……它们有不同的成本概况,交换 LLM 不仅仅是定价决策,还是输出质量的决策。”
SAP 的经验是企业如何重新调整工具的一个案例研究。Pohl 解释说,其 Business AI 平台运行在“多个不同的 LLM”上,包括“ChatGPT、Anthropic、Gemini……其他开源模型”,并叠加在“不同的超大规模云服务商”之上。
**另请参阅:Work IQ 是微软对代理优先企业 IT 的重大押注,我有疑问 (https://www.zdnet.com/article/work-iq-is-microsofts-big-bet-on-agent-first-enterprise-software/)**
当 SAP 最初寻求 AI 成本数据时,“我们立即碰壁,”Nazifi 回忆道。“现有的(云)工具对 LLM 的细微差别视而不见,所以他们可以告诉我们花了多少钱在(某个供应商)上,但无法告诉我们具体是哪个模型,或者模型花了多少。这就像试图通过查看矿石总重量来优化你的金矿开采作业。”
所以他们采取了艰难的方式:“我们手动提取数据,跨表合并数据,然后手工绘制了第一张图。”这张图片,一旦到达全球基础设施负责人和 CTO 手中,就改变了对话。“几天之内,它就从‘好吧,这很有趣,保持更新’变成了……‘我需要定期看到这个,我需要更多,’”Nazifi 说。Pohl 补充了 FinOps 的教训:“如果 CTO 要求一个数字,那不是问题,而是命令。”
这种需求迫使 SAP 建立了一个基于三大支柱的内部 AI FinOps 框架:
- **支出可见性:**“我们消费什么,如何消费,在哪里消费”,跨模型、平台、业务单元和地区。
- **经济学:**“你利用 AI 的效率如何”,通过代币层面的指标来衡量,如输入/输出比率、缓存代币比率以及“代币到支出漂移”,以查看成本上升是由于数量增加还是切换到了更昂贵的模型组合。
- **价值:**将 AI 支出与业务成果联系起来,通过“每次用例成本”和“按收入计算的推理成本”,以便他们能够判断“哪些 AI 功能在经济上可行”以及“你的 AI 产品利润率是否实际可行”。
“每个代币都需要赚回其成本,”Pohl 说,呼应了 Nvidia CEO 黄仁勋的短语“代币工厂效率”。这个工厂涵盖从芯片和数据中心租赁到模型路由和提示设计的方方面面。
## Tokenomics:超越单纯计数代币
如果说 FinOps 是关于成本控制和问责制,那么 tokenomics(代币经济学),至少按照 Linux 基金会的定位 (https://techstrong.ai/articles/overwhelmed-by-ai-cost-management-the-tokenomics-foundation-can-help/),是关于代币作为经济商品的完整生命周期。Storment 将其定义为“将能源和资本转化为 AI 代币和资源、消费这些代币以及所有相关技术以驱动高效智能,并最终在后台驱动价值的新兴学科”。
在他看来,这分为三个部分:
- **生产:**“利用能源和资本创造代币”,无论是在云数据中心、机房、边缘设备,还是像 Elon Musk 喜欢想象的那样,“太空数据中心 (https://www.washingtonpost.com/technology/2026/06/19/data-center-space-musks-spacex-has-some-people-taking-it-seriously/)”中。
- **消费:**所有分配、预测和优化,“听起来很像 AI 的 FinOps”,涵盖模型路由、量化选择、代理限制和缓存策略。
- **价值:**“我们如何将这些代币货币化?我们如何根据代币成本调整定价?基于 AI 成本,我们整个公司的劳动力影响是什么?”
最后一部分是代币定价直接与软件即服务 (SaaS) 商业模式冲突的地方。正如 Storment 在接受采访时告诉我的那样:“Tokenomics 正涉及代币的价格,而我们如何有效管理这些代币的生产和消费,正在改变财富 100 强公司的定价模式。”
他提到微软的 GitHub 举措,将 Copilot 转向更明确的基于使用量的计费模式,作为早期例子。那些“喜欢无限代币”的开发者现在“真的对微软感到愤怒”,因为他们隐含的补贴消失了。
**另请参阅:为什么 Anthropic 突然为所有人撤下 Fable 5 和 Mythos 5 (https://www.zdnet.com/article/why-anthropic-suddenly-pulled-fable-5-and-mythos-5-for-everyone/)**
实验室本身也在以代币层面不可见的方式收紧螺丝。他举了一个最近的例子:Anthropic 的 Fable 模型卡:“如果你要使用 Claude at Fable 来尝试构建一个 LLM,他们会悄悄地将你降级到不同的模型,而你不会知道。”此后,Anthropic 已撤回此政策 (https://www.wired.com/story/anthropic-responds-to-backlash-on-claudes-secret-sabotage-on-ai-research/),但其他公司可能不会。此类隐性政策使任何天真的“每代币成本”指标都变得荒谬,因为“并非所有代币都是平等的,毫无疑问”。
Storment 同意。“一个代币可能每百万花费两美分,也可能每百万花费 35 美元,仅从成本角度看,”他说,即使费率相同,“一个可能驱动很多价值,而另一个则不然,这取决于你如何使用它。”对他来说,采用“tokenomics”这个词的意义在于利用这样一个事实:高管层已经将代币作为一种心智模型。
雪上加霜的是,当今先进的 LLM,如 Anthropic Fable 5,可能会在用户完全不知道实际发生了什么的情况下,追逐一个答案并消耗大量代币。例如,Django Web 框架的联合创始人 Simon Willison 报告说,“基于一张截图和一行提示,Claude Fable 5 + Claude Code”启动了一个 web 服务器 (https://simonw.substack.com/p/claude-fable-is-relentlessly-proactive),使用了大量不同的 web 浏览器,构建并启动了它
相似文章
从token最大化到效率优先的转变将打破许多AI定价模式
文章讨论了企业如何更高效地使用AI,导致从基于token的定价模式转向基于结果的定价,这可能打破当前许多AI产品的定价策略。
代币账单到期:行业竞相应对AI失控成本的内幕
本文探讨了企业因代币消耗增加而面临AI成本飙升的困境,导致预算超支,并成立新的标准机构Tokenomics Foundation,以对AI代币进行成本管控。
AI编码工具是否正在成为新的云账单问题?
本文将AI编码工具日益增长的成本与早期云计算进行比较,突出了token使用量、代码审查和维护等隐藏费用,并对团队是否追踪每个工作流的真实成本提出疑问。
@levie: Token成本将成为企业未来AI应用中的主导话题。刚与许多Fortu…
Token成本正成为企业采用AI的关键关注点,CIO们难以管理不同模型和用例的开支。OpenAI宣布推出Guaranteed Capacity以解决长期计算资源获取问题。
每一份AI订阅都是企业的定时炸弹
文章指出,当前AI订阅定价严重依赖OpenAI、Anthropic和Google等供应商的补贴,这为依赖人为低价构建工作流程的企业埋下了定时炸弹;一旦价格回调,这些组织将面临成本的大幅飙升。