@cerebras: https://x.com/cerebras/status/2067357992929153268
摘要
关于AI推理模型的经济性和性能影响的分析,表明启用推理可以将准确率提高10-20%,但消耗的token数量增加5-10倍,并讨论了不同的推理类型及其应用。
查看缓存全文
缓存时间: 2026/06/18 06:09
AI推理的经济学
作者:@0xSero
2024年,世界上首个推理模型o1由OpenAI发布,随后不久DeepSeek-R1和o3也相继问世。
到2025年,几乎所有模型(无论其开发地点或是否开源)都支持了推理。https://en.wikipedia.org/wiki/OpenAI_o1
推理,即**“思考”、“纠结”和“炖煮”**,在早期LLMs探索工具使用时是一种力量倍增器。O1和O3能够在处理问题时耗时数小时,然后返回基本准确的答案。
其技术术语是“测试时计算”,本质上是消耗更多的计算机处理时间来提升输出的准确性;模型在给出用户答案之前,会生成一些自我质疑、自我争论的token。
同一时期,基准测试开始饱和,AI在结构化输出(如“工具调用”)方面变得更强,前沿已转向需要代表用户行动的智能体,远离了聊天式的体验。
智能体轨迹重视模型快速、精确地链式调用工具的能力,而有时推理会阻碍这一点。模型思考得越多,留给工具调用的空间就越少,从而更容易导致压缩。
https://www.reddit.com/r/singularity/comments/1l9vjp0/o3pro_benchmarks_compared_to_the_o3_they/?utm_source=embedv2&utm_medium=post_embed&utm_content=action_bar&embed_host_url=https%3A%2F%2Fiframely.atlassian.com%2Fapi%2Fiframe
https://www.reddit.com/r/singularity/comments/1l9vjp0/o3pro_benchmarks_compared_to_the_o3_they/?utm_source=embedv2&utm_medium=post_embed&utm_content=action_bar&embed_host_url=https%3A%2F%2Fiframely.atlassian.com%2Fapi%2Fiframe
鉴于我们在一年内取得了如此多的进展,要确定推理的成本及其对性能的影响并不那么容易。
从数据中我们可以看到:
-
技术提示消耗的token多出6倍
-
完成时间延长7-11倍
-
启用推理后性能提升10-20%
推理有哪些不同类型?
-
交错思考:这是当前的标准。LLM会在工具调用之间进行思考,并根据上下文历史和下一个决策来决定如何行动。
-
自适应推理:模型被训练成自主决定需要多少推理。
-
可配置推理:用户可以选择不同级别(低、中、高)。
推理适用于什么场景?
LLM可以通过在运行时使用更多计算来提升自身准确性。它通过生成“探索”某个主题的token来实现这一点。例如,你可能会看到类似内心独白的内容,模型在其中自我怀疑、考虑替代方案,甚至向自己复述某个计划的思路。这是一种尝试构建自身上下文窗口以增加成功可能性的方式。
这也是我们教它如何将部分相关的概念(如苏格拉底式提问、自我复核或提前规划)交织在一起的机会。
所有这些对于需要一系列精确步骤的任务都极具价值:
-
复杂的单次挑战
-
谜题、数学、逻辑
-
达成基准测试目标
毫无疑问,增加思考预算能提升模型性能。这里有一个完美的例子:GPT-5.5(xHigh)与GPT-5.5(low)之间存在约10%的差异,而GPT-5.5(low)与GPT-5.5(无推理)之间又有10%的差异。
这同样适用于较小且开源权重的模型。例如,开启推理的Qwen-3.6-27B和Gemma-4-31B,均超越了去年最强的Sonnet-4(带推理)。
平均而言,无上限的最大推理能将编程和智能体基准测试的性能提升约20%;然而,与关闭推理相比,你需要多花费5-10倍的输出token(代价高昂!)。
大多数会话从推理中获益多少?
对我与Codex、Claude Code、Droid和Pi智能体的1000多次AI会话分析表明,大约一半的提示极为简单,无需任何推理或复杂智能即可完成。
你的大部分提示可能看起来像这样:
-
“在应用中查找并打开x文件”
-
“检查我的电子邮件和日历,了解今天需要做什么”
-
“定位我机器上的进程”
-
“克隆并分析这个GitHub仓库”
-
“下载并配置x资源”
-
“将此媒体转换为另一种格式”
更少推理,更快速度
是时候将推理视为一种速度控制或成本控制开关了。Anthropic和OpenAI都对其模型收取2倍费用以获得1.5-2.5倍的速度提升。如果我们仅仅通过降低20%的原始智能就能获得7倍的速度提升,那会怎样?
对于像Qwen3.6-27B这样的模型,87.5%以上的token用于推理,这意味着我有一半时间要支付比必要成本高出7倍的费用;此外,在内存受限的环境中,我们获得的KV缓存更少,从而导致更多压缩,而每次压缩都会显著降低性能。
通过禁用推理,我们可以期待智能体在压缩之前运行更长时间,并且我们的账单能便宜85%。
对于时间敏感的工作,比如提取文件、查找问题、响应事件、进行增量更新,以及将AI用作系统的一部分,花费高昂代价来换取20%的性能提升通常毫无意义。
我推荐阅读这篇文章,了解有关GPT-5.5测试时计算的一些有价值信息:
Noam Brown@polynoamial·6月9日 文章 大规模测试时计算的启示 摘要:随着LLM能力增强,基准测试性能越来越依赖于测试时计算。事实上,我们可能不知道现代LLM的能力上限在哪里,因为测试时计算… 765563K960K
相似文章
对于AI推理的“只需增加更多算力”的论点正变得越来越令人厌倦。
对AI推理扩展论点的一个批判性观点,认为自回归LLM无法仅通过增加计算量来实现正确性,并强调替代架构如EBM和形式验证在关键应用中更为优越。
我们衡量了AI能力在模型规模扩大时如何相互作用。在3.5B以下,推理与真实性相互对抗。超过这个规模,它们协同合作。这种转变是可工程化的。(2篇论文 + 交互式仪表盘 + 7个可证伪预测)
研究人员发现了一个关键规模(约35亿参数),在该规模下,AI模型的推理与真实性之间的权衡从对抗转向合作。他们提供了一个框架、交互式仪表板以及开源引导工具,用于识别并纠正小规模下出现的错误输出。
你实际上是如何在AI费用出现在发票之前就预测出来的?
一位开发者分享了导致AI账单超出预期的隐性成本变量,包括推理模型的思维链token、多模态每张图片费用、函数调用系统token,并询问社区是如何提前预测成本的。
@dbreunig: 推理模型擅长理解细微差别和自然语言。但这种细微之处尚未渗透到检索系统…
一条推文强调,尽管推理模型在理解细微差别和自然语言方面表现出色,但这种能力尚未传导到检索系统,指出了AI系统的一个关键瓶颈。
@DeRonin_: https://x.com/DeRonin_/status/2054235707791778034
一份实用指南,介绍了如何通过更智能的 Token 管理(包括多模型路由、提示词缓存和上下文纪律)来降低 80% 的 AI 编码成本,而不是简单地切换到更便宜的模型。