@cerebras: https://x.com/cerebras/status/2067357992929153268

X AI KOLs Timeline 2026/06/17 21:25 新闻

reasoning test-time-compute llm economics cost-analysis benchmarks openai

摘要

关于AI推理模型的经济性和性能影响的分析，表明启用推理可以将准确率提高10-20%，但消耗的token数量增加5-10倍，并讨论了不同的推理类型及其应用。

https://t.co/nH2Owaghwb

查看原文

查看缓存全文

缓存时间: 2026/06/18 06:09

AI推理的经济学

作者：@0xSero

2024年，世界上首个推理模型o1由OpenAI发布，随后不久DeepSeek-R1和o3也相继问世。

到2025年，几乎所有模型（无论其开发地点或是否开源）都支持了推理。https://en.wikipedia.org/wiki/OpenAI_o1

推理，即**“思考”、“纠结”和“炖煮”**，在早期LLMs探索工具使用时是一种力量倍增器。O1和O3能够在处理问题时耗时数小时，然后返回基本准确的答案。

其技术术语是“测试时计算”，本质上是消耗更多的计算机处理时间来提升输出的准确性；模型在给出用户答案之前，会生成一些自我质疑、自我争论的token。

同一时期，基准测试开始饱和，AI在结构化输出（如“工具调用”）方面变得更强，前沿已转向需要代表用户行动的智能体，远离了聊天式的体验。

智能体轨迹重视模型快速、精确地链式调用工具的能力，而有时推理会阻碍这一点。模型思考得越多，留给工具调用的空间就越少，从而更容易导致压缩。

https://www.reddit.com/r/singularity/comments/1l9vjp0/o3pro_benchmarks_compared_to_the_o3_they/?utm_source=embedv2&utm_medium=post_embed&utm_content=action_bar&embed_host_url=https%3A%2F%2Fiframely.atlassian.com%2Fapi%2Fiframe

鉴于我们在一年内取得了如此多的进展，要确定推理的成本及其对性能的影响并不那么容易。

从数据中我们可以看到：

技术提示消耗的token多出6倍
完成时间延长7-11倍
启用推理后性能提升10-20%

推理有哪些不同类型？

交错思考：这是当前的标准。LLM会在工具调用之间进行思考，并根据上下文历史和下一个决策来决定如何行动。
自适应推理：模型被训练成自主决定需要多少推理。
可配置推理：用户可以选择不同级别（低、中、高）。

推理适用于什么场景？

LLM可以通过在运行时使用更多计算来提升自身准确性。它通过生成“探索”某个主题的token来实现这一点。例如，你可能会看到类似内心独白的内容，模型在其中自我怀疑、考虑替代方案，甚至向自己复述某个计划的思路。这是一种尝试构建自身上下文窗口以增加成功可能性的方式。

这也是我们教它如何将部分相关的概念（如苏格拉底式提问、自我复核或提前规划）交织在一起的机会。

所有这些对于需要一系列精确步骤的任务都极具价值：

复杂的单次挑战
谜题、数学、逻辑
达成基准测试目标

毫无疑问，增加思考预算能提升模型性能。这里有一个完美的例子：GPT-5.5（xHigh）与GPT-5.5（low）之间存在约10%的差异，而GPT-5.5（low）与GPT-5.5（无推理）之间又有10%的差异。

这同样适用于较小且开源权重的模型。例如，开启推理的Qwen-3.6-27B和Gemma-4-31B，均超越了去年最强的Sonnet-4（带推理）。

平均而言，无上限的最大推理能将编程和智能体基准测试的性能提升约20%；然而，与关闭推理相比，你需要多花费5-10倍的输出token（代价高昂！）。

大多数会话从推理中获益多少？

对我与Codex、Claude Code、Droid和Pi智能体的1000多次AI会话分析表明，大约一半的提示极为简单，无需任何推理或复杂智能即可完成。

你的大部分提示可能看起来像这样：

“在应用中查找并打开x文件”
“检查我的电子邮件和日历，了解今天需要做什么”
“定位我机器上的进程”
“克隆并分析这个GitHub仓库”
“下载并配置x资源”
“将此媒体转换为另一种格式”

更少推理，更快速度

是时候将推理视为一种速度控制或成本控制开关了。Anthropic和OpenAI都对其模型收取2倍费用以获得1.5-2.5倍的速度提升。如果我们仅仅通过降低20%的原始智能就能获得7倍的速度提升，那会怎样？

对于像Qwen3.6-27B这样的模型，87.5%以上的token用于推理，这意味着我有一半时间要支付比必要成本高出7倍的费用；此外，在内存受限的环境中，我们获得的KV缓存更少，从而导致更多压缩，而每次压缩都会显著降低性能。

通过禁用推理，我们可以期待智能体在压缩之前运行更长时间，并且我们的账单能便宜85%。

对于时间敏感的工作，比如提取文件、查找问题、响应事件、进行增量更新，以及将AI用作系统的一部分，花费高昂代价来换取20%的性能提升通常毫无意义。

我推荐阅读这篇文章，了解有关GPT-5.5测试时计算的一些有价值信息：

Noam Brown@polynoamial·6月9日文章大规模测试时计算的启示摘要：随着LLM能力增强，基准测试性能越来越依赖于测试时计算。事实上，我们可能不知道现代LLM的能力上限在哪里，因为测试时计算… 765563K960K

@cerebras: https://x.com/cerebras/status/2067357992929153268

AI推理的经济学

推理有哪些不同类型？

推理适用于什么场景？

大多数会话从推理中获益多少？

更少推理，更快速度

相似文章

对于AI推理的“只需增加更多算力”的论点正变得越来越令人厌倦。

我们衡量了AI能力在模型规模扩大时如何相互作用。在3.5B以下，推理与真实性相互对抗。超过这个规模，它们协同合作。这种转变是可工程化的。（2篇论文 + 交互式仪表盘 + 7个可证伪预测）

你实际上是如何在AI费用出现在发票之前就预测出来的？

@dbreunig: 推理模型擅长理解细微差别和自然语言。但这种细微之处尚未渗透到检索系统…

@DeRonin_: https://x.com/DeRonin_/status/2054235707791778034

提交意见反馈