@cerebras: https://x.com/cerebras/status/2067357992929153268

X AI KOLs Timeline 新闻

摘要

关于AI推理模型的经济性和性能影响的分析,表明启用推理可以将准确率提高10-20%,但消耗的token数量增加5-10倍,并讨论了不同的推理类型及其应用。

https://t.co/nH2Owaghwb
查看原文
查看缓存全文

缓存时间: 2026/06/18 06:09

AI推理的经济学

作者:@0xSero

2024年,世界上首个推理模型o1由OpenAI发布,随后不久DeepSeek-R1和o3也相继问世。

到2025年,几乎所有模型(无论其开发地点或是否开源)都支持了推理。https://en.wikipedia.org/wiki/OpenAI_o1

推理,即**“思考”、“纠结”和“炖煮”**,在早期LLMs探索工具使用时是一种力量倍增器。O1和O3能够在处理问题时耗时数小时,然后返回基本准确的答案。

其技术术语是“测试时计算”,本质上是消耗更多的计算机处理时间来提升输出的准确性;模型在给出用户答案之前,会生成一些自我质疑、自我争论的token。

同一时期,基准测试开始饱和,AI在结构化输出(如“工具调用”)方面变得更强,前沿已转向需要代表用户行动的智能体,远离了聊天式的体验。

智能体轨迹重视模型快速、精确地链式调用工具的能力,而有时推理会阻碍这一点。模型思考得越多,留给工具调用的空间就越少,从而更容易导致压缩。

https://www.reddit.com/r/singularity/comments/1l9vjp0/o3pro_benchmarks_compared_to_the_o3_they/?utm_source=embedv2&utm_medium=post_embed&utm_content=action_bar&embed_host_url=https%3A%2F%2Fiframely.atlassian.com%2Fapi%2Fiframe

https://www.reddit.com/r/singularity/comments/1l9vjp0/o3pro_benchmarks_compared_to_the_o3_they/?utm_source=embedv2&utm_medium=post_embed&utm_content=action_bar&embed_host_url=https%3A%2F%2Fiframely.atlassian.com%2Fapi%2Fiframe

鉴于我们在一年内取得了如此多的进展,要确定推理的成本及其对性能的影响并不那么容易。

从数据中我们可以看到:

  • 技术提示消耗的token多出6倍

  • 完成时间延长7-11倍

  • 启用推理后性能提升10-20%

推理有哪些不同类型?

  • 交错思考:这是当前的标准。LLM会在工具调用之间进行思考,并根据上下文历史和下一个决策来决定如何行动。

  • 自适应推理:模型被训练成自主决定需要多少推理。

  • 可配置推理:用户可以选择不同级别(低、中、高)。

推理适用于什么场景?

LLM可以通过在运行时使用更多计算来提升自身准确性。它通过生成“探索”某个主题的token来实现这一点。例如,你可能会看到类似内心独白的内容,模型在其中自我怀疑、考虑替代方案,甚至向自己复述某个计划的思路。这是一种尝试构建自身上下文窗口以增加成功可能性的方式。

这也是我们教它如何将部分相关的概念(如苏格拉底式提问、自我复核或提前规划)交织在一起的机会。

所有这些对于需要一系列精确步骤的任务都极具价值:

  • 复杂的单次挑战

  • 谜题、数学、逻辑

  • 达成基准测试目标

毫无疑问,增加思考预算能提升模型性能。这里有一个完美的例子:GPT-5.5(xHigh)与GPT-5.5(low)之间存在约10%的差异,而GPT-5.5(low)与GPT-5.5(无推理)之间又有10%的差异

这同样适用于较小且开源权重的模型。例如,开启推理的Qwen-3.6-27B和Gemma-4-31B,均超越了去年最强的Sonnet-4(带推理)。

平均而言,无上限的最大推理能将编程和智能体基准测试的性能提升约20%;然而,与关闭推理相比,你需要多花费5-10倍的输出token(代价高昂!)。

大多数会话从推理中获益多少?

对我与Codex、Claude Code、Droid和Pi智能体的1000多次AI会话分析表明,大约一半的提示极为简单,无需任何推理或复杂智能即可完成。

你的大部分提示可能看起来像这样:

  • “在应用中查找并打开x文件”

  • “检查我的电子邮件和日历,了解今天需要做什么”

  • “定位我机器上的进程”

  • “克隆并分析这个GitHub仓库”

  • “下载并配置x资源”

  • “将此媒体转换为另一种格式”

更少推理,更快速度

是时候将推理视为一种速度控制或成本控制开关了。Anthropic和OpenAI都对其模型收取2倍费用以获得1.5-2.5倍的速度提升。如果我们仅仅通过降低20%的原始智能就能获得7倍的速度提升,那会怎样?

对于像Qwen3.6-27B这样的模型,87.5%以上的token用于推理,这意味着我有一半时间要支付比必要成本高出7倍的费用;此外,在内存受限的环境中,我们获得的KV缓存更少,从而导致更多压缩,而每次压缩都会显著降低性能。

通过禁用推理,我们可以期待智能体在压缩之前运行更长时间,并且我们的账单能便宜85%。

对于时间敏感的工作,比如提取文件、查找问题、响应事件、进行增量更新,以及将AI用作系统的一部分,花费高昂代价来换取20%的性能提升通常毫无意义。

我推荐阅读这篇文章,了解有关GPT-5.5测试时计算的一些有价值信息:

Noam Brown@polynoamial·6月9日 文章 大规模测试时计算的启示 摘要:随着LLM能力增强,基准测试性能越来越依赖于测试时计算。事实上,我们可能不知道现代LLM的能力上限在哪里,因为测试时计算… 765563K960K

相似文章

我们衡量了AI能力在模型规模扩大时如何相互作用。在3.5B以下,推理与真实性相互对抗。超过这个规模,它们协同合作。这种转变是可工程化的。(2篇论文 + 交互式仪表盘 + 7个可证伪预测)

Reddit r/artificial

研究人员发现了一个关键规模(约35亿参数),在该规模下,AI模型的推理与真实性之间的权衡从对抗转向合作。他们提供了一个框架、交互式仪表板以及开源引导工具,用于识别并纠正小规模下出现的错误输出。