@polynoamial: https://x.com/polynoamial/status/2064210146558136827

X AI KOLs Following 2026/06/09 04:57 新闻

摘要

本文认为，LLM基准测试性能越来越依赖于测试时的计算量，而当前的评估方法在控制推理预算时无法捕捉到能力的提升。它主张绘制性能与token数、成本或时间的关系图，并讨论了对安全评估的影响。

https://t.co/oWqzT12RtZ

查看原文

查看缓存全文

缓存时间: 2026/06/09 08:57

大规模测试时计算的影响

摘要：随着LLM能力增强，基准测试性能越来越取决于测试时计算。实际上，我们很可能并不知道现代LLM的能力上限，因为测量成本太高。我们应该改变LLM评估方式，通过测量性能与token、成本或时间的关系来体现这一点。

GPT-5.5发布当天，最初的反应是怀疑。基准测试数据确实有提升，但幅度不大：

然而，几小时内，当人们有时间实际使用模型后，明显看出它相对于GPT-5.4是一次阶跃式进步。经典的“基准测试网格“显然没有揭示全部真相。这是为什么？

当我们以token数为x轴比较GPT-5.5和5.4时，原因就更清楚了：

左图：在网络安全评估中，当以每个模型的“最大“测试时计算量测量时，5.5的性能似乎并不比5.4好多少。右图：在另一个网络安全评估中，一旦我们控制token数/成本/延迟，5.5显然比5.4强大得多。

GPT-5.5并未在与5.4相同的token预算（或美元预算）下进行评估。一旦我们控制测试时计算，5.5看起来比5.4强大得多。

当我讨论这一点时，经常有人问为什么我们不直接用一种测试框架来增加测试时计算直到性能达到平台期。问题在于，根据经验，这个平台期非常遥远。有时在实用预算内我们可能根本观察不到平台期。下面是@karpathy的自动研究实验，即使在数百次实验后性能仍在持续提升：

下面是@AISecurityInst的网络安全评估，Mythos和GPT-5.5的性能即使在消耗1亿token后仍持续快速提升：

注意，更强的模型其性能随时间提升的幅度也更大。似乎模型越强，就越能有效地在更长的时间跨度内运作。平台期被推得更远，甚至可能消失。

因此，我认为评估模型的正确方法是使用性能与测试时计算的关系图，x轴可以是token数、成本或实际时间。一些基准测试已经朝这个方向转变。例如，ARC-AGI就测量得分与成本的关系。

另一个合理的选择是设定明确的token/时间/成本预算并告知模型。这类似于人类在SAT或国际数学奥林匹克等场景中的评估方式。

每种x轴都有权衡。不同模型之间的token数不可直接比较，因为分词器、速度和每token成本不同。美元成本取决于批处理、硬件利用率等实现细节，因此成本与延迟存在权衡。最后，实际时间也不是完美的衡量标准，因为最佳N选择等多智能体技术可以扩展测试时计算而不会显著增加延迟。尽管如此，这些曲线中的任何一条都比单一标量更有信息量。

对AI准备度的影响

前沿模型发布前，实验室通常会评估网络、生物和其他滥用风险。如果模型超过某个能力阈值，发布可能会被推迟，直到有相应的缓解措施。但如果能力是推理计算的函数，那么安全评估应该在什么样的推理预算下进行？

实际上，大多数模型发布时的安全评估并未考虑投入的推理计算量。Gemini 3深度思考版的发布及其引发的争议就是一个有用的例子。

当Gemini 3深度思考版发布时，其基准得分远高于之前的模型。然而，并没有同时发布评估其风险的系统卡。

这引发了AI安全界部分人士的愤怒。

在我看来，对DeepMind发布的批评忽略了更深层的问题：AI实验室和安全组织在评估模型是否适合发布时，并未一致地考虑测试时计算。

深度思考版很可能是其他已有系统卡的模型的脚手架。任何外部人员都可能重现这样的脚手架。换句话说，只要有人愿意支付深度思考版级别的推理成本，通过将多个模型查询搭建在一起，深度思考版的能力可能本来就已经可用。深度思考版只是让普通用户使用起来更方便。

在我看来，真正应该愤怒的是：当Gemini 3和其他模型发布时，它们的系统卡没有以测试时计算为函数来测量基准性能。在我的理想世界中，模型评估应该看起来像这样：

一个专门的国家行为体可以针对单一任务投入超过1000万美元的推理计算。但评估一个模型通常涉及成千上万甚至数百万次的推理过程，因此在每次推理中都使用这么高的计算预算是不切实际的。幸运的是，性能似乎随着推理计算量的增加而相当可预测地扩展。因此，我们可以在相对较低的推理预算下进行评估，然后（带有不确定性地）预测在更高预算下可能达到的能力。

长周期评估可能会引入一些复杂性，这些复杂性不一定能通过较小预算的外推来解决。例如，可能只有在实际运行智能体一年后，才能可靠地评估AI智能体在一年周期内的不对齐问题。AI实验室可能很快会发现自己处于一个奇怪的位置：智能体的运行周期超过了新模型的开发周期。到那时，可能无法在模型发布前完成对其最大运行寿命内的评估，除非推迟模型发布。

具体建议

具体来说，我向AI社区提出以下建议：

AI实验室应发布新模型的基准性能，并以token数、成本或时间为x轴。 至少，实验室应报告达到某个标量基准结果所用的推理预算。
基准测试应在排行榜上跟踪推理使用量，或设定明确的token/成本/时间预算。 许多基准测试已朝这个方向转变，但这尚未成为标准做法。
准备度框架和负责任的扩展策略在确定模型是否超过安全阈值时，应明确考虑推理计算。 此外，评估应估计在多个推理预算下的能力，包括从较小预算运行中得出的预测及其不确定性。

如果你关注我一段时间，这篇文章可能并不新鲜。自2024年9月o1发布以来，我们就知道推理模型的性能随着更多推理计算而提升。

然而，将近两年后，前沿AI实验室在发布新模型时仍普遍报告单一数字的基准结果；AI安全组织仍然在某个脚手架使用100倍推理预算取得更好性能时感到惊讶；准备度框架和RSP在确定模型是否达到关键能力水平时，仍然经常忽略推理计算的使用。

最新的模型比以往任何时候都更能利用测试时计算，将性能平台期推得更远。如果这种趋势持续下去——我完全预期如此——那么不考虑推理计算使用的基准得分在每个模型发布周期中将变得越来越没有信息量。因此，是时候将推理预算视为能力测量和安全政策中的一等公民了。

@polynoamial: https://x.com/polynoamial/status/2064210146558136827

大规模测试时计算的影响

对AI准备度的影响

具体建议

相似文章

推理计算如何影响前沿LLM的评估

您的LLM推理基准测试在误导您

超越困惑度：面向LLM测试时训练中部署记忆声明的行为评估框架

观点：LLM推理应当以能量到令牌的生产来评估

@omarsar0: 如果你使用LLM作为评判者，这篇值得一读。（收藏它）这实际上是最有效的使用L…

提交意见反馈