并非每项评估都需要运行
摘要
这篇研究论文表明,前沿AI模型在133个基准测试上的得分近似于秩为2,即仅两个潜在因素就解释了超过90%的方差。作者提出了BenchPress,一种在logit空间中进行矩阵补全的方法,仅需少数几个基准测试就能预测模型的完整得分表,从而显著降低评估成本。
arXiv:2606.24020v1 公告类型:新
摘要:现代模型发布时会报告在40多个基准测试上的得分,而在此之前同样的评估已经运行过很多次:用于跟踪训练进度、比较设计选择以及选择发布时的检查点。但我们是否需要运行每一项评估?我们构建了一个包含84个前沿模型在133个基准测试上的公开得分矩阵(2604个单元格,填充率23.3%),发现它近似于秩为2:一个模型在所有133个基准测试上的得分主要由两个数字决定。我们通过两种方式确认了这一点:从矩阵中隐藏的得分最好用两个因子恢复,并且两个因子已经能解释模型在共享基准测试上超过90%的方差。在此基础上,我们设计了BenchPress:一种在logit空间中的秩为2矩阵补全方法,能够将保留的得分恢复至4.6分以内,并带有一个置信度层,用于说明每个预测何时可以被信任。使用BenchPress,我们发现了一个包含五个基准测试的子集 {GPQA-D, HLE, Codeforces, MMLU-Pro, ARC-AGI-1},该子集可以将模型公开得分表的其余部分恢复至3.93分以内。为了更紧的推理预算,一个更便宜的集合 {GPQA-D, MMLU-Pro, Aider Polyglot, MATH-500, AIME 2026} 可以预测模型的评估结果至4.55分以内。我们公开了得分矩阵、BenchPress代码以及一个交互式工具,该工具可以预测任何模型在任何基准测试上的得分。
查看缓存全文
缓存时间: 2026/06/24 07:50
# (a) 预测单个(模型,基准)分数的准确度。来源:https://arxiv.org/html/2606.24020 ††脚注:\通讯邮箱:\{zengyuchen, dimitriosp\}@microsoft\.com
现代模型发布时会在40多个基准上报告分数,而在此之前同样的评估已经运行过很多次:用于跟踪训练进度、比较设计选择以及选择发布检查点。但我们真的需要运行每一项评估吗?我们编译了一个公开分数矩阵,包含84个前沿模型在133个基准上的数据(2,604个单元格,23.3%已填充),发现该矩阵近似为秩-2:模型在全部133个基准上的分数大致由两个数字决定。我们通过两种方式证实这一点:从矩阵中隐藏的分数最好用两个因子恢复,并且两个因子已经能解释模型在共享基准上超过90%的变异。在此基础上,我们设计了BenchPress:一种对数几率空间中的秩-2矩阵补全方法,能以4.64.6分以内的精度恢复被隐藏的分数,以及一个置信度层,用于判断每个预测何时值得信赖。利用BenchPress,我们发现由五个基准——\{GPQA-D, HLE, Codeforces, MMLU-Pro, ARC-AGI-1\}——组成的子集可以恢复模型其余公开成绩单,误差不超过3.933.93分。对于更紧的推理预算,一个更便宜的组合——\{GPQA-D, MMLU-Pro, Aider Polyglot, MATH-500, AIME 2026\}——可将模型评估预测误差控制在4.554.55分以内。我们发布了分数矩阵、BenchPress代码以及一个交互式工具,用于预测任何模型在任何基准上的分数。
参见图注
(a) 预测单个(模型,基准)分数的准确度。
参见图注
(b) 报告整体分数预测误差。
图1:BenchPress根据少量公开分数预测未见的基准分数。**左**:对于四个模型-基准单元格,我们隐藏目标分数,并以随机顺序揭示同一模型行中的k个其他分数。y轴为保留目标单元格上的绝对预测误差。一旦揭示了少量同行分数,误差急剧下降,当目标单元格本身出现在揭示前缀中时误差降至零。**右**:一个补充设置,模拟实践者实际运行BenchPress的方式。选择一个固定的k个基准作为探针集,每个模型在其已观察到的探针分数上进行评估;BenchPress预测每个模型剩余分数,我们报告所有评估单元格上的汇总误差。在现有矩阵上仅用五个基准探针,汇总中位绝对误差降至3.933.93分(当限制在更低推理成本列表时降至4.554.55分;见第5.1节 (https://arxiv.org/html/2606.24020#S5.SS1))。详细实验设置见附录A.1 (https://arxiv.org/html/2606.24020#A1.SS1)。
## 目录
1. 1 引言 (https://arxiv.org/html/2606.24020#S1)
2. 2 相关工作 (https://arxiv.org/html/2606.24020#S2)
3. 3 分数矩阵及其几何结构 (https://arxiv.org/html/2606.24020#S3)
1. 3.1 数据收集 (https://arxiv.org/html/2606.24020#S3.SS1)
2. 3.2 最终分数矩阵 (https://arxiv.org/html/2606.24020#S3.SS2)
3. 3.3 秩-2几何结构 (https://arxiv.org/html/2606.24020#S3.SS3)
4. 4 BenchPress:一种低秩基准分数预测器 (https://arxiv.org/html/2606.24020#S4)
1. 4.1 候选方法 (https://arxiv.org/html/2606.24020#S4.SS1)
2. 4.2 从候选方法到BenchPress (https://arxiv.org/html/2606.24020#S4.SS2)
3. 4.3 BenchPress与LLM作为基准分数预测器的比较 (https://arxiv.org/html/2606.24020#S4.SS3)
5. 5 BenchPress为模型评估带来的能力 (https://arxiv.org/html/2606.24020#S5)
1. 5.1 预算有限的成绩单恢复 (https://arxiv.org/html/2606.24020#S5.SS1)
2. 5.2 保持模型排序 (https://arxiv.org/html/2606.24020#S5.SS2)
3. 5.3 预测新发布模型 (https://arxiv.org/html/2606.24020#S5.SS3)
6. 6 何时信任BenchPress的预测 (https://arxiv.org/html/2606.24020#S6)
1. 6.1 影响预测可靠性的因素 (https://arxiv.org/html/2606.24020#S6.SS1)
2. 6.2 估计预测可靠性 (https://arxiv.org/html/2606.24020#S6.SS2)
7. 7 讨论 (https://arxiv.org/html/2606.24020#S7)
8. 参考文献 (https://arxiv.org/html/2606.24020#bib)
9. A 第1节的补充:引言 (https://arxiv.org/html/2606.24020#A1)
1. A.1 图1的实验设置 (https://arxiv.org/html/2606.24020#A1.SS1)
10. B 第3节的补充:分数矩阵及其几何结构 (https://arxiv.org/html/2606.24020#A2)
1. B.1 数据收集 (https://arxiv.org/html/2606.24020#A2.SS1)
2. B.2 最终分数矩阵 (https://arxiv.org/html/2606.24020#A2.SS2)
11. C 第4节的补充:BenchPress:一种低秩基准分数预测器 (https://arxiv.org/html/2606.24020#A3)
1. C.1 候选方法 (https://arxiv.org/html/2606.24020#A3.SS1)
2. C.2 从候选方法到BenchPress (https://arxiv.org/html/2606.24020#A3.SS2)
3. C.3 BenchPress与LLM作为基准分数预测器的比较 (https://arxiv.org/html/2606.24020#A3.SS3)
12. D 第5节的补充:BenchPress为模型评估带来的能力 (https://arxiv.org/html/2606.24020#A4)
1. D.1 预算有限的成绩单恢复 (https://arxiv.org/html/2606.24020#A4.SS1)
2. D.2 保持模型排序 (https://arxiv.org/html/2606.24020#A4.SS2)
3. D.3 预测新发布模型 (https://arxiv.org/html/2606.24020#A4.SS3)
13. E 第6节的补充:何时信任BenchPress的预测 (https://arxiv.org/html/2606.24020#A5)
1. E.1 影响预测可靠性的因素 (https://arxiv.org/html/2606.24020#A5.SS1)
2. E.2 估计预测可靠性 (https://arxiv.org/html/2606.24020#A5.SS2)
## 1 引言
LLM评估成本高昂且日益加剧。前沿模型发布现在通常会在数十个基准上报告分数:Qwen3.5报告了40个语言基准行 (qwen35),Kimi K2.5报告了43个基准行 (kimik25)。如此全面对科学有益。但公开模型发布只是更大规模测量工作的冰山一角。研究人员比较检查点和设计选择,下游消费者则筛选模型进行部署和使用。在这些场景中,相同评估套件的子集被反复运行多次,远多于任何单个发布所报告的。因此,一套完整的评估套件每次运行可能花费数千美元和数天时间。这引出一个问题:我们是否总是需要运行每一项评估,或者是否存在某些情况,一个免费获得的近似分数就足够了?
基准分数显然不是独立的测量。在编码和智能体基准上的强表现往往与竞赛数学基准上的强表现同时出现:例如,SWE-bench Verified (jimenez2024swebench;openai2024swebenchverified) 与AIME (aime) 和MATH-500 (lightman2023math500) 高度相关,而Terminal-Bench变体 (terminalbench) 显示出相似但更嘈杂的趋势。尚不清楚的是,这种依赖性是否扩展到所有基准的全貌。为什么这很重要?如果少数观察到的分数能够以足够有用的准确度预测模型其余基准画像,实践者就有了评估的新选择:运行一小部分探针并推断其余部分,而不是独立运行每一项评估。
我们首先构建一个分数预测器,然后探讨它在实践中的能力以及何时应该信任其预测。图1 (https://arxiv.org/html/2606.24020#S0.F1) 预览了单细胞预测任务和探针集恢复设置。
##### 贡献:
1. 1. 我们编译了一个公开分数矩阵,并证明其实际上为秩-2。我们从公开来源收集分数,规范近重复模型变体和基准配置,并过滤掉观察不足的模型和基准,得到一个84×133矩阵,包含2,604个观察条目(占所有模型-基准单元格的23.3%)。在该矩阵上的两个独立诊断表明其实际上是秩-2:秩扫描的Soft-Impute矩阵补全在秩2时最小化保留预测误差,并且最大完全观察子矩阵的SVD显示两个因子解释了超过90%的方差(第3节 (https://arxiv.org/html/2606.24020#S3))。
2. 2. 我们构建了BenchPress,一个基准分数预测器。我们评估了七种特征变换和十二种预测方法,发现最佳全覆盖分数预测器是对数几率空间中的秩-2交替最小二乘(ALS)矩阵补全方法 (koren2009)。它以4.64.6分的中位绝对误差预测每个缺失的模型-基准单元格,覆盖率为100%(第4节 (https://arxiv.org/html/2606.24020#S4))。
3. 3. 我们展示了BenchPress为模型评估带来的能力。(i) 我们**选择紧凑探针集**,在评估预算下恢复模型的成绩单:即使限制在低成本基准允许列表中,五个探针也能将汇总中位绝对误差降低到4.554.55分(第5.1节 (https://arxiv.org/html/2606.24020#S5.SS1))。(ii) 我们**验证排序保持**:允许真实分数有五分偏差时,BenchPress完成的分数在相同基准上保留了92.1%的成对模型排序(第5.2节 (https://arxiv.org/html/2606.24020#S5.SS2))。(iii) 我们**对最新发布模型进行压力测试预测**:即使训练矩阵在发布之前,五个种子分数也导致中位绝对误差为5.05.0分(第5.3节 (https://arxiv.org/html/2606.24020#S5.SS3))。
4. 4. 我们刻画了何时预测值得信赖。我们首先识别出持续影响预测质量的矩阵支持因素:目标模型和目标基准的覆盖率、相似同行模型和邻近基准的可用性,以及训练锚点的时效性。然后我们利用这些因素以及集成离散度(一种衡量合理预测器之间分歧程度的可靠性信号)来估计BenchPress预测的置信概率和经过共形校准的90%预测区间(第6节 (https://arxiv.org/html/2606.24020#S6))。
##### 范围和注意事项。我们的主张应在四个限制内理解。*(i) 公开分数异质性:*矩阵混合了供应商报告和第三方分数,评估配置各不相同,因此BenchPress预测的是该公开矩阵会推断出的结果,而非受控重新评估得出的结果。*(ii) 快照依赖性:*秩-2结构和预测误差依赖于这个快照中的84个模型和133个基准;未来具有当前矩阵中未见过的能力特征的前沿发布可能会打破这种几何结构。*(iii) 分数可推断性:*我们的分析识别了当前可从其他分数推断的基准**分数**,而非其**存在**不必要的基准。基准除了分数预测之外还有其他目的,包括发现故障模式、污染和分布漂移监控,以及为模型开发者塑造激励机制。*(iv) 探针集特异性:*紧凑探针集是针对当前矩阵选择的,应随着矩阵增长或模型群体漂移而重新推导。
## 2 相关工作
##### 评估中的低秩结构。Burnell等人 (burnell2023) 认为评估报告是冗余的。同一团队的后续工作 (burnell2023structure) 发现三个潜在因子(推理、理解、核心语言建模)解释了在29个模型上评估的27个HELM任务 (liang2023helm) 中的大部分方差。Ilić与Gignac (ilic2024) 将心理测量因子分析应用于Open LLM排行榜的591个模型,发现一个g-因子(借用人类智力研究的术语)解释了12个基准中85%的方差。Burnham (burnham2025) 独立地通过PCA得到了一个密切相关的秩-2分解(Epoch AI能力指数分解为“通用能力 + 提供者特定残差”),与我们第3.3节 (https://arxiv.org/html/2606.24020#S3.SS3) 在另一个(异质、前沿时代)矩阵上恢复的秩-2几何结构一致。这些研究确立了低秩结构的存在;我们在此基础上构建了一个基准分数预测系统,展示了其能力,并刻画了其失效之处(第4节 (https://arxiv.org/html/2606.24020#S4)、第5节 (https://arxiv.org/html/2606.24020#S5) 和第6节 (https://arxiv.org/html/2606.24020#S6))。
##### 基准压缩与设计。Perlitz等人 (perlitz2024) 表明HELM评估可以压缩100倍,且排序可靠性损失极小;他们的后续工作 (perlitz2024bat) 形式化了评估基准之间一致性的最佳实践。Ni等人 (ni2024mixeval) (MixEval) 从网络查询匹配项构建了一个单一的紧凑基准,实现了0.96的Chatbot Arena相关性。这些方法先验地选择或设计固定的评估套件。BenchPress则根据可用的任何基准预测缺失分数,无需固定探针集:实践者今天可以输入MMLU (hendrycks2021mmlu) 和GPQA (rein2024gpqa),明天改用LiveCodeBench和AIME,无需重新配置。
##### 条目级别子集选择。一条补充工作线通过选择哪些测试条目运行来减少单个基准内的成本。基于IRT的方法包括MetaBench (kipnis2024),它使用项目反应理论在六个基准中保留3%的条目,同时保持总体结论;以及tinyBenchmarks (polo2024),它基于IRT使用锚点选择信息性条目。基于相关或嵌入的方法包括Anchor Points (vivek2024anchorpoints),通过跨模型相关性选择条目;Scales++ (bean2025scalespp),使用认知规模嵌入将成本降低18倍,MAE为2.9%,且无需先验模型评估;DISCO (rubinstein2025),通过选择模型分歧最大的条目来压缩集;SubLIME (saranathan2025sublime),为紧凑子集训练相关性预测器;EssenceBench (wang2026essencebench),应用遗传算法实现高达200倍压缩;以及Zhou等人 (zhou2025),在示例级别利用低秩结构实现高达20倍的加速。这些方法大多需要跨多个模型的实例级通过/不通过数据来校准条目选择;Scales++是一个显著例外。BenchPress仅需要聚合分数,并跨基准进行预测,这是一种互补方法,可以与条目级方法结合以实现端到端的节省。
##### 分数预测。与我们的工作最接近的是直接预测聚合基准分数的方法。Schram等人 (schram2023) 应用贝叶斯矩阵分解预测跨语言NLP性能,这是最接近的方法学先驱,但领域不同(语言×任务,而非LLM×基准)。Zhang等人 (zhang2024cpp) 将协同过滤应用于LLM分数;Ruan等人 (ruan2024) 表明性能是低维能力空间的函数;Polo等人 (polo2024sloth) 使用潜在技能模型进行跨基准预测;Ye等人 (ye2023) 显示BIG-bench有95%以上是可预测的。Park等人 (park2025precog) 采取了完全不同的方法,仅使用文本描述,LLM就能预测基准分数,无需执行任何操作;我们在第4.3节 (https://arxiv.org/html/2606.24020#S4.SS3) 中重新审视了这一LLM作为预测器的比较。Koh等人 (koh2026rbridge) (rBridge) 使用小型代理模型通过类似规模定律的迁移预测大型模型的推理性能;这需要实际训练代理,而BenchPress不需要任何模型访问。我们在三个方面与这些分数预测方法不同:(1) 我们在更大的、异质的、前沿模型的矩阵上操作;(2) 我们揭示并利用秩-2几何结构;(3) 我们提供可靠性的置信度。相似文章
介绍 BenchBench(5分钟阅读)
介绍 BenchBench,这是一个评估 AI 模型为其他模型创建有效基准能力的基准测试。目前 GPT 5.2 是唯一成功的胜者,而 GPT 5.5 和 Opus 4.6 等前沿模型则表现不佳。
前沿模型的成长阵痛:当排行榜不再能区分时,接下来该测量什么
本文引入了种群耦合趋势和h场诊断法,分析前沿AI模型在编码与推理能力之间的关系,发现各能力相互协作,但不同实验室侧重点不同。本文提供了测量指南,并预测了基准测试趋于饱和的趋势。
AI模型构建者的不稳定指标与基准测试文化
本文介绍了Benchmarking-Cultures-25数据集,该数据集分析了AI模型构建者如何在新闻稿中选择性突出基准测试。研究发现评估格局碎片化,跨模型可比性有限,并指出基准测试更多被用作市场定位的叙事工具,而非标准化的科学测量手段。
用于衡量前沿AI能力的开放世界评估
本文认为传统基准测试既高估又低估了前沿AI能力,并提出“开放世界评估”——一种定性评估的长期、真实世界任务——作为补充方法。介绍了CRUX项目,并通过一个演示展示了AI代理在最少干预下成功将iOS应用发布到App Store。
评估盲点:大语言模型基准覆盖的体视学理论
本文运用体视学理论分析大语言模型基准,揭示当前排行榜仅测量3-5个独立维度,产生的几何盲点主导统计噪声。文章提供了基准覆盖的理论界限,并提出一个用于高效基准选择的子模算法。