能力前沿:基准测试遗漏了82%的模型性能

arXiv cs.AI 论文

摘要

本文提出了能力前沿(Capability Frontier),这是一个针对模型的帕累托前沿,用于纠正单模型和单次运行评估中的偏差,表明标准基准测试遗漏了高达82%的模型性能,并且集体LLM能力被严重低估。

arXiv:2606.26836v1 公告类型:新 摘要:现有基准测试通常报告单个模型在单次运行中的准确率。这系统性地低估了现实世界中LLM的能力,尤其是在异质数据分布下:(i)不同模型根据其专长正确回答不同问题,(ii)在给定预算下,可以采样多个生成结果并选择性保留。为了量化这一差距,我们引入了能力前沿(Capability Frontier):这是一个针对一组模型的帕累托前沿,描述了在跨模型和跨生成(即通过预言机)的最优选择下,每个成本级别上可实现的最佳性能。我们的构建纠正了两种相反的偏差:单模型评估导致的低估和从噪声样本中取最大值导致的高估。我们研究了21个LLM,涵盖16个广泛使用的基准测试,涉及编码、推理、医学、事实性、指令遵循和智能体任务,将匹配成本下的能力前沿性能与每个基准测试中表现最佳的模型进行比较。纠正单模型评估可降低54%的错误率;额外纠正单次运行可使性能提升82%,并在成本降低85%时达到SOTA准确率。作为这些实证结果的补充,我们使用受控概率模拟表明,更高的查询主题熵会导致预言机路由与最佳单模型之间的性能差距呈近单调增长。我们的发现表明,集体LLM能力被严重低估,这对数据异质、多领域环境下的评估和部署具有重要意义。
查看原文
查看缓存全文

缓存时间: 2026/06/26 05:17

# 能力前沿:基准测试遗漏了82%的模型性能
来源:https://arxiv.org/html/2606.26836
Bradley Fowler¹, Ryan Smith¹, Daniel Thi Graviet¹, William Myers¹, Joshua Greaves¹, Narmeen Fatimah Oozeer¹, Antía García¹, Philip Quirke¹, Amirali Abdullah³¹, Fazl Barez¹², Shriyash Kaustubh Upadhyay¹
¹Martian ²牛津大学 ³ThoughtWorks

###### 摘要

现有基准测试通常报告单个模型在单次运行上的准确率。这系统性地低估了真实世界的LLM能力,尤其是在异构数据分布下:(i) 不同模型根据其专长答对不同的问题,(ii) 给定预算,可以采样多次生成并选择性保留。为量化这一差距,我们引入了**能力前沿**:一组模型上的帕累托前沿,刻画了在跨模型和跨生成(即通过预言机)的最优选择下,每个成本水平所能达到的最佳性能。我们的构造纠正了两种相反的偏差:单模型评估带来的低估,以及从噪声样本中取最大值带来的高估。我们研究了21个LLM在16个广泛使用的基准测试上的表现,涵盖编码、推理、医学、真实性、指令遵循和智能体任务,并将能力前沿在匹配成本下的性能与每个基准测试中表现最佳的模型进行比较。纠正单模型评估错误率降低了54%;额外纠正单次运行则带来了82%的提升,同时在成本降低85%的情况下匹配了SOTA准确率。除了这些实证结果,我们还使用受控概率模拟表明,更高的查询主题熵会导致预言机路由与最佳单模型之间的性能差距近乎单调增加。我们的研究结果表明,集体LLM能力被严重低估,这对异构数据、多领域场景下的评估和部署具有重要意义。

## 1 引言

现实中的LLM面临纷繁复杂的工作负载。以医疗问答系统为例,涉及生死的查询构成一个多声部混合物,涵盖基因组变异、人体结构生理学等多样化的医学子领域。与此异质性一致,Singhal 等人 (2025) 指出模型在不同医学主题上各有擅长:GPT-4-base (Achiam 等人, 2023) 在MMLU医学遗传学 (97.0% vs 92.0%) 和解剖学 (85.2% vs 84.4%) 上优于Med-PaLM-2 (Singhal 等人, 2025),而Med-PaLM-2 在专业医学 (95.2% vs 93.8%) 和大学医学 (83.2% vs 80.9%) 上表现出色。一个能够访问每个查询真实正确标签的预言机选择器可以超越这两个模型,然而这种可达性能在标准评估中却从未被测量。

关于LLM路由的基础性工作已经开始探索这一差距。Shnitzer 等人 (2023) 表明,预言机路由器通过按提示切换模型,可以实现约20%的性能提升。RouterBench (Hu 等人, 2024) 量化了模型互补性,发现次要模型在10%-30%的提示上提供了唯一的正确答案。RouteLLM (Ong 等人, 2025) 进一步展示,通过识别哪些提示使用更便宜的模型就足够,可实现高达2倍的成本降低。这些研究基于每个提示的有限生成样本,选择表现最佳的模型来估计预言机性能。由于预言机选择是对噪声性能估计取最大值,此类过程存在正偏差,系统性地夸大了可达增益。在现实生成预算下(仅能获得G≤10个样本),这种效应被进一步放大。

参照图注 图1:**能力前沿**:根据提示动态选择LLM在我们的16个基准测试上显著优于任何固定LLM。展示了附录B中的部分数据点。对于任何给定的成本预算,相比单个LLM可以实现显著的质量提升。反之,对于固定的质量阈值,通过动态LLM选择可以实现大幅成本节省。为了使能力前沿估计更具鲁棒性并纠正这些有限样本效应,我们开发了去偏方法,能够恢复准确的前沿测量,并提供可达性能的原则性上界。我们的实证分析涵盖21个LLM在16个基准测试上的表现,覆盖编码、推理、医学、真实性、指令遵循和智能体任务。结果显示,标准单模型评估严重低估了可达性能:在匹配成本下,能力前沿相比每个基准测试的最佳模型实现了54%的平均错误率降低。当额外考虑多次运行选择(事后路由)时,错误率降低达到82%。反之,在前沿上可以以85%的更低成本匹配SOTA准确率。这些差距并非仅仅是理论上的——它们代表了今天通过现有模型和直接的推理时策略即可实现的性能。

准确测量这些增益需要谨慎。标准预言机计算为每个提示选择样本均值最高的模型,然后将该均值报告为可达性能。由于这是对噪声估计取最大值,它会优先捕获正向异常值。在每次提示生成次数有限(G≤10,受限于成本)的情况下,这种偏差是显著的:我们发现它会使准确率估计膨胀高达8.7%,成本估计膨胀高达88%(第6.3节)。我们的去偏方法——即基于外推的校正和概率图建模——能够实现准确的前沿估计。除了这些实证发现,我们还构建了受控概率模拟,表明预言机增益随工作负载多样性单调增加。以下是我们主要贡献的总结:

1.  **能力前沿**:我们引入了一个严格框架,用于量化单模型基准评估与在最优模型和生成选择下可达的系统级性能之间的差距。
2.  **去偏方法**:我们表明有限样本预言机估计存在正偏差,并提出了基于外推和概率建模的校正方法,附有明确的假设和实证验证。
3.  **偏差刻画**:我们形式化分析了预言机偏差,表明其随每次提示生成次数G以O(G⁻^λ)衰减,并在多个基准测试上实证验证了该缩放规律。
4.  **实证评估**:在21个LLM和16个基准测试上,我们量化了可达前沿增益以及朴素预言机估计中偏差的幅度。参见图1。
5.  **受控模拟**:在模拟从低多样性到高多样性的合成工作负载时,我们发现预言机增益随工作负载熵单调增加。这些结果提供了预言机性能的机制性基础,表明可达增益从根本上是由数据异质性驱动的。

## 2 相关工作

LLM的快速 proliferation 增加了对LLM路由的研究兴趣,即动态选择模型以平衡质量、成本和延迟。Shnitzer 等人 (2023) 首次使用基准数据集形式化定义了该问题,并将预言机路由器作为性能增益的理论上界。虽然他们识别出超越“平均最佳”模型的显著空间,但其预言机依赖于有偏的样本均值,这是我们工作要解决的局限性。随后的框架如RouterBench (Hu 等人, 2024) 标准化了不同路由方法的评估流程,尽管它们也同样使用了这些有偏的估计。

##### 通用和零样本路由

最近的方法试图解决“模型锁定”问题,即每当模型池变化时路由都必须重新训练。UniRoute (Jitkrittum 等人, 2025) 通过将LLM表示为基于锚定提示的特征向量来解决这个问题,从而能够泛化到未见过的模型。类似地,ZeroRouter (Yan 等人, 2026) 利用通用潜在空间将查询难度与特定模型画像解耦,从而能够在不断演变的模型生态系统中实现零样本选择。

##### 理论基础

尽管业界正朝着专家编排以实现更安全、更强大的系统的方向发展 (Quirke 等人, 2025),但在可实现的路由器与理论最优性之间仍存在差距。我们的工作建立在预言机路由的基础之上 (Shnitzer 等人, 2023; Hu 等人, 2024),但与之不同的是,我们纠正了“优化者诅咒”——一种在经济学 (Andrews 等人, 2024; Capen 等人, 1971) 和决策分析 (Smith and Winkler, 2006) 中已有充分记录的统计偏差。通过引入去偏预言机,我们为量化能力前沿中真正的提升空间提供了更严格的框架。

更多路由方法参见附录D,包括免训练、级联和偏好路由。

## 3 问题设定

设n∈[N]索引数据集提示,l∈[L]索引LLM,g∈[G]索引独立的随机生成。对于每个提示-模型对,我们观察G次生成,并使用度量φ_nlg ∈ ℝ(例如正确性、成本、延迟)评估每次生成。

路由问题的标准形式是一个二维目标,最大化质量同时最小化成本:

φ_nlg = {(Q, -C)}_nlg                                         (1)

Q, C, and T⁹⁵ 是维度相同的张量,分别代表质量、成本和P95延迟。

##### 路由问题。

路由器 π: X → [L] 将每个提示映射到一个模型。目标是找到最大化期望性能的π:

max_π (1/N) Σ_n 𝔼[φ_{n,π(x_n),g}]                           (2)

##### 预言机路由器。

预言机路由器能够访问真实的期望性能 μ_nl = 𝔼[φ_nlg],并做出最优选择:

l*(n) = arg max_l μ_nl                                        (3)

**真实预言机值**为:

O^true = (1/N) Σ_n max_l μ_nl                                  (4)

这是路由的基本上界:在完美了解每个模型在每个提示上的期望性能时所能达到的最佳性能。

##### 估计问题。

我们无法直接观测μ_nl,只能观测到带噪声的实现φ_nlg。标准方法使用样本均值 φ̄_nl = (1/G) Σ_g φ_nlg 来估计μ_nl,并计算:

O^biased = (1/N) Σ_n max_l φ̄_nl                                (5)

我们接下来将证明该估计量是有偏的:𝔼[O^biased] > O^true。

## 4 预言机偏差与去偏方法

### 4.1 刻画预言机偏差

为什么有偏预言机是有偏的。偏差源于对样本均值取最大值会优先选择那些样本超过其真实均值的模型。这种偏差出现在许多领域,从经济学 (Andrews 等人, 2024) 到管理学 (Smith and Winkler, 2006);然而,它最初是在拍卖中由 Capen 等人 (1971) 发现。本文在LLM路由中形式化了该偏差,并提出了消除这种偏差的新方法。我们在两个分布假设下对其进行形式化。

### 4.2 高斯情况

假设 φ_nlg ~ N(μ_nl, σ²_nl) 独立。样本均值满足 φ̄_nl ~ N(μ_nl, σ²_nl/G)。

为了导出封闭形式的偏差,我们做一个简化假设:

μ_nl = μ_n,    σ²_nl = σ²_n    ∀l                              (6)

**注**:假设 (6) 仅用于推导偏差衰减的函数形式,并不意味着 O^true = μ̄。在异质均值下,真实预言机仍然是 (1/N) Σ_n max_l μ_nl,我们的去偏方法可以在不需要均值相等的情况下估计它。

在 (6) 下,L个独立同分布高斯随机变量(方差σ²_n/G)的最大值的期望近似为:

𝔼[max_l φ̄_nl] ≈ μ_n + σ_n √(2 log L / G)                    (7)

对所有提示求平均:

O^biased ≈ μ̄ (真实预言机) + σ̄ √(2 log L / G) (偏差)           (8)

其中 μ̄ = (1/N) Σ_n μ_n, σ̄ = (1/N) Σ_n σ_n。

**关键洞察**:偏差按 O(G⁻⁰·⁵) 减小,并随 L(更多模型)和 σ̄(更高方差)增加。对于 G=10 和 L=21,这种偏差不可忽略。

#### 4.2.1 伯努利情况

对于二元度量(正确/不正确),令 φ_nlg ~ Bernoulli(p_nl)。在简化假设 p_nl = p_n 下:

Y_nl = Σ_g φ_nlg ~ Binomial(G, p_n)                            (9)

𝔼[max_l Y_nl] = 1/(NG) Σ_{n,g} [1 - F(g; p_n)^L]               (10)

其中 F(g; p_n) 是二项分布CDF。

这里没有真实预言机与偏差项的清晰分离,但通过实证研究我们可以确定偏差衰减的特征。我们知道对于大的 G,预言机应趋向于 p_n。图2显示了偏差在不同场景下如何衰减。当 p=0 或 p=1 时,每个数据点上LLM性能没有方差,因此所有 G 下偏差为零。

通过一项合成研究(附录A),我们发现对于跨模型的异质 (μ_nl, σ_nl) 生成,在大 G 极限下,偏差以 O(G⁻⁰·⁵) 衰减(∀ L>1, p∈(0,1)),这与高斯分析一致。对于模型间相关生成,我们发现对于合理的超参数,指数在 [0.25, 0.75] 范围内变化。异质和相关场景都需要大约 G=50 次生成才能良好拟合。

相似文章

并非每项评估都需要运行

arXiv cs.LG

这篇研究论文表明,前沿AI模型在133个基准测试上的得分近似于秩为2,即仅两个潜在因素就解释了超过90%的方差。作者提出了BenchPress,一种在logit空间中进行矩阵补全的方法,仅需少数几个基准测试就能预测模型的完整得分表,从而显著降低评估成本。

FORTIS:代理技能中的过度特权基准测试

Hugging Face Daily Papers

FORTIS 基准测试揭示了 LLM 代理在选择技能时频繁超出必要特权的情况,表明在十款前沿模型中过度特权是常态,并在真实用户交互场景下失效。

评估盲点:大语言模型基准覆盖的体视学理论

arXiv cs.LG

本文运用体视学理论分析大语言模型基准,揭示当前排行榜仅测量3-5个独立维度,产生的几何盲点主导统计噪声。文章提供了基准覆盖的理论界限,并提出一个用于高效基准选择的子模算法。