评估盲点:大语言模型基准覆盖的体视学理论
摘要
本文运用体视学理论分析大语言模型基准,揭示当前排行榜仅测量3-5个独立维度,产生的几何盲点主导统计噪声。文章提供了基准覆盖的理论界限,并提出一个用于高效基准选择的子模算法。
arXiv:2606.05169v1 Announce Type: new
摘要:我们提出了一种大语言模型基准覆盖的体视学理论。对于任何具有有效维度 d_eff 的基准套件,两个与相同分数一致的凸能力轮廓之间的可见豪斯多夫距离以 epsilon + C R m^(-1/(d_eff-1)) 为界,并具有匹配的利普希茨下界。实验上,三个独立排行榜(Open LLM v2、一个扩展的12基准套件、LiveBench)在竞争前沿上的 d_eff 均在[2.86, 4.80]之间;结构盲点比观察到的亚军得分差距高出两个数量级,并以52-127倍主导统计噪声。在卡方投影模型下,各向同性先验是乐观情况;在六种隐藏能力先验和四种环境维度下,前两个模型的模拟半分割交换率保持在[0.38, 0.49]之间,500次随机可见/保留分割显示92%的试验交换了前1名排名,平均有2.83个前5名模型发生变化。一种具有Nemhauser (1 - 1/e)保证的子模贪心算法找到了一个由4个基准组成的稳定核心;12个基准中的7个足以覆盖90%,且训练子集在四个季度间转移时保留率在93-97%之间。跨12个内部基准和27个Chatbot Arena类别的反事实验证证实,特征结构预测了哪些评估是不可替代的(移除干扰的rho = -0.69,p = 0.013)以及哪些外部评估带来了新信息(rho = +0.38)。作为第二个独立的理论贡献,我们解决了C^2支持函数下的Gardner问题1.5(1995),通过S^(D-1)上的最优恢复理论,建立了通用维度下的极小极大速率 Theta(R/(kappa m^(2/(D-1))))。
查看缓存全文
缓存时间: 2026/06/05 08:08
# 大型语言模型基准测试覆盖率的体视学理论 来源:https://arxiv.org/html/2606.05169 ## 评估盲点:大型语言模型基准测试覆盖率的体视学理论 ###### 摘要 我们提出了LLM基准测试覆盖率的体视学理论。对于任何有效维度为 \(d_{\mathrm{eff}}\) 的测试集,两个与相同分数一致且满足凸性能力分布曲线的*可见*豪斯多夫距离以 \(\varepsilon + C R m^{-1/(d_{\mathrm{eff}}-1)}\) 为界,并具有匹配的利普希茨下界(定理2 (https://arxiv.org/html/2606.05169#Thmtheorem2))。经验上,三个独立排行榜(Open LLM v2、一个扩展的12基准测试集、LiveBench)在竞争前沿的有效维度 \(d_{\mathrm{eff}} \in [2.86, 4.80]\);结构盲点比观察到的亚军分数差距大两个数量级,并以52–127倍的优势主导统计噪声。在卡方投影模型下,各向同性先验是*乐观*情形(命题2 (https://arxiv.org/html/2606.05169#Thmproposition2),通过舒尔凸性);在六个隐藏能力先验和四个环境维度下,前两名模型的模拟半分裂交换率保持在 \([0.38, 0.49]\),一个500次试验的随机可见/保留分裂显示,92%的试验交换了第一名排名,平均有2.83个(共5个)前五名模型发生变化。一个具有Nemhauser \((1-1/e)\) 保证的子模贪心算法找到了一个由4个基准测试组成的稳定核心;7个(共12个)基准测试即可达到90%的覆盖率,且训练好的子集在不同时间季度间的迁移率保持93–97%。跨12个内部基准测试和27个Chatbot Arena类别的反事实验证确认,特征结构能预测哪些评估是不可替代的(移除干扰:\(\rho = -0.69, p=0.013\))以及哪些外部评估带来了新信息(\(\rho = +0.38\))。作为第二个独立的理论贡献,我们解决了 Gardner 于1995年提出的关于 \(C^2\) 支撑函数的问题1.5,通过 \(S^{D-1}\) 上的最优恢复理论建立了通用维度下的极小极大速率 \(\Theta(R/(\kappa m^{2/(D-1)}))\)。 ## 1 引言 #### 基准测试是切片。公共LLM排行榜报告标量分数:指令跟随准确率、数学准确率、代码准确率。每个分数都是模型内在能力的一维投影——就像X射线是三维物体的一维投影一样。精确研究这一问题的数学分支称为*体视学*,它对有限投影能恢复什么有严格的定量限制。本文将这种限制引入LLM评估,并表明在真实的公共排行榜上,由低维测量引起的几何盲点比统计噪声高一个数量级。 #### 诊断、预测、治疗。我们*诊断*盲点(定理1 (https://arxiv.org/html/2606.05169#Thmtheorem1):k个基准测试仅探测 \(d_{\mathrm{eff}} \approx 3-5\) 个独立方向),*预测*其后果(定理2 (https://arxiv.org/html/2606.05169#Thmtheorem2):可见不可区分性界限为 \(\varepsilon + C R m^{-1/(d_{\mathrm{eff}}-1)}\),通过匹配的利普希茨下界是紧的;推论1 (https://arxiv.org/html/2606.05169#Thmcorollary1):在六个先验和四个环境维度下,前两名交换概率在 \([0.38, 0.49]\) 之间),并*治疗*它(定理4 (https://arxiv.org/html/2606.05169#Thmtheorem4):一个具有 \((1-1/e)\) 保证的子模贪心算法,7个(共12个)基准测试达到90%覆盖率,具有4个基准测试的稳定核心和93–97%的跨时间迁移率)。命题1 (https://arxiv.org/html/2606.05169#Thmproposition1) 正式证明了基准测试作为宽度模型的合理性;命题2 (https://arxiv.org/html/2606.05169#Thmproposition2) 通过舒尔凸性证明了各向同性卡方界是*乐观*情形。作为第二个独立贡献,我们解决了 Gardner 于1995年提出的关于 \(C^2\) 支撑函数的问题1.5(定理3 (https://arxiv.org/html/2606.05169#Thmtheorem3))。所用工具是标准的(参与率、Marchenko–Pastur 边界、Nemhauser 优化、凸体理论);但结果是新的。 #### 相关工作定位。Sha 和 Zhao (2026 (https://arxiv.org/html/2606.05169#bib.bib35)) 的并发工作 (BenchScope) 独立发现LLM基准测试套件的低有效维度;我们共享该诊断,但贡献了不可区分性界限、子模覆盖算法和极小极大速率理论。Guntuboyina (2012 (https://arxiv.org/html/2606.05169#bib.bib12)) 给出了凸体恢复的有噪极小极大下界;我们的无噪方向离散化速率是对其的补充。Polo 等人 (2024 (https://arxiv.org/html/2606.05169#bib.bib30)) 通过IRT优化基准测试内的项目选择;我们通过子模覆盖优化基准测试间的基准测试选择。完整讨论见第7节 (https://arxiv.org/html/2606.05169#S7)。 #### 几何断层扫描。Gardner (1995 (https://arxiv.org/html/2606.05169#bib.bib10), 2006 (https://arxiv.org/html/2606.05169#bib.bib11)) 提出了关于从 \(S^1\) 上的m个X射线测量恢复*平面*凸体的问题1.5。我们的平面傅里叶稳定性界(附录E (https://arxiv.org/html/2606.05169#A5))以速率 \(\Theta(R/(\kappa m^2))\) 直接解决了该问题。通用D维的普遍 \(\beta\) 速率(附录G (https://arxiv.org/html/2606.05169#A7))超出了 Gardner 所问的范围。 ## 2 设定 令 \(\{c_1, \ldots, c_n\} \subset \mathbb{R}^D\) 为n个模型的未知能力分布曲线,由基准测试套件 \(\Pi = (\pi_1, \ldots, \pi_k)\) 通过 \(S_{ij} = \pi_j(c_i)\) 产生的得分矩阵 \(S \in \mathbb{R}^{n \times k}\)。 #### 宽度模型。我们将每个基准测试建模为 \(\mathbb{R}^D\) 中总体凸包的一种类宽度测量:标量(每个模型一个数字)、利普希茨(小的能力变化 \(\to\) 小的分数变化)、且保守(凸假设只会*缩小*界;非凸分布曲线会放大它)。以下表示定理使这一点精确化。 ###### 命题1(宽度表示)。令 \(\pi: \mathbb{R}^D \to \mathbb{R}\) 是一个满足 (i) 单调性、(ii) \(L\)-利普希茨连续性、(iii) 在总体凸包上有界线性化残差 \(\|\pi(c) - \pi(c_0) - \langle \nabla \pi(c_0), c - c_0 \rangle\| \leq \eta \|c - c_0\|^2\) 的基准测试。则对于任意两个模型 \(c_i, c_j\),有 \[\big\| \pi(c_i) - \pi(c_j) - \big(h_K(a_\pi) - h_L(a_\pi)\big) \big\| \; \leq \; \eta \cdot \mathrm{diam}(\mathrm{pop})^2,\] 其中 \(a_\pi = \nabla \pi(c_0) / \|\nabla \pi(c_0)\|\) 是基准测试方向,\(h_K, h_L\) 是以模型邻域凸包的支撑函数。宽度模型误差 \(\eta \cdot \mathrm{diam}^2\) 被吸收到定理2 (https://arxiv.org/html/2606.05169#Thmtheorem2) 的 \(\varepsilon\) 项中。 *经验验证(附录P (https://arxiv.org/html/2606.05169#A16),H.15)。* 将每个标准化基准测试对总体的前5个PC进行线性回归得出 \(R^2 \in [0.795, 0.984]\)。每个基准测试的二次项与线性项 \(R^2\) 差距 \(\leq 0.067\)(中位数0.011),确认线性化是紧的;中位数支撑函数重构误差为0.485个标准化单位。所有12个基准测试的每基准测试利普希茨常数满足 \(L_b \leq 0.993\)。命题1 (https://arxiv.org/html/2606.05169#Thmproposition1) 的证明见附录C (https://arxiv.org/html/2606.05169#A3)。 #### 有效性范围。当总体收缩时,线性化质量会下降。在前沿切片(前50%,\(n=148\))上,每基准测试中位数 \(R^2\) 从0.984降至0.876,最小值从0.795降至0.710(MATH Lvl 5;附录P (https://arxiv.org/html/2606.05169#A16),H.15)。对于当前总体,宽度模型残差 \(\eta\) 相对于模型间分数差距仍然很小;对于未来模型进一步收敛的排行榜,线性化误差可能变得与顶尖对差距相当,此时框架应被局部非线性模型取代。关键诊断是:比较二次项与线性项 \(R^2\) 差距与标准化亚军差距 \(\Delta_2\);当它们处于同一量级时,宽度模型达到其界限边界。在我们的12个基准测试中,TruthfulQA 具有最低的 \(R^2\)(0.769)和最高的 \(\eta\),这与其定性/对抗性质一致。安全和偏好基准测试(不在我们的测试集中)可能具有更高的 \(\eta\);上述诊断可以检测到这一点。 #### 按定理的凸性。定理1和3以及秩反转推论是无假设的;定理2和Busemann–Petty 类比假设凸能力分布曲线。 #### 符号。在扩展前沿上:\(R = 7.30\),\(\varepsilon \leq 0.067\)(线性化残差,命题1 (https://arxiv.org/html/2606.05169#Thmproposition1)),而 \(\kappa\) 仅出现在光滑速率中(定理2 (https://arxiv.org/html/2606.05169#Thmtheorem2)c,定理3 (https://arxiv.org/html/2606.05169#Thmtheorem3))。 ## 3 有效维度 令 \(\Sigma = \mathrm{Corr}(S)\) 的特征值为 \(\lambda_1 \geq \cdots \geq \lambda_k \geq 0\)。*有效维度*是参与率 \(d_{\mathrm{eff}} = (\sum_i \lambda_i)^2 / \sum_i \lambda_i^2 = k^2 / \sum_i \lambda_i^2\),满足 \(1 \leq d_{\mathrm{eff}} \leq k\)。 ###### 定理1(有效维度,无分布假设)。令 \(\Pi: \mathcal{C} \to \mathbb{R}^k\) 是线性的(或在总体均值处线性化),并令 \(\Sigma_C \in \mathbb{R}^{D \times D}\) 是能力协方差矩阵。令 \(V_{\mathrm{eff}} \subset \mathbb{R}^D\) 是基准测试套件的 \(d_{\mathrm{eff}}\) 维有效子空间。则 1. (a) 最坏情况。\(\mathrm{tr}(P_{V_{\mathrm{eff}}} \Sigma_C) / \mathrm{tr}(\Sigma_C) \leq \sum_{i=1}^{d_{\mathrm{eff}}} \mu_i / \sum_{i=1}^D \mu_i\),当 \(V_{\mathrm{eff}}\) 与 \(\Sigma_C\) 的前 \(d_{\mathrm{eff}}\) 个特征向量对齐时取等。 2. (b) 通用基准测试。如果 \(V_{\mathrm{eff}}\) 均匀取自 \(\mathrm{Gr}(d_{\mathrm{eff}}, D)\),则 \(\mathbb{E}[\mathrm{tr}(P_{V_{\mathrm{eff}}} \Sigma_C) / \mathrm{tr}(\Sigma_C)] = d_{\mathrm{eff}} / D\),无需特征值假设,并以速率 \(\exp(-D t^2 / (8 \kappa^2))\) 集中,其中 \(\kappa = \mu_1 / \bar{\mu}\)。 3. (c) Marchenko–Pastur 校正。在独立基准测试的零假设下,样本特征值位于 \([ (1-\sqrt{k/n})^2, (1+\sqrt{k/n})^2 ]\)(Marčenko 和 Pastur, 1967 (https://arxiv.org/html/2606.05169#bib.bib24));噪声校正后的 \(d_{\mathrm{eff}}^{\mathrm{MP}}\) 仅使用上边缘以上的特征值。 *证明见附录B (https://arxiv.org/html/2606.05169#A2)*;使用了冯·诺伊曼迹不等式、Poincaré 分离定理、格拉斯曼集中性 (Meckes, 2019 (https://arxiv.org/html/2606.05169#bib.bib25)) 和 BBP 相变 (Baik 等人, 2005 (https://arxiv.org/html/2606.05169#bib.bib1))。 #### 跨排行榜的经验测量。我们在三个排行榜系列(表1 (https://arxiv.org/html/2606.05169#S3.T1))以及每个系列的竞争前沿(按平均分前50%)上测量 \(d_{\mathrm{eff}}\)。前沿是排名驱动部署决策的领域。 表1:跨排行榜系列的有效维度。前沿切片按平均分前50%。CI为95%百分位自助法(300次重采样)。Spearman列显示了基于秩相关的相同统计量。 扩展的12基准测试集包括 MMLU、HellaSwag、ARC、TruthfulQA、Winogrande、GSM8K(来自 OLLM v1)以及 IFEval、BBH、MATH Lvl 5、GPQA、MUSR、MMLU-PRO(来自 v2)。 该发现具有普遍性:每个前沿切片的 \(d_{\mathrm{eff}} \in [2.86, 4.80]\),尽管涵盖了准确率基准测试(OLLM v2)、混合编码/语言/指令跟随套件(LiveBench)和一个12基准测试超集。低有效维度是整个LLM评估的一个属性,而非单一方法的人为产物。整个总体由一个单一的g因子主导(小 \(\to\) 大能力);在前沿上,剩余维度变得可见。结果对相关方法的选择(Spearman vs Pearson,见上表)以及对MP、Kaiser和置换特征值阈值(附录P (https://arxiv.org/html/2606.05169#A16), H.1, H.6)具有稳健性。在完整的 OLLM v2 总体(\(n=4,576\))上,\(d_{\mathrm{eff}}\) 范围从1.78(所有模型)到3.94(前10%);我们的 \(n=229\) 估计值2.86与前15-20%一致(附注 H.44)。在一个涵盖编码、数学、推理、知识、智能体、多模态和写作(49个前沿模型,Epoch AI)的31基准测试跨领域数据集上,\(d_{\mathrm{eff}} = 7.12\)(前沿:5.71):更多样化的基准测试提高了 \(d_{\mathrm{eff}}\),但仍远低于 \(k=31\),确认盲点在各评估类型中持续存在。 参考图注图1:特征值谱(完整和前沿总体,两个套件),显示 Marchenko-Pastur 上边缘 \(\lambda_+ = (1+\sqrt{k/n})^2\) 和 Kaiser 线 \(\lambda=1\)。一个主导特征值在完整总体上捕获了大部分方差;在前沿(底行)上,剩余质量变得可见,\(d_{\mathrm{eff}}\) 上升至 \([3,5]\)。 参考图注图2:12基准测试扩展前沿的PCA双标图。PC1是残差 g 因子;PC2分离了以推理为主的基准测试(BBH, MUSR, GSM8K, MATH)和以知识为主的基准测试(MMLU, HellaSwag, MMLU-Pro, Winogrande)。 ## 4 不可区分性界限 #### 中心化约定。我们将能力分布曲线建模为原点对称的凸体(\(K = -K\)),因此 \(h_K(u) = h_K(-u)\),宽度 \(w_K(u) = h_K(u) + h_K(-u) = 2h_K(u)\)。在 \(\varepsilon\) 内宽度一致意味着在 \(\varepsilon/2\) 内支撑函数一致。由于得分矩阵中心化后基准测试分数具有平移不变性,这无损一般性;非对称情况将相同的界应用于对称化体 \((K-K)/2\)。形式化备注见附录C (https://arxiv.org/html/2606.05169#A3)。 ###### 定理2(不可区分性界限:紧速率,光滑扩展)。令 \(K, L \subset B_R^D\) 为凸体,其在有效子空间 \(V_{\mathrm{eff}}\)(维度 \(d_{\mathrm{eff}}\))的 m 个方向上的宽度测量在 \(\varepsilon\) 内一致相似文章
AI模型构建者的不稳定指标与基准测试文化
本文介绍了Benchmarking-Cultures-25数据集,该数据集分析了AI模型构建者如何在新闻稿中选择性突出基准测试。研究发现评估格局碎片化,跨模型可比性有限,并指出基准测试更多被用作市场定位的叙事工具,而非标准化的科学测量手段。
MM-JudgeBias:评测 MLLM-as-a-Judge 组合偏差的基准
研究者发布 MM-JudgeBias 基准,揭示多模态大模型在充当自动评判器时的系统性组合偏差,对 26 个 SOTA MLLM 在 1,800 条样本上进行测试。
长上下文LLM中的位置失败:推理基准测试的盲点
本论文识别出长上下文LLM推理基准测试中的一个盲点:它们未能控制任务在上下文中的位置,导致位置失败未被检测到。作者提出上下文旋转评估(CRE)来系统地改变任务位置、填充内容和上下文长度,揭示出当推理任务放置在长上下文中时,某些模型的准确率会严重下降。
真实场景下的对比归因:针对现实基准中大模型失效的可解释性分析
研究者采用基于LRP的对比归因方法,分析大模型在现实基准中失败的原因,发现该方法在某些场景下能提供有用信号,但并非始终可靠。
UnpredictaBench:评估大语言模型分布随机性的基准
UnpredictaBench是一个用于评估大语言模型从目标分布(包括统计和自然语言随机过程)中采样能力的基准。实验表明,当前模型难以捕捉真实的底层分布,在KS@100指标上没有模型超过40%。