评估盲点：大语言模型基准覆盖的体视学理论

arXiv cs.LG 2026/06/05 04:00 论文

benchmarks llm-evaluation stereology theory machine-learning deep-learning

摘要

本文运用体视学理论分析大语言模型基准，揭示当前排行榜仅测量3-5个独立维度，产生的几何盲点主导统计噪声。文章提供了基准覆盖的理论界限，并提出一个用于高效基准选择的子模算法。

arXiv:2606.05169v1 Announce Type: new 摘要：我们提出了一种大语言模型基准覆盖的体视学理论。对于任何具有有效维度 d_eff 的基准套件，两个与相同分数一致的凸能力轮廓之间的可见豪斯多夫距离以 epsilon + C R m^(-1/(d_eff-1)) 为界，并具有匹配的利普希茨下界。实验上，三个独立排行榜（Open LLM v2、一个扩展的12基准套件、LiveBench）在竞争前沿上的 d_eff 均在[2.86, 4.80]之间；结构盲点比观察到的亚军得分差距高出两个数量级，并以52-127倍主导统计噪声。在卡方投影模型下，各向同性先验是乐观情况；在六种隐藏能力先验和四种环境维度下，前两个模型的模拟半分割交换率保持在[0.38, 0.49]之间，500次随机可见/保留分割显示92%的试验交换了前1名排名，平均有2.83个前5名模型发生变化。一种具有Nemhauser (1 - 1/e)保证的子模贪心算法找到了一个由4个基准组成的稳定核心；12个基准中的7个足以覆盖90%，且训练子集在四个季度间转移时保留率在93-97%之间。跨12个内部基准和27个Chatbot Arena类别的反事实验证证实，特征结构预测了哪些评估是不可替代的（移除干扰的rho = -0.69，p = 0.013）以及哪些外部评估带来了新信息（rho = +0.38）。作为第二个独立的理论贡献，我们解决了C^2支持函数下的Gardner问题1.5（1995），通过S^(D-1)上的最优恢复理论，建立了通用维度下的极小极大速率 Theta(R/(kappa m^(2/(D-1))))。

查看原文

查看缓存全文

缓存时间: 2026/06/05 08:08

# 大型语言模型基准测试覆盖率的体视学理论 来源：https://arxiv.org/html/2606.05169 ## 评估盲点：大型语言模型基准测试覆盖率的体视学理论 ###### 摘要 我们提出了LLM基准测试覆盖率的体视学理论。对于任何有效维度为 \(d_{\mathrm{eff}}\) 的测试集，两个与相同分数一致且满足凸性能力分布曲线的*可见*豪斯多夫距离以 \(\varepsilon + C R m^{-1/(d_{\mathrm{eff}}-1)}\) 为界，并具有匹配的利普希茨下界（定理2 (https://arxiv.org/html/2606.05169#Thmtheorem2)）。经验上，三个独立排行榜（Open LLM v2、一个扩展的12基准测试集、LiveBench）在竞争前沿的有效维度 \(d_{\mathrm{eff}} \in [2.86, 4.80]\)；结构盲点比观察到的亚军分数差距大两个数量级，并以52–127倍的优势主导统计噪声。在卡方投影模型下，各向同性先验是*乐观*情形（命题2 (https://arxiv.org/html/2606.05169#Thmproposition2)，通过舒尔凸性）；在六个隐藏能力先验和四个环境维度下，前两名模型的模拟半分裂交换率保持在 \([0.38, 0.49]\)，一个500次试验的随机可见/保留分裂显示，92%的试验交换了第一名排名，平均有2.83个（共5个）前五名模型发生变化。一个具有Nemhauser \((1-1/e)\) 保证的子模贪心算法找到了一个由4个基准测试组成的稳定核心；7个（共12个）基准测试即可达到90%的覆盖率，且训练好的子集在不同时间季度间的迁移率保持93–97%。跨12个内部基准测试和27个Chatbot Arena类别的反事实验证确认，特征结构能预测哪些评估是不可替代的（移除干扰：\(\rho = -0.69, p=0.013\)）以及哪些外部评估带来了新信息（\(\rho = +0.38\)）。作为第二个独立的理论贡献，我们解决了 Gardner 于1995年提出的关于 \(C^2\) 支撑函数的问题1.5，通过 \(S^{D-1}\) 上的最优恢复理论建立了通用维度下的极小极大速率 \(\Theta(R/(\kappa m^{2/(D-1)}))\)。 ## 1 引言 #### 基准测试是切片。公共LLM排行榜报告标量分数：指令跟随准确率、数学准确率、代码准确率。每个分数都是模型内在能力的一维投影——就像X射线是三维物体的一维投影一样。精确研究这一问题的数学分支称为*体视学*，它对有限投影能恢复什么有严格的定量限制。本文将这种限制引入LLM评估，并表明在真实的公共排行榜上，由低维测量引起的几何盲点比统计噪声高一个数量级。 #### 诊断、预测、治疗。我们*诊断*盲点（定理1 (https://arxiv.org/html/2606.05169#Thmtheorem1)：k个基准测试仅探测 \(d_{\mathrm{eff}} \approx 3-5\) 个独立方向），*预测*其后果（定理2 (https://arxiv.org/html/2606.05169#Thmtheorem2)：可见不可区分性界限为 \(\varepsilon + C R m^{-1/(d_{\mathrm{eff}}-1)}\)，通过匹配的利普希茨下界是紧的；推论1 (https://arxiv.org/html/2606.05169#Thmcorollary1)：在六个先验和四个环境维度下，前两名交换概率在 \([0.38, 0.49]\) 之间），并*治疗*它（定理4 (https://arxiv.org/html/2606.05169#Thmtheorem4)：一个具有 \((1-1/e)\) 保证的子模贪心算法，7个（共12个）基准测试达到90%覆盖率，具有4个基准测试的稳定核心和93–97%的跨时间迁移率）。命题1 (https://arxiv.org/html/2606.05169#Thmproposition1) 正式证明了基准测试作为宽度模型的合理性；命题2 (https://arxiv.org/html/2606.05169#Thmproposition2) 通过舒尔凸性证明了各向同性卡方界是*乐观*情形。作为第二个独立贡献，我们解决了 Gardner 于1995年提出的关于 \(C^2\) 支撑函数的问题1.5（定理3 (https://arxiv.org/html/2606.05169#Thmtheorem3)）。所用工具是标准的（参与率、Marchenko–Pastur 边界、Nemhauser 优化、凸体理论）；但结果是新的。 #### 相关工作定位。Sha 和 Zhao (2026 (https://arxiv.org/html/2606.05169#bib.bib35)) 的并发工作 (BenchScope) 独立发现LLM基准测试套件的低有效维度；我们共享该诊断，但贡献了不可区分性界限、子模覆盖算法和极小极大速率理论。Guntuboyina (2012 (https://arxiv.org/html/2606.05169#bib.bib12)) 给出了凸体恢复的有噪极小极大下界；我们的无噪方向离散化速率是对其的补充。Polo 等人 (2024 (https://arxiv.org/html/2606.05169#bib.bib30)) 通过IRT优化基准测试内的项目选择；我们通过子模覆盖优化基准测试间的基准测试选择。完整讨论见第7节 (https://arxiv.org/html/2606.05169#S7)。 #### 几何断层扫描。Gardner (1995 (https://arxiv.org/html/2606.05169#bib.bib10), 2006 (https://arxiv.org/html/2606.05169#bib.bib11)) 提出了关于从 \(S^1\) 上的m个X射线测量恢复*平面*凸体的问题1.5。我们的平面傅里叶稳定性界（附录E (https://arxiv.org/html/2606.05169#A5)）以速率 \(\Theta(R/(\kappa m^2))\) 直接解决了该问题。通用D维的普遍 \(\beta\) 速率（附录G (https://arxiv.org/html/2606.05169#A7)）超出了 Gardner 所问的范围。 ## 2 设定 令 \(\{c_1, \ldots, c_n\} \subset \mathbb{R}^D\) 为n个模型的未知能力分布曲线，由基准测试套件 \(\Pi = (\pi_1, \ldots, \pi_k)\) 通过 \(S_{ij} = \pi_j(c_i)\) 产生的得分矩阵 \(S \in \mathbb{R}^{n \times k}\)。 #### 宽度模型。我们将每个基准测试建模为 \(\mathbb{R}^D\) 中总体凸包的一种类宽度测量：标量（每个模型一个数字）、利普希茨（小的能力变化 \(\to\) 小的分数变化）、且保守（凸假设只会*缩小*界；非凸分布曲线会放大它）。以下表示定理使这一点精确化。 ###### 命题1（宽度表示）。令 \(\pi: \mathbb{R}^D \to \mathbb{R}\) 是一个满足 (i) 单调性、(ii) \(L\)-利普希茨连续性、(iii) 在总体凸包上有界线性化残差 \(\|\pi(c) - \pi(c_0) - \langle \nabla \pi(c_0), c - c_0 \rangle\| \leq \eta \|c - c_0\|^2\) 的基准测试。则对于任意两个模型 \(c_i, c_j\)，有 \[\big\| \pi(c_i) - \pi(c_j) - \big(h_K(a_\pi) - h_L(a_\pi)\big) \big\| \; \leq \; \eta \cdot \mathrm{diam}(\mathrm{pop})^2,\] 其中 \(a_\pi = \nabla \pi(c_0) / \|\nabla \pi(c_0)\|\) 是基准测试方向，\(h_K, h_L\) 是以模型邻域凸包的支撑函数。宽度模型误差 \(\eta \cdot \mathrm{diam}^2\) 被吸收到定理2 (https://arxiv.org/html/2606.05169#Thmtheorem2) 的 \(\varepsilon\) 项中。 *经验验证（附录P (https://arxiv.org/html/2606.05169#A16)，H.15）。* 将每个标准化基准测试对总体的前5个PC进行线性回归得出 \(R^2 \in [0.795, 0.984]\)。每个基准测试的二次项与线性项 \(R^2\) 差距 \(\leq 0.067\)（中位数0.011），确认线性化是紧的；中位数支撑函数重构误差为0.485个标准化单位。所有12个基准测试的每基准测试利普希茨常数满足 \(L_b \leq 0.993\)。命题1 (https://arxiv.org/html/2606.05169#Thmproposition1) 的证明见附录C (https://arxiv.org/html/2606.05169#A3)。 #### 有效性范围。当总体收缩时，线性化质量会下降。在前沿切片（前50%，\(n=148\)）上，每基准测试中位数 \(R^2\) 从0.984降至0.876，最小值从0.795降至0.710（MATH Lvl 5；附录P (https://arxiv.org/html/2606.05169#A16)，H.15）。对于当前总体，宽度模型残差 \(\eta\) 相对于模型间分数差距仍然很小；对于未来模型进一步收敛的排行榜，线性化误差可能变得与顶尖对差距相当，此时框架应被局部非线性模型取代。关键诊断是：比较二次项与线性项 \(R^2\) 差距与标准化亚军差距 \(\Delta_2\)；当它们处于同一量级时，宽度模型达到其界限边界。在我们的12个基准测试中，TruthfulQA 具有最低的 \(R^2\)（0.769）和最高的 \(\eta\)，这与其定性/对抗性质一致。安全和偏好基准测试（不在我们的测试集中）可能具有更高的 \(\eta\)；上述诊断可以检测到这一点。 #### 按定理的凸性。定理1和3以及秩反转推论是无假设的；定理2和Busemann–Petty 类比假设凸能力分布曲线。 #### 符号。在扩展前沿上：\(R = 7.30\)，\(\varepsilon \leq 0.067\)（线性化残差，命题1 (https://arxiv.org/html/2606.05169#Thmproposition1)），而 \(\kappa\) 仅出现在光滑速率中（定理2 (https://arxiv.org/html/2606.05169#Thmtheorem2)c，定理3 (https://arxiv.org/html/2606.05169#Thmtheorem3)）。 ## 3 有效维度 令 \(\Sigma = \mathrm{Corr}(S)\) 的特征值为 \(\lambda_1 \geq \cdots \geq \lambda_k \geq 0\)。*有效维度*是参与率 \(d_{\mathrm{eff}} = (\sum_i \lambda_i)^2 / \sum_i \lambda_i^2 = k^2 / \sum_i \lambda_i^2\)，满足 \(1 \leq d_{\mathrm{eff}} \leq k\)。 ###### 定理1（有效维度，无分布假设）。令 \(\Pi: \mathcal{C} \to \mathbb{R}^k\) 是线性的（或在总体均值处线性化），并令 \(\Sigma_C \in \mathbb{R}^{D \times D}\) 是能力协方差矩阵。令 \(V_{\mathrm{eff}} \subset \mathbb{R}^D\) 是基准测试套件的 \(d_{\mathrm{eff}}\) 维有效子空间。则 1. (a) 最坏情况。\(\mathrm{tr}(P_{V_{\mathrm{eff}}} \Sigma_C) / \mathrm{tr}(\Sigma_C) \leq \sum_{i=1}^{d_{\mathrm{eff}}} \mu_i / \sum_{i=1}^D \mu_i\)，当 \(V_{\mathrm{eff}}\) 与 \(\Sigma_C\) 的前 \(d_{\mathrm{eff}}\) 个特征向量对齐时取等。 2. (b) 通用基准测试。如果 \(V_{\mathrm{eff}}\) 均匀取自 \(\mathrm{Gr}(d_{\mathrm{eff}}, D)\)，则 \(\mathbb{E}[\mathrm{tr}(P_{V_{\mathrm{eff}}} \Sigma_C) / \mathrm{tr}(\Sigma_C)] = d_{\mathrm{eff}} / D\)，无需特征值假设，并以速率 \(\exp(-D t^2 / (8 \kappa^2))\) 集中，其中 \(\kappa = \mu_1 / \bar{\mu}\)。 3. (c) Marchenko–Pastur 校正。在独立基准测试的零假设下，样本特征值位于 \([ (1-\sqrt{k/n})^2, (1+\sqrt{k/n})^2 ]\)（Marčenko 和 Pastur, 1967 (https://arxiv.org/html/2606.05169#bib.bib24)）；噪声校正后的 \(d_{\mathrm{eff}}^{\mathrm{MP}}\) 仅使用上边缘以上的特征值。 *证明见附录B (https://arxiv.org/html/2606.05169#A2)*；使用了冯·诺伊曼迹不等式、Poincaré 分离定理、格拉斯曼集中性 (Meckes, 2019 (https://arxiv.org/html/2606.05169#bib.bib25)) 和 BBP 相变 (Baik 等人, 2005 (https://arxiv.org/html/2606.05169#bib.bib1))。 #### 跨排行榜的经验测量。我们在三个排行榜系列（表1 (https://arxiv.org/html/2606.05169#S3.T1)）以及每个系列的竞争前沿（按平均分前50%）上测量 \(d_{\mathrm{eff}}\)。前沿是排名驱动部署决策的领域。 表1：跨排行榜系列的有效维度。前沿切片按平均分前50%。CI为95%百分位自助法（300次重采样）。Spearman列显示了基于秩相关的相同统计量。 扩展的12基准测试集包括 MMLU、HellaSwag、ARC、TruthfulQA、Winogrande、GSM8K（来自 OLLM v1）以及 IFEval、BBH、MATH Lvl 5、GPQA、MUSR、MMLU-PRO（来自 v2）。 该发现具有普遍性：每个前沿切片的 \(d_{\mathrm{eff}} \in [2.86, 4.80]\)，尽管涵盖了准确率基准测试（OLLM v2）、混合编码/语言/指令跟随套件（LiveBench）和一个12基准测试超集。低有效维度是整个LLM评估的一个属性，而非单一方法的人为产物。整个总体由一个单一的g因子主导（小 \(\to\) 大能力）；在前沿上，剩余维度变得可见。结果对相关方法的选择（Spearman vs Pearson，见上表）以及对MP、Kaiser和置换特征值阈值（附录P (https://arxiv.org/html/2606.05169#A16), H.1, H.6）具有稳健性。在完整的 OLLM v2 总体（\(n=4,576\)）上，\(d_{\mathrm{eff}}\) 范围从1.78（所有模型）到3.94（前10%）；我们的 \(n=229\) 估计值2.86与前15-20%一致（附注 H.44）。在一个涵盖编码、数学、推理、知识、智能体、多模态和写作（49个前沿模型，Epoch AI）的31基准测试跨领域数据集上，\(d_{\mathrm{eff}} = 7.12\)（前沿：5.71）：更多样化的基准测试提高了 \(d_{\mathrm{eff}}\)，但仍远低于 \(k=31\)，确认盲点在各评估类型中持续存在。 参考图注图1：特征值谱（完整和前沿总体，两个套件），显示 Marchenko-Pastur 上边缘 \(\lambda_+ = (1+\sqrt{k/n})^2\) 和 Kaiser 线 \(\lambda=1\)。一个主导特征值在完整总体上捕获了大部分方差；在前沿（底行）上，剩余质量变得可见，\(d_{\mathrm{eff}}\) 上升至 \([3,5]\)。 参考图注图2：12基准测试扩展前沿的PCA双标图。PC1是残差 g 因子；PC2分离了以推理为主的基准测试（BBH, MUSR, GSM8K, MATH）和以知识为主的基准测试（MMLU, HellaSwag, MMLU-Pro, Winogrande）。 ## 4 不可区分性界限 #### 中心化约定。我们将能力分布曲线建模为原点对称的凸体（\(K = -K\)），因此 \(h_K(u) = h_K(-u)\)，宽度 \(w_K(u) = h_K(u) + h_K(-u) = 2h_K(u)\)。在 \(\varepsilon\) 内宽度一致意味着在 \(\varepsilon/2\) 内支撑函数一致。由于得分矩阵中心化后基准测试分数具有平移不变性，这无损一般性；非对称情况将相同的界应用于对称化体 \((K-K)/2\)。形式化备注见附录C (https://arxiv.org/html/2606.05169#A3)。 ###### 定理2（不可区分性界限：紧速率，光滑扩展）。令 \(K, L \subset B_R^D\) 为凸体，其在有效子空间 \(V_{\mathrm{eff}}\)（维度 \(d_{\mathrm{eff}}\)）的 m 个方向上的宽度测量在 \(\varepsilon\) 内一致

评估盲点：大语言模型基准覆盖的体视学理论

相似文章

LLM基准测试

Blind-Spots-Bench：评估多模态模型中的盲点

大型语言模型个性化能力的基准测试

超越静态排行榜：LLM智能体评估的预测有效性

量化LLM基准中的排名不确定性

提交意见反馈