评估失效的缩放定律:为何简单平均在数据稀疏和题目难度差距下会崩溃,以及项目反应理论如何跨领域恢复真实情况

arXiv cs.LG 论文

摘要

本文指出,在数据稀疏和难度异构的情况下,AI基准测试中的简单平均法会失效,并提出项目反应理论(IRT)作为一种稳健的替代方案,以恢复真实的排名情况。

arXiv:2605.11205v1 公告类型:新提交 摘要:在人工智能和安全关键领域的基准评估中,绝大多数依赖于简单平均法。我们证明了当以下两个条件同时出现时,这种做法会产生严重误导性的排名:(1) 评估矩阵是稀疏的,以及 (2) 题目难度存在显著差异。通过四个领域(NLP (GLUE)、临床试验、自动驾驶汽车安全和网络安全)的受控模拟实验,我们发现简单平均排名与真实排名之间的斯皮尔曼等级相关系数 $\rho$ 从高难度异构性条件下的100%覆盖率时的 $\rho = 1.000$ 下降到67%覆盖率时的 $\rho = 0.809$(基于20次随机种子的平均值)。一种标准的两参数逻辑回归(2PL)项目反应理论(IRT)模型在所有条件下保持了 $\rho \geq 0.996$。在稀疏性 $S \in [0, 0.70]$ 和难度差距 $D \in [0.5, 5.0]$ 上的150条件网格扫描确认,排名误差形成了一个具有强烈 $S \times D$ 交互作用的失效面 ($\gamma_3 = +0.20$, $t = 13.05$),而IRT在整个过程中保持了 $\rho \geq 0.993$。我们讨论了这对物理AI基准测试的影响,其中评估矩阵往往不完整且难度差距极大。
查看原文
查看缓存全文

缓存时间: 2026/05/13 06:35

# 评估失效的缩放律:为什么简单平均法在数据稀疏性和项目难度差异下会崩溃,以及项目反应理论如何在跨领域中恢复真实情况
来源:https://arxiv.org/html/2605.11205
Jung Min Kang 独立研究员 韩国首尔

\(2026年5月10日\)

###### 摘要

在人工智能和安全关键领域的基准评估中,绝大多数都依赖于简单平均法:系统的得分是其跨测试项目表现值的算术平均值。我们证明,当两个条件同时发生时,这种做法会产生严重误导性的排名:(1)评估矩阵是稀疏的(并非每个系统都在每个项目上进行测试),以及(2)项目难度存在显著差异。通过在四个领域——自然语言处理(NLP/GLUE)、临床药物试验、自动驾驶汽车(AV)安全以及网络安全产品评估——进行的受控模拟实验中,我们显示,简单平均排名与真实排名之间的斯皮尔曼等级相关系数 $\rho$ 从100%数据覆盖率时的 $\rho=1.000$ 下降到67%覆盖率且高难度异质性时的 $\rho=0.809$(基于20个随机种子的平均值)。相比之下,标准的二参数逻辑(2PL)项目反应理论(IRT)模型在所有条件下均保持 $\rho \geq 0.996$。我们将观察到的这种单调关系称为**评估失效缩放律**:简单平均法的准确性是稀疏性与难度差乘积的递减函数,而IRT保持稳健。通过对稀疏度 $S \in [0, 0.70]$ 和难度差 $D \in [0.5, 5.0]$ 进行的150种条件网格扫描进一步证实,排名误差形成了一个二维失效表面,排名误差中存在强烈的正 $S \times D$ 交互作用($\gamma_3 = +0.20, t=13.05$),而IRT在所有条件下均保持 $\rho \geq 0.993$。我们提供了完整的实验流程,并讨论了其对物理人工智能(机器人)基准测试的影响,其中已发表的评估矩阵往往不完整,且难度差异极大。据我们所知,我们的结果构成了首次跨领域模拟研究之一,表明IRT风格的估计可能是稀疏、异质基准生态系统中公平评估的重要校正机制。我们讨论了其对物理人工智能的影响,并概述了现实世界验证的要求。

关键词:项目反应理论,基准评估,简单平均,数据稀疏性,跨领域验证,物理人工智能,评估方法

## 1 引言

基准测试是人工智能进步的货币。排行榜上模型的排名决定了发表 venue、投资决策和部署选择。然而,几乎所有基准排名背后的统计方法——计算跨测试项目的分数算术平均值——在心理测量学界之外几乎未受到审查。

简单平均法的脆弱性已在特定背景下被指出。Rodriguez 等人(2021)证明,NLP 基准中的评估样例并非同样具有信息量,并提出了基于 IRT 的排行榜。Polo 等人(2024)表明,IRT 能够以较少的样例实现高效评估。Zhou 等人(2026)通过 IRT 分析揭示了 11 个 LLM 基准中存在的显著质量缺陷。最近,Uzunoğlu 等人(2025)引入了基准和谐度的概念,以量化子域间性能的非均匀性。

然而,许多现有的使用 IRT 的 AI 基准工作集中在单个基准生态系统或单个领域,留下了简单平均法的失效模式是否可以表征为跨领域可测量评估矩阵属性的函数这一开放问题。此外,尚无研究将简单平均法*何时*失效表征为可测量数据集属性的函数,这使得从业者无法知道其特定评估是否可信。

在本文中,我们解决了这两个空白。我们在跨越数据密度和难度异质性完整频谱的四个领域进行了受控模拟实验:

1. NLP(GLUE 基准):100% 数据覆盖率,中度难度异质性。这是简单平均法有效的简单情况。
2. 临床药物试验:65% 覆盖率,高难度差距。模拟并非每种药物都在每家医院进行测试的常见场景。
3. 自动驾驶汽车安全:60% 覆盖率,驾驶环境间的极端难度差距。模拟系统未在相同场景下进行评估的异质报告条件。
4. 网络安全产品评估:67% 覆盖率,攻击类型间的极端难度差距。模拟供应商在不同威胁概况下进行评估的场景。

我们的主要贡献是识别并基于受控模拟验证了我们所称的**评估失效缩放律**:

> 简单平均法的排名顺序准确性随着 $S \times D$ 单调下降,其中 $S$ 是缺失数据的比例(稀疏性),$D$ 是项目难度差距。基于 IRT 的估计在整个 $(S, D)$ 表面上保持显著更稳健($\rho \geq 0.993$)。

该定律具有直接的实践意义。在物理人工智能(机器人)基准测试中,已发表的评估矩阵往往不完整,且难度异质性可能极大,简单平均法不仅不精确,而且在可预测的方向上存在系统性偏差。

范围和未声明事项。本文并不声称提供已完成的物理人工智能基准,也不声称现实世界的物理人工智能评估必然遵循 2PL IRT 模型。相反,我们使用针对现实基准条件校准的受控模拟来隔离一种特定的方法论失效模式:当系统在稀疏且难度有偏的项目子集上进行评估时,简单平均法可能会产生误导性的排名。此处评估 IRT 作为一种原则性的校正机制,其实际部署需要 episode 级别的验证。

## 2 相关工作

NLP 评估中的 IRT。将项目反应理论应用于 NLP 评估由 Lalor 等人(2016)开创,他们证明 IRT 金标准比多数投票提供更细致的评估。Rodriguez 等人(2021)将其扩展到完整的基准分析,提出基于 IRT 的排行榜,利用 2PL 模型联合建模项目难度、区分度和受试者能力。其开源实现为后续工作奠定了基础。Lalor 等人(2024)在 EACL 2024 上介绍了 NLP 中 IRT 的全面教程。Polo 等人(2024)利用 IRT 构建微小的基准子集,仅用 100 个样例即可重现完整基准的排名。Zhou 等人(2026)提出了 PSN-IRT,一种神经 IRT 变体,并对 11 个 LLM 基准中的 41,871 个项目进行了迄今为止最全面的分析。Uebayashi 等人(2026)将 IRT 扩展到多模态基准 M3IRT,将能力和难度分解为模态特定的组件。然而,这些工作中的许多都集中在单个基准生态系统或密切相关的领域,留下了简单平均法失效是否可以表征为跨领域可测量评估矩阵属性的函数这一开放问题。

对基准中平均法的批评。简单平均法的局限性已从多个角度进行讨论。Uzunoğlu 等人(2025)引入了基准 HARMONY,衡量子域间的性能均匀性,并显示不太和谐的基准会产生误导性的结果。然而,他们提出的解决方案(在准确性的同时报告和谐度)并未解决排名问题——它诊断但并未治愈。决策科学中的“平均值的缺陷”概念提供了理论基础:当输入与输出之间的关系是非线性的(如项目难度),基于平均值的计划平均而言会失败。

NLP 之外的 IRT。在 AI 评估之外,IRT 已被美国联邦机动车承运人安全管理局(FMCSA)应用于机动车承运人安全评估,该局进行了为期多年的研究,将 IRT 与他们现有的安全测量系统进行比较。Luo 等人(2025)引入了 MedIRT 用于跨医疗基准的项目感知评估,证明基于 IRT 的排名在六个外部医疗基准中优于基于准确性的排名。Truong 等人(2025)提出了使用带有学习难度预测器的 IRT 进行摊销的基于模型的评估。同时,近期关于高效智能体基准测试的工作提出了在中等难度任务子集(30–70% 通过率)上评估 AI 智能体,受 IRT 驱动,将评估成本降低了 44–70%。他们的方法选择*哪些*任务进行评估;我们的方法是在任务选择不受评估者控制时校正排名——这是一个互补但根本不同的问题。据我们所知,先前没有工作系统地比较过 IRT 性能与简单平均法在多个领域中的数据稀疏性和难度异质性功能。

物理人工智能基准测试。物理人工智能基准测试景观的特征是极端的碎片化。Liu 等人(2023)引入了 LIBERO,现在是视觉-语言-动作(VLA)模型评估的事实标准。Zhou 等人(2025)通过 LIBERO-PRO 扩展了这一点,揭示在标准评估下实现 >90% 准确性的模型在扰动下会崩溃至 0%。Fei 等人(2025)进一步扩展了七个扰动轴的鲁棒性分析。尽管取得了这一进展,但尚未存在广泛采用的统一聚合方法:每篇论文在不同模型和任务子集上报告结果,创建了稀疏的评估矩阵,使得通过简单平均法进行的跨论文比较从根本上不可靠。

## 3 方法论

### 3.1 问题形式化

考虑一个评估矩阵 $R \in \{0, 1, \text{NA}\}^{J \times I \times K}$,其中 $J$ 个系统(受试者)在 $I$ 个项目(任务或条件)上进行评估,每个项目有 $K$ 个二元试验。如果系统 $j$ 在项目 $i$ 的第 $k$ 次试验中成功,则条目 $R_{jik}=1$,如果该(系统,项目)对从未被评估,则为 NA。观察掩码 $M \in \{0, 1\}^{J \times I}$ 指示哪些对被观察:$M_{ji}=1$ 如果系统 $j$ 在项目 $i$ 上进行测试。

数据覆盖率(密度)定义为:

$$C = \frac{\sum_{j,i} M_{ji}}{J \times I} \in [0, 1] \quad (1)$$

难度差距是真实项目难度的范围:

$$D = \max_i b_i - \min_i b_i \quad (2)$$

其中 $b_i$ 是项目 $i$ 的难度参数(如下定义)。

评估目标是在 $J$ 个系统上产生一个排名 $\hat{\pi}$,使其与真实排名 $\pi^*$ 的斯皮尔曼等级相关系数 $\rho(\hat{\pi}, \pi^*)$ 最大化。

### 3.2 简单平均法基线

标准方法为每个系统 $j$ 计算观察到的项目上的平均成功率:

$$\bar{r}_j = \frac{1}{\sum_i M_{ji}} \sum_{i: M_{ji}=1} \frac{1}{K} \sum_{k=1}^K R_{jik} \quad (3)$$

然后根据 $\bar{r}_j$ 对系统进行排名。仅当(a)对所有 $(j, i)$ 有 $M_{ji}=1$,或(b)缺失条目相对于项目难度完全随机缺失(MCAR)时,该估计量才是无偏的。在实践中,这两个条件都不成立:仅在简单项目上进行测试的系统获得膨胀的分数,而在困难项目上进行测试的系统受到惩罚。

### 3.3 2PL 项目反应理论

二参数逻辑(2PL)IRT 模型假设系统 $j$ 在项目 $i$ 上成功的概率为:

$$P(R_{jik}=1 \mid \theta_j, a_i, b_i) = \sigma(a_i(\theta_j - b_i)) \quad (4)$$

其中 $\sigma(x) = 1/(1+e^{-x})$ 是逻辑函数,$\theta_j \in \mathbb{R}$ 是系统 $j$ 的能力,$b_i \in \mathbb{R}$ 是项目 $i$ 的难度,$a_i > 0$ 是项目 $i$ 的区分度(它有效地分离高能力和低能力系统的能力)。

关键见解是,IRT 从观察到的数据中联合估计 $\theta_j$、$a_i$ 和 $b_i$,自动调整每个系统测试项目的难度。在困难项目($b_i \gg 0$)上得分为 70% 的系统获得的 $\theta_j$ 高于在简单项目($b_i \ll 0$)上得分为 90% 的系统。

估计。通过最大化边缘对数似然来估计参数:

$$\mathcal{L} = \sum_{j=1}^J \sum_{i: M_{ji}=1} \sum_{k=1}^K \big[R_{jik} \log P_{ji} + (1-R_{jik}) \log(1-P_{ji})\big] \quad (5)$$

其中 $P_{ji} = \sigma(a_i(\theta_j - b_i))$。我们使用带有正则化先验 $\theta_j \sim \mathcal{N}(0, 1)$、$b_i \sim \mathcal{N}(0, 2)$ 和 $\log a_i \sim \mathcal{N}(0, 0.5)$ 的 L-BFGS-B 进行优化。

处理缺失数据。IRT 通过似然公式处理缺失数据:公式(5)中的内层求和仅遍历观察到的 $(j, i)$ 对。不需要插补。该模型利用观察到的响应结构——系统在哪些项目上成功和失败——即使从不完整的档案中估计能力。然而,这并不意味着任意缺失是无害的:稳定估计需要系统和项目之间有足够的重叠(在我们的实验中,每个系统至少在 2 个项目上被观察,每个项目至少为 3 个系统所观察),如果违反假设的响应模型,非随机缺失模式仍可能使估计产生偏差。

标准误。我们从逆观测 Fisher 信息矩阵的对角线计算标准误,通过在 MLE 处通过有限差分 Hessian 评估近似。

## 4 实验设计

我们的实验策略是一项受控模拟研究。对于每个领域,我们:

1. 定义校准到已发表数据和领域专家知识的真实参数 $(\theta_j^*, a_i^*, b_i^*)$。
2. 生成反映特定领域评估模式的现实观察掩码 $M$。
3. 生成二元响应

相似文章

使用项目反应理论审计LLM基准测试

arXiv cs.CL

本文介绍了一种基于项目反应理论的方法,能够以95%的准确率检测LLM基准测试中的错误标注示例,并将错误追溯到标注启发式方法和注释问题。

并非每项评估都需要运行

arXiv cs.LG

这篇研究论文表明,前沿AI模型在133个基准测试上的得分近似于秩为2,即仅两个潜在因素就解释了超过90%的方差。作者提出了BenchPress,一种在logit空间中进行矩阵补全的方法,仅需少数几个基准测试就能预测模型的完整得分表,从而显著降低评估成本。