ERRORQUAKE: 开放权重大语言模型中的重尾错误严重性分布

arXiv cs.LG 论文

摘要

本文介绍了Errorquake-10k,这是一个用于评估开放权重大语言模型中错误严重性的基准,表明具有相同准确率的模型可能具有截然不同的错误严重性分布,并主张在报告准确率的同时也应报告严重性。

arXiv:2606.05170v1 公告类型:新 摘要:在准确率匹配的情况下,开放权重大语言模型在错误严重性分布的形态上存在显著差异——这种差异在标量错误率上是不可见的。幻觉基准测试报告单一的错误计数,并将所有错误视为等同,然而一个错误的日期和一个捏造的法院判决之间存在数量级的差异。我们引入了Errorquake-10k,这是一个包含10,000个查询的基准测试,对每个响应在0-4的连续严重性尺度上进行评分,涵盖8个领域和5个难度等级,并拟合了21个开放权重模型的每个模型严重性分布。对于每个模型,我们估计了严重性分布指数(b,古腾堡-里克特上尾斜率),并给出95%的自助法置信区间。要点:在210个模型对中,有85对在准确率匹配(|Δε| < 0.05)且基于人类共识评分的情况下,其95% b置信区间不重叠,例如deepseek-v3.2与ministral-14b在ε = 0.586且Δb = 0.47时。一项包含519个项目、三位评分者的人类验证研究确认了测量可靠性(ICC(2,k=3) = 0.85),验证了LLM评判排名(ρ = 0.89),并确认了人类数据上的密集模型缩放相关性(ρ_s = -0.86)。我们证明了不可归约性定理,显示严重性分布曲线和错误率在信息上非冗余(I(b; model | ε) = 1.56 bits;跨模型b方差中有64.5%无法由ε解释)。严重性机制分类法(κ = 0.83)揭示错误类型随严重性发生类别性转变:低严重性错误是检索型(71%);高严重性错误是捏造型(39%)——且这种组成因模型规模而异(p < 0.0001)。严重性分布应与准确率一起报告;它携带了错误率无法提供的区分信息。
查看原文
查看缓存全文

缓存时间: 2026/06/05 08:08

# 开源大语言模型中重尾错误严重性分布

来源:https://arxiv.org/html/2606.05170

###### 摘要

在相同准确率下,开源大语言模型在错误严重性分布的形状上存在显著差异——这种差异是标量错误率所无法体现的。幻觉基准测试报告单一的错误计数,将所有错误视为等同,然而,错误的日期与捏造的法庭裁决之间相差数个数量级。我们引入了 Errorquake-10k,一个包含 10,000 条查询的基准测试,在 8 个领域和 5 个难度层级上以 0–4 连续严重性量表对每个响应进行评分,并为 21 个开源模型拟合了每个模型的严重性分布。对于每个模型,我们估计一个严重性分布指数 \(b\)(古登堡-里希特上尾斜率),并附带 95% 自助法置信区间。主要发现:在 210 个模型对中,有 85 个在人类共识评分中,在匹配准确率(\(\|\Delta\varepsilon\|<0.05\))下具有不相交的 95% \(b\) 置信区间,例如 deepseek-v3.2 与 ministral-14b 在 \(\varepsilon=0.586\) 和 \(\Delta b=0.47\) 时。一项包含 519 个条目、三位评分者的人类验证研究确认了测量的可靠性(ICC(2,k=3)=0.85),验证了 LLM 评判者的排名(\(\rho=0.89\)),并在人类数据上确认了密集模型的缩放相关性(\(\rho_s=-0.86\))。我们证明了一个不可约性定理,表明严重性分布和错误率在信息上是非冗余的(\(I(b; \text{model} \mid \varepsilon)=1.56\) 比特;64.5% 的跨模型 \(b\) 方差无法由 \(\varepsilon\) 解释)。一个严重性机制分类体系(\(\kappa=0.83\))揭示,错误类型随严重性呈分类性变化:低严重性错误是检索错误(71%),高严重性错误是捏造(39%)——而且这种组成因模型大小而异(\(p<0.0001\))。*严重性分布应与准确率一同报告;它携带了错误率无法提供的判别信息。*

## 1 引言

标准的幻觉基准测试(Lin 等人,2022b;Li 等人,2023)报告一个单一数字——错误率 \(\varepsilon\)——并将所有错误视为等同。这忽略了语言模型失败的一个基本属性:一个引用错误出版日期的 LLM 与一个捏造整个司法意见的 LLM 都为 \(\varepsilon\) 贡献了一个计数,然而它们的下游后果相差数个数量级。在部署中,重要的问题不是“模型出错的频率是多少?”而是“出错的严重程度如何?”借用地震学的术语,我们使用古登堡-里希特震级-频率关系 \(\log_{10} N(M \geq m) = a - b m\) 的斜率 \(b\) 来总结 LLM 的尾部行为:较小的 \(b\) 意味着模型很少出错,但罕见错误是灾难性的;较大的 \(b\) 意味着许多小错误,且严重性有限。

#### 核心发现:一个匹配准确率的判别器。

我们的主要发现是一个成对判别结果:在 21 个模型目录的 210 个模型对中,有 85 对在人类共识评分上,在匹配准确率下具有不相交的 95% \(b\) 置信区间(\(\|\Delta\varepsilon\|<0.05\);仅基于 LLM 评判者评分则为 31 对)。最清晰的例子是 deepseek-v3.2 与 ministral-14b,在 \(\varepsilon=0.586\) 和 \(\Delta b=0.47\) 时:这两个模型在错误率上的差异在第三位小数以内,但在尾部形状上却相差一个在部署范围内累积放大的因子。模型对的数量对辅助评判者基线稳健性检查是稳健的:在 8 个单领域剔除中为 25–41 对,在所有四种评判者聚合方案(主要仅、次要仅、最大严重性、最小严重性)下 ≥6 对,以及在 ≥80% 双评判者覆盖子集上为 28 对。这是一个每对结果,而非跨模型回归;它不依赖于缩放定律或边际 \(\varepsilon\)-\(b\) 关系,这两者我们分别作为敏感性分析单独报告。*严重性分布应与准确率一同报告;它携带了错误率无法提供的判别信息。* 本文通过引入严重性分布分析作为一个互补维度,为 AI 评估做出贡献,其假设是,错误严重性可以通过一个基于人类评分校准的双评判者流水线在连续量表上可靠地评分。该声明适用于 3–37B 活跃参数的开源指令微调模型;它尚不涵盖专有前沿模型、推理模型或 3B 以下的模型(§8)。基准测试、评分流水线、量表锚点和分析代码已发布以供复制。

#### 贡献。

C1(理论)一个不可约性定理,证明了严重性分布和错误率在信息上是非冗余的,并附有将测量可靠性与判别力联系起来的解析界(§5)。C2(测量)一个 9 级严重性量表,由一项包含 519 个条目、3 位评分者的人类研究验证(ICC(2,k=3)=0.85,过度判定率=13.7%),人类 \(b\) 与评判者 \(b\) 的排名相关性 \(\rho=0.89\),跨越 15 个模型(§2,§2 中的 Px4)。C3(核心发现)\(b\) 是一个匹配准确率的判别器:在人类共识评分中,210 个模型对中有 85 对在 \(\|\Delta\varepsilon\|<0.05\) 下具有不相交的 95% \(b\) 置信区间,并在交叉领域 Jackknife(25–41 对)、四种评判者聚合规则以及双覆盖子集(§4.1)下具有辅助 LLM 评判者稳健性。C4(分类体系)一个严重性机制分类体系(6 个类别,\(\kappa=0.83\)),显示错误类型随严重性呈分类性变化(低=71% 检索,高=39% 捏造),并且因模型大小而异(\(p<0.0001\))(§4.7)。C5(缩放)密集模型缩放相关性 \(\rho_s=-0.86\)(基于人类验证数据,\(n_{\text{dense}}=11\)):更大的模型具有更重的严重性尾部,这由评判者(\(\rho_s=-0.56\))和人类评分者(§4.3)独立确认。C6 分布特征化(21 个模型中有 17 个非指数)、预注册的微观错误预测(排名显著,幅度失败)以及部署风险表(§4.2,§4.4,§4.7 中的 Px2)。C7(资源)Errorquake-10k 基准测试,10,000 条查询 × 21 个模型,评分工具包,Croissant 元数据,以及 HuggingFace 发布。

## 2 方法

#### 错误严重性量表。

我们以 0.5 为增量(9 个不同级别)将 0.0–4.0 连续量表量化后对每个模型响应进行评分。0.0 表示正确响应;0.5–1.0 表示保持主旨的不精确;1.5–2.0 表示中等事实错误;2.5–3.0 表示误导典型读者的大量错误;3.5–4.0 表示捏造(自信地断言虚构信息)。附录 K 复制了完整的评分细则,每个锚点附有三个示例。量表设计原则:(i) 连续而非二元;(ii) 非负;(iii) 在“无害失误与后果性失败”边界附近密集。

#### 查询基准测试。

Errorquake-10k 包含 10,000 条查询:跨 8 个领域(BIO, LAW, HIST, GEO, SCI, TECH, FIN, CULT)每个领域 1,250 条,每个领域分层为五个难度级别 T1–T5,每个级别 100 条查询。级别 T1–T2 是“简单”的事实查询;T4–T5 包含陷阱问题和组合查找,旨在引发自信捏造。一个级别校准审计标记了约 6% 的单元格为错误级别,并已重新生成(附录 E)。

#### 双评判者评分。

每条响应由来自一个 8 模型循环池的两名评判者进行评分,该池排除了目标模型(零自我评判,已审计)。最终得分 = 两名评判者在 1.0 范围内一致时的均值;否则,使用决胜者进行三人中位数。在 60,568 条两名评判者均生成分数的记录中,决胜前评判者间一致性为 ICC(2,1)=0.374(单评分者,双向随机效应,绝对一致性;Shrout–Fleiss)。*本文实际使用的平均最终得分的 ICC(2,k=2)=0.545*,属于 Cicchetti 指南中的“一般至中等”范围,并且是下游分析的相关可靠性数字。线性 Cohen’s \(\kappa=0.285\) 和二次 \(\kappa=0.374\) 为完整起见而报告,尽管 Cohen’s \(\kappa\) 因 9 级量表的低偶然一致性而降低。次要评判者在小型模型记录的非随机子集上失败,因此每模型一致性比较是有偏差的;每模型分解见附录 R。一项 340 条的手动审计额外发现,33.5% 的评判者得分 2.0 判定是过度判定(S2,§4.6)。所有推理使用一个开放访问推理 API,该 API 在第三方 GPU 基础设施上托管目标模型;提示和模型版本字符串见附录 J。

#### 人类验证。

三位专家评分者独立对 519 个条目的分层样本(约 35 条/模型 × 15 个模型,5 个严重性带)以相同的 9 点量表进行评分,对模型身份和评判者得分不知情。评分者间可靠性极好:ICC(2,k=3)=0.85(95% CI [0.83,0.87]),ICC(2,1)=0.66。成对二次 \(\kappa\) 范围为 0.65–0.66。每领域 ICC(2,k=3) 在所有 8 个领域一致(0.82–0.92)。在得分 2.0 时的人类过度判定率为 13.7%(LLM 评判者为 33.5%)。

人类导出的 \(b\) 值范围为 [0.72,1.27],与评判者范围 [0.57,1.31] 匹配,人类与评判者的排名相关性 \(\rho=0.89\)(\(p<0.001\)),跨越 15 个模型。每位评分者的项目级别斯皮尔曼与评判者之间的相关性为 0.77–0.80。密集模型缩放相关性在人类数据上为 \(\rho_s=-0.86\),*强于*基于评判者的 -0.56,独立确认了缩放发现。评分者还将每个错误分类到严重性机制分类体系中(§4.7),达到 Fleiss \(\kappa=0.83\)。

#### 分布拟合。

我们将五个候选族拟合到离散网格 {0.5,1.0,...,4.0} 上的严格正分数:离散幂律、截断幂律、指数、拉伸指数和对数正态。每个通过最大似然法拟合,并考虑离散性修正,我们将 BIC 最佳族宣布为决定性的,条件为 Vuong \(p<0.05\)(Vuong, 1989)或 \(\Delta\text{BIC}>6\)(参见 Clauset 等人,2009)。我们目录中没有模型最适合纯幂律。

#### 严重性分布指数 \(b\) 估计。

古登堡-里希特震级-频率关系(Gutenberg and Richter, 1944)\(\log_{10} N(M \geq m) = a - b (m - m_{\min})\) 对在严重性 \(m\) 或以上的事件计数进行建模。我们通过最大似然法估计 \(b\),使用 Aki 公式(Aki, 1965)并考虑离散性修正,基于网格量化的正分数:\(\hat{b} = \log_{10} \mathrm{e} / (\bar{m} - m_{\min} + \delta/2)\),其中 bin 宽度 \(\delta = 0.5\),\(\bar{m}\) 是 \(m_{\min}\) 及以上观测值的均值。我们通过最小化与拟合指数尾部的 Kolmogorov–Smirnov 距离来选择 \(m_{\min}\),限制在至少 30 个事件以上的网格点。置信区间是来自 2,000 次重抽样的 95% 百分位数自助法。

## 3 实验设置

我们评估了来自 10 个家族的 21 个开源指令微调语言模型,活跃参数数量从约 3B(llama-3.2-3b, phi-3.5-mini)到约 37B 中的约 671B 总参数(deepseek-v3.1, v3.2)。目录包括 14 个密集模型和 7 个 MoE 模型;完整列表及版本字符串见附录 D。每个模型在所有 10,000 条 Errorquake-10k 查询上以贪婪解码、500 个 token 预算进行评估,通过一个在第三方 GPU 基础设施上托管目标模型的开放访问推理 API。推理模型和三个速率限制耗尽的模型被排除;参见 §8。预注册的标准和观察到的结果总结在表 1 中;我们报告所有判定结果,包括失败。

表 1:预注册的标准和结果。实验 5 的零假设在*相反*方向被拒绝。†S2 以 0.003 之差错过阈值,并报告为“边缘失败”。‡四个模型被 BIC 最佳拟合为指数,但 21 个中有 17 个是非指数的,且 21 个中有 17 个是 Vuong 决定性的;综合来看,每个模型在至少一个标准下显示出尾部形状结构。
## 4 实验

实验的顺序是为了构建核心判别器结果。§4.1 以匹配准确率的发现开头:在 \(\binom{21}{2}=210\) 个模型对中,有 85 对在人类共识评分上具有不相交的 \(b\) 置信区间(仅基于 LLM 评判者基线则为 31 对),并附有评判者基线 Jackknife 和聚合稳健性。§4.2 然后确立严重性分布存在且携带非平凡的尾部结构。§4.4 报告预注册的微观错误到灾难预测(排名显著,幅度校准失败);§4.5 显示领域变化;§4.3 报告一个边际密集模型缩放相关性作为仅敏感性观察。§4.6 收集适用于核心发现和敏感性的评判者稳健性检查。

### 4.1 匹配准确率判别器(实验 2,核心发现)

这是我们的核心结果。在 \(\binom{21}{2}=210\) 个模型对中,有 85 对在人类共识评分上,在匹配准确率(\(\|\Delta\varepsilon\|<0.05\))下具有不相交的 95% \(b\) 置信区间——这是仅使用 LLM 评判者评分所找到的 31 对的 2.7 倍,且比预注册的 ≥3 标准高出一个数量级。这一增长反映了人类评分者能够解压缩 LLM 评判者系统压缩的严重性尾部(评判者过度判定率 = 33.5%;人类过度判定率 = 13.7%)。具体来说,deepseek-v3.2(\(\varepsilon=0.586\), \(b=0.655\))和 ministral-14b(\(\varepsilon=0.586\), \(b=1.122\))具有相同的准确率,但 \(b\) 差距为 0.467,且 95% 置信区间不重叠。错误率将它们视为等同;严重性分布则不然。

#### 跨领域 Jackknife。

依次剔除 8 个领域中的每一个并重新计算不相交对的数量:范围从 25 到 41(均 ≥ 预注册的 3)。分解显示,当保留某些领域(BIO, CULT)时,数字更高;剔除 SCI 产生最低计数(25)。这一范围在三个稳健性条件下保持:仅使用主要评判者(23–38)、仅使用次要评判者(11–27)以及 ≥80% 双覆盖子集(15–28)。这些数字是每对的,不依赖于边际缩放关系。

相似文章

大型语言模型中的置信度校准

arXiv cs.AI

本文分析了11个主流大型语言模型的置信度校准情况,发现它们普遍过于自信,尤其在困难任务上,而在简单任务上则信心不足。文章引入了LifeEval,这是一个用于评估不同难度级别下校准效果的测试。

大型语言扩散模型的不确定性量化

arXiv cs.CL

本文首次系统研究了大型语言扩散模型(LLDMs)的不确定性量化(UQ),提出了从迭代去噪过程中衍生的轻量级零样本不确定性信号,并表明LLDMs能够在实现快速推理的同时,提供可靠的幻觉检测,与基于采样的基线方法相比,计算开销降低高达100倍。