用于评估开放式问答校准的语义采样框架

arXiv cs.CL 论文

摘要

本文介绍了 Sem-ECE,这是一种语义采样框架,通过将模型答案分组为语义类别来估计置信度,从而评估开放式问答中的校准情况。

arXiv:2605.08432v1 公告类型:新 摘要:校准衡量模型预测的置信度是否与其经验准确性相符,对于在医疗和法律等高风险领域可靠部署大型语言模型(LLMs)至关重要。虽然近期许多工作集中在改善 LLM 的校准性能上,但在现实场景中如何评估这一性能的同样重要的问题仍有待开发。开放式问答(QA)是现代 LLM 最常见的部署场景,而现有评估方法在此处存在不足:基于 logits 的指标需要受限的输出格式和内部概率;表述型置信度属于自报告且往往过于自信;而基于采样的方法依赖于特定任务的提取规则,缺乏明确的有限样本目标。我们引入了 Sem-ECE(语义采样预期校准误差),这是一个用于开放式 QA 的校准评估框架,它从模型中采样答案,将它们分组为语义类别,并使用由此产生的频率作为置信度。我们研究了该框架内的两个估计器:Sem$_1$-ECE,即同一样本自一致性得分,以及 Sem$_2$-ECE,一种将答案选择与置信度评估分开的留出变体。我们证明了两者在渐近意义上均无偏,并进一步表明它们在简单问题上结果一致,但在困难问题上结果不同,其中 Sem$_2$ 实现了更小的校准误差,因此它们之间的差距也可作为问题难度的诊断指标。在三个开放式 QA 基准测试上针对五个主流商业 LLM 的实验符合我们的理论预测,并显示 Sem-ECE 优于表述型置信度和现有基于采样的方法,同时在无法获取内部概率时补充了基于 logits 的评估。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/12 06:44

# 用于评估开放式问答校准的语义采样框架

来源: https://arxiv.org/html/2605.08432  
Zhanliang Wang${}^1$, Jiancong Xiao${}^{1*}$, Ruochen Jin${}^2$, Shu Yang${}^1$, Bojian Hou${}^1$, and Li Shen${}^{1\dagger}$  
${}^1$宾夕法尼亚大学, 费城, 宾夕法尼亚州; ${}^2$达特茅斯学院, 汉诺威, 新罕布什尔州  
\{aaronwzl,jcxiao\}@upenn\.edu, ruochen\.jin\.gr@dartmouth\.edu, \{syang11,bojianh,lishen\}@upenn\.edu

###### 摘要

校准(Calibration)衡量模型预测的置信度是否与其经验准确度一致,这对于在医疗和法律等高 stakes 领域可靠部署大型语言模型(LLMs)至关重要。虽然近期大量工作致力于*改善* LLM 的校准,但在真实场景中如何*评估*这一指标的同等重要问题仍未得到充分发展。开放式问答(QA)是现代 LLM 最常见的部署场景,也是现有评估方法的短板所在:基于 logit 的指标需要受限的输出格式和内部概率;言语化置信度(verbalized confidence)属于自我报告且往往过于自信;而基于采样的方法则依赖特定任务的提取规则,且缺乏明确的有限样本目标。

我们提出了 **Sem-ECE**(Semantic-Sampling Expected Calibration Error,语义采样预期校准误差),这是一个用于开放式 QA 的校准评估框架。该框架从模型中采样答案,将它们分组到语义类别中,并利用由此产生的频率作为置信度。我们研究了该框架下的两个估计器:**Sem1-ECE**(同一样本的自一致性分数)和 **Sem2-ECE**(一种分离答案选择与置信度评估的保留变体)。我们证明了两者都是渐近无偏的,并进一步表明,它们在简单问题上结论一致,但在困难问题上会出现分歧,且 Sem2 实现的校准误差严格更小,因此两者之间的差距也可作为问题难度的诊断指标。在三个开放式 QA 基准测试上对五款领先的商业 LLM 进行的实验与我们的理论预测相符,结果显示 Sem-ECE 优于言语化置信度和现有的基于采样的方法,并且在内部概率不可用时,可作为基于 logit 评估的有效补充。

代码可用见: https://github.com/ZhanliangAaronWang/Sem-ECE.

## 1 引言

校准衡量模型预测的置信度是否与其经验准确度一致,被广泛认为是可靠部署大型语言模型(LLMs)的先决条件 [5, 6, 20]。在医疗和法律等高 stakes 领域,一个平均准确但校准不良的系统无法区分常规查询与可能失败的查询,导致下游流水线缺乏信号来判断何时信任答案、放弃或升级处理。近期大量工作致力于通过事后重缩放、提示策略或感知校准的微调来*改善* LLM 校准 [19, 5, 9, 10, 20, 24]。然而,在真实场景中如何*评估*校准这一同等重要的问题仍未得到充分发展。

诸如 Brier 分数、可靠性图和预期校准误差(ECE)等经典指标 [2, 16, 5] 适用于分类和多项选择 QA,但在现代 LLM 的主要部署场景——开放式 QA 中则失效:答案空间是无界的,两个措辞迥异的答案可能同样正确,且商业 API 通常不暴露 logits。现有的黑盒方法各自填补了部分空白,但没有任何一种方法能以统计上明确的目标覆盖全部场景。言语化置信度具有格式无关性 [11, 6, 14, 20],但依赖于自我报告且经常过于自信 [6, 20, 22]。基于采样的方法从重复生成的一致性中推导置信度 [21, 12],但通常需要特定任务的答案提取规则,并依赖于启发式频率分数而非严格的统计目标。

我们提出了 **Sem-ECE**(Semantic-Sampling Expected Calibration Error,语义采样预期校准误差),这是一个用于开放式 QA 校准评估的语义采样框架。该框架反复从模型中采样答案,通过 LLM 裁判将自由形式的生成映射到语义答案类别,并根据由此产生的语义频率评估校准,无需 logits、多项选择选项或手工制作的答案提取规则。

在此框架内,我们研究了针对同一目标(即模型最可能的语义答案的概率)的两个自然估计器。**Sem1-ECE** 是标准的同一样本自一致性分数:它选择出现频率最高的语义答案,并将该频率作为置信度。**Sem2-ECE** 是一种保留变体,它在一个样本块上选择答案,并在一个不相交的保留块上测量其频率。我们证明了两者都是渐近无偏的,为基于采样的校准评估奠定了原则性的统计基础,并以封闭形式表明,在边际较低的困难问题上,Sem2 产生的校准误差严格小于 Sem1,而在简单问题上两者几乎无法区分;因此,Sem1–Sem2 差距也可作为问题难度的简单可观测诊断指标。

Sem-ECE 通过测量答案分布的行为属性而非依赖自我报告,改进了言语化置信度;并通过用具有显式总体目标和可证明保证的估计器替代手工制作的提取规则和启发式频率分数,推进了现有的基于采样的校准评估;当内部概率不可用时,它可作为基于 logit 评估的补充。在包括 Humanity’s Last Exam 在内的三个具有挑战性的开放式 QA 基准上,对五款领先的商业 LLM(ChatGPT, Claude, Gemini, Grok, 和 Mistral)进行的实验证实了我们的理论预测,结果显示在大多数模型-基准组合中,Sem2-ECE 实现的校准误差低于言语化置信度。

## 2 相关工作

通过 Brier 分数、可靠性图和分箱 ECE,概率分类器和多项选择 QA 的校准评估已得到充分研究 [2, 16, 5],但开放式 QA 打破了这些工具:答案空间是无界的,正确性是语义而非词法层面的,且商业 API 通常不暴露 logits。出现了两类黑盒置信度来源。*言语化置信度* 以文字或概率形式引出模型陈述的不确定性 [11, 6, 14, 20],但它是自我报告的且经常过于自信。*基于采样的方法* 使用重复生成间的一致性作为置信度信号 [21, 12],其语义不确定性变体将生成按含义分组 [8, 3];现有实现依赖于特定任务的答案提取规则,且缺乏显式的总体目标。

Sem-ECE 像基于采样的方法一样测量答案分布的行为属性,但为由此产生的频率分配了一个具有可证明保证的显式渐近目标,从而将其与启发式频率分数和自我报告的不确定性区分开来。另一项互补的工作旨在通过事后重缩放或微调来*改善*校准 [19, 9, 10, 24];有关扩展讨论请参见附录 G。

## 3 预备知识

**语义答案空间和oracle置信度。**  
令 $\mathcal{Q}$ 为问题上的分布。对于固定的 $q \sim \mathcal{Q}$,在固定提示和解码配置下查询 LLM 会产生一个随机的自由形式答案字符串。如果两个字符串对 $q$ 表达了相同的答案,则它们是*语义等价的*;等价类构成有限的*语义答案空间* $\mathcal{Z}_q = \{1, \dots, K_q\}$,其中 $K_q := |\mathcal{Z}_q|$。LLM 在 $\mathcal{Z}_q$ 上诱导了一个类别分布 $\pi_q$,其中 $\pi_{q,k} := \pi_q(k) = \Pr(\text{LLM对} q \text{的回答属于类} k)$。*总体语义众数* 是 $z_q^\star := \operatorname{arg\,max}_k \pi_{q,k}$(平局由固定确定性规则打破),*oracle语义置信度* 是 $c_q^\star := \pi_{q,z_q^\star} = \max_k \pi_{q,k}$。这是一个一致性量,而非正确性量:模型可能在每个样本上都出错,但仍具有 $c_q^\star = 1$。

**语义正确性。**  
正确性在语义类层面定义。令 $Y_q: \mathcal{Z}_q \to \{0,1\}$ 为 $q$ 的正确性函数,其中 $Y_q(k)=1$ 当且仅当类 $k$ 相对于参考答案是正确的。如果一种方法以置信度 $c \in [0,1]$ 承诺类 $k$,则其校准使用对 $(c, Y_q(k))$ 进行评估;因此校准是在语义层面而非原始字符串层面进行评估的。

**$\pi_q$ 的经验估计。**  
分布 $\pi_q$ 是未知的;我们通过 $n+m$ 次独立生成来访问它,这些生成被聚类到语义类 $Z_1, \dots, Z_{n+m} \overset{\mathrm{i.i.d.}}{\sim} \pi_q$,并将索引集 $[n+m]$ 划分为大小为 $n$ 的选择块 $N$ 和大小为 $m$ 的不相交评估块 $E$。对于任意 $I \subseteq [n+m]$,经验语义 PMF 为 $\hat{\pi}_I(k) := |I|^{-1} \sum_{i \in I} \mathbf{1}\{Z_i=k\}$,相应的经验语义众数为 $\hat{z}_I := \arg\max_{k \in \mathcal{Z}_q} \hat{\pi}_I(k)$(平局由与 $z_q^\star$ 相同的确定性规则打破)。我们将选择块上的经验众数记为 $\hat{z}_N$;这是模型将部署的答案。

**标准化边际。**  
我们将反复引用 $\pi_q$ 的两个标量摘要。*Top-two 边际* $\Delta_q := \pi_{q,z_q^\star} - \pi_{q,z_q^{(2)}}$ 是众数概率与亚军之间的差距;*Top-two 概率质量* $p_q := \pi_{q,z_q^\star} + \pi_{q,z_q^{(2)}}$ 是它们的总和,其中 $\pi_{q,z_q^{(2)}} := \max_{k \neq z_q^\star} \pi_{q,k}$。由此我们形成*标准化边际* $\tilde{m}_q := \Delta_q / \sqrt{p_q/n}$ 及其一半 $\tilde{\lambda}_q := \tilde{m}_q/2$:$\tilde{m}_q$ 是 $\Delta_q$ 在差分计数 $\hat{\pi}_N(z_q^\star) - \max_{k \neq z_q^\star} \hat{\pi}_N(k)$ 的主导阶方差 $p_q/n$ 下的 z-分数,并贯穿第 5 节参数化体制结构。

**$p_q \to 1$ 惯例。**  
为了图表可读性,我们采用惯例 $p_q \to 1$,在此惯例下 $\tilde{m}_q = \sqrt{n}\,\Delta_q$;所有定理均针对一般的 $p_q \in (0,1]$ 陈述。

**分箱预期校准误差。**  
对于(置信度,正确性)对 $(c,a)$,其中 $c \in [0,1]$ 且 $a \in \{0,1\}$,校准由分箱预期校准误差测量 [16, 5]。固定 $L$ 个等宽分箱 $\mathcal{I}_1, \dots, \mathcal{I}_L$ 划分 $[0,1]$,边界集为 $\mathcal{T}$;我们在整个过程中设置 $L=10$。定义
$$ \operatorname{ECE}(c,a) \;:=\; \sum_{\ell=1}^{L} \left\| \mathbb{E}\! \left[ (a-c) \mathbf{1}\{c \in \mathcal{I}_\ell\} \right] \right\|, $$
其中期望是在 $q \sim \mathcal{Q}$ 和每个问题内的采样随机性上。Oracle 正确性标签是 $a_q^\star := Y_q(z_q^\star)$,部署的正确性标签是 $\hat{a} := Y_q(\hat{z}_N)$。我们通过 $\hat{c}_i$ 和 $c_q^\star$ 实例化 $c$ 以获得核心指标 $\mathrm{Sem}_i\text{-ECE} := \operatorname{ECE}(\hat{c}_i, \hat{a})$ 和 $\mathrm{ECE}^\star := \operatorname{ECE}(c_q^\star, a_q^\star)$,即 $\mathrm{Sem}_i$ ($i \in \{1,2\}$) 的校准误差和不可达的总体级 Oracle 对的校准误差。部署准确率 $\bar{a} := \mathbb{E}_q[\hat{a}] = \mathbb{E}_q[Y_q(\hat{z}_N)]$ 是 $\hat{a}$ 的总体均值,并作为第 5.2 节中主导阶分析的自然参考。

## 4 用于评估校准的语义采样框架

### 4.1 同一样本估计器 Sem1

Oracle 置信度 $c_q^\star = \max_k \pi_{q,k}$ 的最直接估计是产生 $\hat{z}_N$ 的同一块上的经验最大值:
$$ \hat{c}_1 := \max_{k \in \mathcal{Z}_q} \hat{\pi}_N(k). \quad (1) $$
一旦承诺用 $\max_k \hat{\pi}_N(k)$ 估计 $\max_k \pi_{q,k}$,这就是自然的插件。我们将其作为框架中的同一样本成员,并将其校准误差称为 **Sem1-ECE**。

$\hat{c}_1$ 在同一块 $N$ 上耦合了两个操作:它*选择*经验获胜者并*报告*其经验频率。由于 $\max$ 是凸的,且经验 PMF $\hat{\pi}_N$ 对于 $\pi_q$ 是无偏的,Jensen 不等式给出:
$$ \mathbb{E}\! \left[ \hat{c}_1 \,\middle|\, q \right] \;=\; \mathbb{E}\! \left[ \max_k \hat{\pi}_N(k) \right] \;\geq\; \max_k \mathbb{E}\! \left[ \hat{\pi}_N(k) \right] \;=\; c_q^\star, \quad (2) $$
只要 Top-two 差距 $\Delta_q := \pi_{q,z_q^\star} - \max_{k \neq z_q^\star} \pi_{q,k}$ ...

相似文章

重探语义处理的痛点:语言模型的语义推理基准测试

arXiv cs.CL

研究人员推出了 SemanticQA 基准测试,旨在评估语言模型在包含习语、名词复合词及动词结构等语义短语处理任务上的表现。结果显示,不同架构与规模的模型在语义推理任务上的性能存在显著差异。

GSM-SEM:用于生成语义变体增强数据的基准与框架

arXiv cs.CL

本文介绍了 GSM-SEM,这是一个用于生成多样化基准变体的框架,旨在减少数学推理评估中的记忆效应。作者证明,与静态基准相比,这种方法揭示了当前最先进的大语言模型(LLM)存在显著的性能下降。