SAGE:面向口头不确定性对齐的答案条件不确定性目标

arXiv cs.CL 论文

摘要

SAGE 提出了一种群体级别的不确定性目标,该目标在采样响应上构建基于答案条件的不确定性几何结构,以改进大语言模型中的口头不确定性对齐,并引入了 GUPO 进行训练。跨推理任务的实验表明,不确定性排序得到改善,过度自信有所减少。

arXiv:2606.11512v1 公告类型:新 摘要:大语言模型越来越多地通过自然语言语句表达不确定性,但这些表达往往未能反映模型的采样行为。我们将口头不确定性对齐作为一个分布校准问题进行研究:提示的适当不确定性目标应从重复模型输出中估计,而非来自孤立响应。然而,仅靠群体回滚是不够的,因为最终的目标必须提供有用的训练信号。现有目标仅部分满足这一要求。我们提出 SAGE(语义答案引导的熵),这是一种群体级别的不确定性目标,它基于采样响应构建了一个答案条件化的不确定性几何结构。SAGE 保留了分类、数值和符号答案的区别,同时保持平滑且保标的校准信号。我们进一步通过群体不确定性偏好优化(GUPO)应用这一目标,GUPO 是一个不确定性通道训练框架,监督口头不确定性表达式而非整个响应。跨事实、数学和多项选择推理任务的实验表明,不确定性排序得到改善,校准误差降低,过度自信减少。
查看原文
查看缓存全文

缓存时间: 2026/06/11 13:38

# SAGE:基于答案条件的口头不确定性校准目标  
来源:https://arxiv.org/html/2606.11512  
Kaiwen Shi Zheyuan Zhang11footnotemark:1Yanfang Ye  
圣母大学  
\{kshi3,yye7\}@nd\.edu  

###### 摘要  
大型语言模型越来越倾向于通过自然语言语句表达不确定性,但这些表达往往未能反映模型的采样行为。我们将口头不确定性校准研究为一种分布校准问题:给定提示的适当不确定性目标应基于模型重复输出而非孤立响应进行估计。然而,仅靠分组 rollout 是不够的,因为产生的目标必须提供有用的训练信号。现有目标仅部分满足这一要求。因此,我们提出 SAGE(语义-答案引导熵),这是一种分组级不确定性目标,通过在采样响应上构建答案条件化的不确定性几何结构来实现。SAGE 保留了分类、数值和符号答案的区分性,同时保持平滑且尺度保持的校准信号。我们进一步通过 GUPO(组不确定性偏好优化)应用此目标,这是一个不确定性通道训练框架,用于监督口头不确定性表达而非完整响应。在事实性、数学和多项选择推理任务上的实验表明,我们的方法改进了不确定性排名,降低了校准误差,并减少了过度自信。我们的代码可在此处获取(https://anonymous.4open.science/r/SAGE-6017/)。

## 1 引言  
参考图标题  
图 1:我们的动机与核心思想。现有的分组级目标各自缺失了口头不确定性校准的一个关键要求:MAF 虽忠实于答案但粗糙,SE 虽捕捉语义等价性但产生不连续的奖励,KLE 虽平滑但可能在通用嵌入空间中低估任务关键的答案分歧。SAGE 通过将答案感知结构注入响应几何,同时保留基于核的平滑熵,从而解决这些局限性。这能在压缩的语义邻域内扩展任务关键的差异,并产生更平滑、更忠实于答案且尺度保持的不确定性目标,为口头不确定性对齐提供更强的奖励信号。

近年来,大型语言模型(LLMs)的进展Ye 等人(2025 (https://arxiv.org/html/2606.11512#bib.bib25));Chen 等人(2025b (https://arxiv.org/html/2606.11512#bib.bib26),a (https://arxiv.org/html/2606.11512#bib.bib27))取得了显著成功,并扩展了其在开放式生成任务中的应用(Menget al. (2024) (https://arxiv.org/html/2606.11512#bib.bib3); Belkhouribchia and Pen (2025) (https://arxiv.org/html/2606.11512#bib.bib4))。然而,这种成功伴随着严重的可靠性挑战:模型输出可能流畅且看似合理,即使底层答案不确定或缺乏支持(Farquhar 等人 (2024) (https://arxiv.org/html/2606.11512#bib.bib5))。在现实场景中,隐藏的不确定性可能导致严重的幻觉后果。这些失败不仅仅是文本生成不完美的问题;它们可能误导用户,放大不安全的决策,甚至极端情况下造成人身伤害(Savage 等人 (2024) (https://arxiv.org/html/2606.11512#bib.bib1); Omar 等人 (2025) (https://arxiv.org/html/2606.11512#bib.bib2))。为减轻此类风险,研究人员探索了表示模型不确定性的不同方式。内部信号(如 token 概率(Gupta 等人 (2024) (https://arxiv.org/html/2606.11512#bib.bib6))或隐藏状态(Azaria and Mitchell (2023) (https://arxiv.org/html/2606.11512#bib.bib7)))信息丰富,但需要模型访问且难以解释。基于采样的信号揭示了重复生成中的行为不稳定性(Kuhn 等人 (2023) (https://arxiv.org/html/2606.11512#bib.bib8); Nikitin 等人 (2024b) (https://arxiv.org/html/2606.11512#bib.bib9)),但成本高昂。同时,让 LLM 用语言表达自身不确定性提供了一种直接且实用的信号(Xiong 等人 (2023b) (https://arxiv.org/html/2606.11512#bib.bib10); Lin 等人 (2022) (https://arxiv.org/html/2606.11512#bib.bib11))。诸如“我不确定”或“我 80% 确信”的语句在模型输出中直接可见,即使在黑箱设置下也可用,并且易于用户或下游应用理解。然而,这种便利性仅在表达的不确定性与模型实际行为的可靠性匹配时才有用,即口头不确定性需要被校准(Kapoor 等人 (2024) (https://arxiv.org/html/2606.11512#bib.bib12))。没有校准,口头不确定性变得不可靠,并可能将模型错误转化为误信。

构建用于对齐口头不确定性的目标是一个关键挑战。由于不确定性应反映模型的行为不确定性而非单个答案的表面形式,核心问题是模型应该学习什么目标(Geng 等人 (2023) (https://arxiv.org/html/2606.11512#bib.bib13))。现有目标捕捉了不确定性的不同方面,但每者都存在重要缺口。最大答案频率(MAF)与答案相关但忽略了语义距离(Cole 等人 (2023) (https://arxiv.org/html/2606.11512#bib.bib15))。语义熵(SE)通过意义等价聚类处理释义,但硬聚类使信号粗糙且不连续(Kuhn 等人 (2023) (https://arxiv.org/html/2606.11512#bib.bib8))。核语言熵(KLE)更平滑,但通用嵌入几何可能模糊任务关键的答案区分,如选项标签、数值或符号表达式(Nikitin 等人 (2024b) (https://arxiv.org/html/2606.11512#bib.bib9))。因此,目标质量成为优化瓶颈:没有可靠的不确定性目标,奖励信号可能坍缩为噪声或捷径,使优化器无法区分校准的不确定性与表面响应模式。

为解决这一目标缺口,我们提出 SAGE(语义-答案引导熵),一种新的分组级自不确定性目标,通过答案条件化的不确定性几何结构重构口头不确定性对齐。核心思想是,不确定性目标不应仅由通用语义变化决定;它还应该反映在任务特定的答案结构下,采样生成是否保持兼容。这使得 SAGE 能够保持平滑的奖励变化,同时纠正通用语义度量的常见失败模式——即不相容的选项标签、不同的数值或非等价的符号表达式被视为近似等价。通过施加这种答案条件化结构,SAGE 将重复生成转化为结构化的不确定性信号,而非无组织的样本集。

基于此目标,我们进一步引入 GUPO(组不确定性偏好优化),它使用 SAGE 作为监督信号,将口头不确定性与采样模型行为对齐。在事实性问答、数学推理和多项选择理解上的实验表明,我们的框架改进了不确定性排名,降低了校准误差,并减少了不同答案格式下的过度自信。我们的贡献如下:  
- • 我们证明口头不确定性对齐是一个分布校准问题,并识别出限制现有分组级不确定性目标的奖励信号瓶颈。  
- • 我们引入 SAGE,一种语义-答案引导熵目标,以及 GUPO,一种不确定性通道偏好框架,用于优化口头不确定性表达而非完整响应。  
- • 我们在事实性、数学和多项选择推理任务上验证了该方法,我们的框架在不确定性排名、校准误差和减少过度自信方面持续优于现有基线。

## 2 问题建模  

### 2.1 分布盲视  
现有工作试图通过响应级方法解决不确定性校准问题,例如监督微调(Jang 等人 (2025) (https://arxiv.org/html/2606.11512#bib.bib16))和成对偏好优化(Zhang 等人 (2025b) (https://arxiv.org/html/2606.11512#bib.bib17),a (https://arxiv.org/html/2606.11512#bib.bib18))。然而,单个响应能揭示模型采样了什么,但不能揭示底层概率质量是集中在该答案上还是分散在多个合理选项中,从而为自不确定性校准造成结构性不匹配。具体来说,监督微调通过最大化监督输出 token 的似然来教模型复现目标不确定性表达(Lin 等人 (2022) (https://arxiv.org/html/2606.11512#bib.bib11); Chaudhry 等人 (2024) (https://arxiv.org/html/2606.11512#bib.bib23); Jang 等人 (2025) (https://arxiv.org/html/2606.11512#bib.bib16)),而不是直接学习不确定性应如何随模型自身响应分布的分散程度变化。同样,成对偏好优化仅通过更新策略以最大化两个静态响应之间的对数似然差距来建立局部梯度(Li 等人 (2026) (https://arxiv.org/html/2606.11512#bib.bib24); Zhang 等人 (2025b) (https://arxiv.org/html/2606.11512#bib.bib17)),缺乏足够信息来确定策略是从稳定区域还是高度熵区域采样。因此,响应级训练可以调整口头不确定性的形式或尺度,但不能自然地使不确定性与模型的采样响应分布对齐。

参考图标题  
图 2:口头不确定性校准中的分布差距说明。(a) 单个响应无法揭示其来自稳定还是不稳定的响应分布。(b) 分布校准使用重复样本:稳定的分组证明较低的不确定性是合理的,而分散的分组则需要较高的不确定性。

参考图标题  
图 3:在评估集的同一组 20 个采样响应上,不同分组级目标产生的不确定性分布。语义熵(SE)和核语言熵(KLE)都可能低估答案级不确定性:SE 通过硬语义聚类折叠变化,而 KLE 在嵌入空间中对任务关键的答案分歧进行平滑处理。这激发了一个平滑、答案感知且尺度保持的目标。

### 2.2 组不确定性偏好优化  
在构造分组级不确定性目标 \(t(G_x)\) 后,我们将校准信号应用于口头不确定性表达而非完整响应。对于响应 \(y_i = (z_i, v_i)\),包含答案的内容 \(z_i\) 提供上下文,而不确定性表达 \(v_i\) 是校准的对象。令 \(\hat{u}(v_i) \in [0,1]\) 表示 \(v_i\) 表达的不确定性值。我们定义  
\(r_i = -\ell\big(\hat{u}(v_i), t(G_x)\big)\),  
其中较大的值表示表达的不确定性更接近分组级不确定性目标。我们使用这些分数形成关于不确定性表达的组相对偏好分布:  
\(p_i^{\mathrm{cal}} = \frac{\exp(r_i/T)}{\sum_{j=1}^K \exp(r_j/T)}\),  
其中 \(T\) 控制偏好锐度。GUPO 将此偏好应用于不确定性通道 \(v_i \mid (x, z_i)\),而非将整个响应作为优化目标。概念上,这对应于  
\(\mathcal{L}_{\mathrm{GUPO}} = -\mathbb{E}_{x, G_x}\Bigg[\sum_{i=1}^K \operatorname{stopgrad}(p_i^{\mathrm{cal}}) \cdot \log \pi_\theta(v_i \mid x, z_i)\Bigg]\)。  
在实践中,这可以通过仅对不确定性表达跨度应用校准损失来实现。本工作的主要焦点是构造 \(t(G_x)\),接下来我们将研究此问题。

## 3 方法论  

### 3.1 为什么现有分组目标产生弱奖励  
分组 rollout 暴露了响应分布,但并不会自动产生有用的不确定性目标。在基于分组的优化中,模型仅在分组级目标以反映有意义的不确定性差异的方式变化时才能收到有用信号,而糟糕的目标可能使重复采样无效。如果目标过于粗糙、过于不连续或与答案级分歧不一致,那么优化器在关于口头不确定性应如何变化方面几乎得不到指导。

#### 弱分组奖励。  
图 1 (https://arxiv.org/html/2606.11512#S1.F1) 说明了为什么现有分组级目标为口头不确定性校准提供的奖励信号较弱。给定一个响应组 \(G_x = \{y_i\}_{i=1}^K\) 和提取的答案 \(\{a_i\}_{i=1}^K\),最简单的稳定性目标是最大答案频率:  
\(s_{\mathrm{MAF}}(G_x) = \max_a \frac{1}{K} \sum_{i=1}^K \mathbb{I}[a_i = a]\)。  
由于最大答案频率 (Cole 等人 (2023) (https://arxiv.org/html/2606.11512#bib.bib15)) 衡量答案稳定性,其对应的不确定性目标可以写成  
\(t_{\mathrm{MAF}}(G_x) = 1 - s_{\mathrm{MAF}}(G_x)\)。  
MAF 是答案忠实的:如果大多数样本产生相同的最终答案,模型通常应表达较低的不确定性。然而,如图 1 (https://arxiv.org/html/2606.11512#S1.F1)(1) 所示,MAF 仅计算精确答案匹配。当不同响应组的多数计数相同时,它将语义上不同的响应组映射到相同的分数:  
\(G_x \neq G_x',\quad s_{\mathrm{MAF}}(G_x) = s_{\mathrm{MAF}}(G_x')\)。  
因此,MAF 保留了最终答案的一致性,但丢弃了语义距离、推理变化和次要答案选项。

语义熵 (SE) (Kuhn 等人 (2023) (https://arxiv.org/html/2606.11512#bib.bib8)) 通过将响应聚类为意义等价类来改进精确计数。令 \(c_i\) 表示响应 \(y_i\) 的语义聚类,\(p(c)\) 为经验聚类频率:  
\(t_{\mathrm{SE}}(G_x) = -\sum_c p(c) \log p(c)\)。  
这比原始答案频率更好地处理了释义和别名。然而,如图 1 (https://arxiv.org/html/2606.11512#S1.F1)(2) 所示,SE 依赖于硬聚类成员关系。同一聚类内的微小移动不会导致奖励变化:  
\(c_i = c_i' \Rightarrow \Delta t_{\mathrm{SE}} = 0\),  
而跨越聚类边界则可能导致离散跳跃。因此,SE 产生粗糙且不连续的奖励:许多在相似性或推理变化上的有意义的变化除非改变聚类分配,否则是不可见的。

核语言熵 (KLE) (Nikitin 等人 (2024b) (https://arxiv.org/html/2606.11512#bib.bib9)) 用连续相似度替换硬聚类:  
\(t_{\mathrm{KLE}}(G_x) = H_{\mathrm{vN}}(K), \quad K_{ij} = k(y_i, y_j)\),  
其中 \(K\) 是在生成响应上的语义相似性核。这提供了更平滑的

相似文章

教导模型用语言表达其不确定性

OpenAI Blog

OpenAI研究人员展示了GPT-3可以学会用自然语言表达关于其答案的标定不确定性,而无需使用模型logits。他们引入了CalibratedMath基准套件来评估这种能力。这种方法在分布漂移下表现出强劲的泛化能力,代表了模型首次表达关于其自身预测的良好标定口头不确定性的证据。

置信度感知对齐让推理型大语言模型更加可靠

arXiv cs.AI

本文介绍了CASPO框架,该框架通过迭代直接偏好优化(DPO),将token级别的置信度与大型推理模型中的逐步逻辑正确性进行对齐。文章还提出了置信度感知思考(CaT),用于在推理过程中动态剪枝不确定的推理分支,以提高可靠性和效率。

基于信息增益的LLM代理中的不确定性感知澄清

arXiv cs.AI

提出了一种目标导向的澄清框架,利用信息增益奖励训练LLM代理,在用户指令不明确的情况下提出有效的澄清问题,在仅增加少量交互开销的情况下,将任务成功率提升了3.7%。