检索增强的语言校准
摘要
本文提出检索增强的语言校准(RALC),一种事后流水线方法,通过将语言置信度建模为分布并使用检索增强重写来校准大语言模型中的置信度信号。它引入了忠实度散度指标,并在多个基准测试中展示了显著改进。
arXiv:2605.19344v1 公告类型:新
摘要:诸如“我相信”和“可能”之类的语言线索为传达置信度提供了一种直观的接口,然而,一个可泛化、有原则的语言置信度表达校准框架仍未得到充分探索。特别是,共现的语言线索、语境变化以及主观的受众解读带来了独特的挑战。因此,我们将语言置信度建模为关于陈述正确的合理感知概率值的分布,以捕捉标量表示所丢弃的解释变异性。在此分布框架内,我们引入忠实度作为补充评估维度,并提出忠实度散度(FD),这是一种信息论度量,用于量化真相揭露时对受众信念所产生的惊奇感。基于这些基础,我们提出了检索增强的语言校准(RALC),这是一种轻量级事后流水线,通过检索增强重写将校准后的置信度信号传播回自然语言。在三个问答基准测试和五个LLM系列上,RALC 在领域内忠实度和校准上分别提升了多达 66% 和 58%,优于黑盒和灰盒校准基线。
查看缓存全文
缓存时间: 2026/05/20 08:25
# 检索增强语言校准 来源:https://arxiv.org/html/2605.19344 易凡·叶 悉尼大学计算机科学学院 悉尼,澳大利亚 [email protected] 林伟·涛 悉尼大学计算机科学学院 悉尼,澳大利亚 [email protected] 董敏静 香港城市大学 香港 [email protected] 黄涛 上海交通大学 上海,中国 [email protected] 余嘉林 牛津大学工程科学系 牛津,英国 [email protected] 菲利普·托尔 牛津大学工程科学系 牛津,英国 [email protected] 徐畅 悉尼大学计算机科学学院 悉尼,澳大利亚 [email protected] ###### 摘要 语言线索(如“我认为”和“可能”)提供了一个直观的沟通置信度的接口,然而,一个通用的、有原则的语言置信度表达校准框架仍未得到充分探索。特别是,共现的语言线索、语境变化和主观的受众解读带来了独特的挑战。因此,我们将语言置信度建模为关于一个陈述正确的合理感知概率值的分布,从而捕捉标量表示所丢弃的解读变异性。在这个分布框架内,我们引入忠实度作为互补的评估维度,并提出忠实度散度(Faithfulness Divergence, FD),一种信息论度量,量化在真相揭示时对受众信念产生的惊奇程度。基于这些基础,我们提出检索增强语言校准(Retrieval-Augmented Linguistic Calibration, RALC),一种轻量级的事后流水线,通过检索增强重写将校准后的置信度信号传播回自然语言。在三个问答基准和五个LLM系列上,RALC在领域内忠实度和校准方面分别提升了高达66%和58%,优于黑盒和灰盒校准基线。 ## 1 引言 可靠的置信度估计对于大型语言模型(LLMs)在人类决策流程中的可信部署至关重要[29 (https://arxiv.org/html/2605.19344#bib.bib20)]。如果没有良好校准的置信度信号,用户可能过度依赖那些产生幻觉或悄然失败的模型输出[13 (https://arxiv.org/html/2605.19344#bib.bib21)],这凸显了对既科学严谨又对人类用户可解释的置信度框架的需求。现有的置信度估计方法将置信度表示为标量概率值,包括词级概率[16 (https://arxiv.org/html/2605.19344#bib.bib4)]、语义不确定性[5 (https://arxiv.org/html/2605.19344#bib.bib7)]和口头化分数[18 (https://arxiv.org/html/2605.19344#bib.bib27),34 (https://arxiv.org/html/2605.19344#bib.bib28)]。然而,人类难以准确推理数值概率[41 (https://arxiv.org/html/2605.19344#bib.bib24)],这促使使用诸如“可能”或“也许”等语言标记作为更自然的置信度接口。先前的工作表明,这些标记保留了评估信号[38 (https://arxiv.org/html/2605.19344#bib.bib9),31 (https://arxiv.org/html/2605.19344#bib.bib26)];然而,将它们视为标量丢弃了语言解读固有的主观性:不同的读者将相同的表达式映射到不同的感知概率值[32 (https://arxiv.org/html/2605.19344#bib.bib8)]。我们通过将语言置信度建模为一个陈述正确的合理感知概率值的分布来解决这一差距,其中感知源于读者对陈述完整语言内容的解读,而非对单个词汇项的离散映射。将语言置信度视为陈述正确性的代理会产生一个二元分类视图,其中置信度对应于真实类别的预测概率。与对类别概率使用狄利克雷分布以捕捉二阶预测不确定性的证据深度学习[27 (https://arxiv.org/html/2605.19344#bib.bib23)]相类比,我们将其二元特例——贝塔分布形式化,用于二元正确性的语言置信度:该分布描述了关于一个陈述正确的感知置信度分数,其均值捕捉了读者间感知置信度的中心趋势,而集中度编码了共识的强度。置信度质量的衡量标准是校准,通过总体层面的期望校准误差(ECE)[8 (https://arxiv.org/html/2605.19344#bib.bib11),35 (https://arxiv.org/html/2605.19344#bib.bib1)]来评估,量化置信度与准确性在期望上的对齐程度。实例级指标如Brier分数[3 (https://arxiv.org/html/2605.19344#bib.bib40)]和负对数似然在经典标量设置中提供逐点评估,但它们的分布泛化仍然无法将方差编码为读者间共识的强度。因此,我们引入**忠实度**作为置信度评估的互补维度,并提出忠实度散度(FD),一种基于集中度加权的贝叶斯更新成本,量化在真相揭示时对置信度信念产生的信息论惊奇程度。语言空间中的校准仍然至关重要但尚未解决。经典的事后校准方法,包括温度缩放[8 (https://arxiv.org/html/2605.19344#bib.bib11)]、Platt缩放[25 (https://arxiv.org/html/2605.19344#bib.bib14)]、直方图分箱[39 (https://arxiv.org/html/2605.19344#bib.bib13)]、保序回归[40 (https://arxiv.org/html/2605.19344#bib.bib12)]、Beta校准[14 (https://arxiv.org/html/2605.19344#bib.bib29)]和分布匹配方法[28 (https://arxiv.org/html/2605.19344#bib.bib3),20 (https://arxiv.org/html/2605.19344#bib.bib33)],完全在数值空间中操作,没有提供将校准信号传播回语言的机制。基于提示的规避策略提供了一种语言替代方案,但作为黑盒过程,对输出缺乏原则性控制[38 (https://arxiv.org/html/2605.19344#bib.bib9)]。最相关的工作在特定领域进行离散规避词置信度分析和词级重映射[35 (https://arxiv.org/html/2605.19344#bib.bib1)],忽略了陈述中多个语言线索的共现及其上下文交互。因此,一个通用的、连续的、轻量级的事后框架,为规避表达提供原则性指导,仍未得到充分探索。为了解决这一差距,我们提出检索增强语言校准(RALC),一种直接在语言空间中运行的事后流水线,将原始LLM响应转换为校准且忠实输出。该流水线在置信度分布均值上应用Platt缩放[25 (https://arxiv.org/html/2605.19344#bib.bib14)],同时保留分布集中度,并通过检索增强LLM重写将校准后的分布传播到语言中,采用检索增强生成范式[17 (https://arxiv.org/html/2605.19344#bib.bib44)]。此外,RALC兼容除语言置信度之外的各种上游置信度信号,包括词级概率和语义不确定性。我们的贡献如下: 1. 我们将语言置信度形式化为一个陈述正确的合理感知概率值的分布,捕捉语言线索和上下文的相互作用,超越了离散表达映射和标量量化。 2. 我们引入**忠实度**作为置信度评估的新维度,并提出忠实度散度(FD),一种实例级度量,以信息论惊奇量化一个置信度分布对真实正确性结果有多么忠实。 3. 我们引入一种通用的检索增强语言置信度校准流水线,有效改进语言空间中的忠实度和校准,并兼容多种置信度估计信号。 我们在多个LLM系列和问答基准上评估该框架,包括MMLU[9 (https://arxiv.org/html/2605.19344#bib.bib16)]、SQuAD 2.0[26 (https://arxiv.org/html/2605.19344#bib.bib17)]和TruthfulQA[19 (https://arxiv.org/html/2605.19344#bib.bib36)]。结果表明,通过校准流水线的信息传输几乎无损,并且在所有模型和基准上,校准和忠实度均有显著提升,优于基于提示的校准基线。 ## 2 相关工作 ##### LLM置信度估计 现有的置信度估计方法主要将置信度表示为标量概率值,包括词级概率聚合[16 (https://arxiv.org/html/2605.19344#bib.bib4),4 (https://arxiv.org/html/2605.19344#bib.bib5)]和基于一致性的方法,通过重复样本中的语义支持景观推断置信度[36 (https://arxiv.org/html/2605.19344#bib.bib25),5 (https://arxiv.org/html/2605.19344#bib.bib7)]。虽然最近的工作表明,模型响应中的语言线索作为置信度代理保留了评估信号[38 (https://arxiv.org/html/2605.19344#bib.bib9),32 (https://arxiv.org/html/2605.19344#bib.bib8)],但它们的标量量化忽略了语言解读固有的主观性。Wang等人[35 (https://arxiv.org/html/2605.19344#bib.bib1)]通过将单个离散规避词映射到置信度分布,向分布表示迈出了一步;然而,他们的方法针对词级重映射而非语句级置信度,其中多个语言线索共现并与上下文交互。Huang等人[10 (https://arxiv.org/html/2605.19344#bib.bib2)]联合建模置信度和正确性作为模糊长形式生成上下文中的分布,这与我们以预测概率分布进行二元分类的目标正交。 ##### 置信度评估 期望校准误差(ECE)是评估置信度的主导指标,衡量标量置信度分数与准确性之间的对齐,在经典设置[8 (https://arxiv.org/html/2605.19344#bib.bib11)]和语言模型设置[42 (https://arxiv.org/html/2605.19344#bib.bib30)]中均有应用。基于熵[30 (https://arxiv.org/html/2605.19344#bib.bib31)]、方差[33 (https://arxiv.org/html/2605.19344#bib.bib32)]和分布泛化[35 (https://arxiv.org/html/2605.19344#bib.bib1)]的扩展仍然基于ECE并依赖局部聚合,在实例级丢弃了完整的分布信息。实例级评分如Brier分数[3 (https://arxiv.org/html/2605.19344#bib.bib40)]和负对数似然同样无法捕捉按方差缩放的未对齐。 ##### 置信度校准 经典的事后校准方法,包括Platt缩放[25 (https://arxiv.org/html/2605.19344#bib.bib14)]、直方图分箱[39 (https://arxiv.org/html/2605.19344#bib.bib13)]、保序回归[40 (https://arxiv.org/html/2605.19344#bib.bib12)]和Beta校准[14 (https://arxiv.org/html/2605.19344#bib.bib29)],将标量输出调整向经验准确性,但局限于数值空间。分布校准方法将问题框架化为分布匹配,通过各种映射策略将预测的置信度分布与经验标签分布对齐[28 (https://arxiv.org/html/2605.19344#bib.bib3),20 (https://arxiv.org/html/2605.19344#bib.bib33)],尽管它们针对的是全局而非实例级校准。在语言空间中,已经探索了基于提示的策略来引导LLM规避[38 (https://arxiv.org/html/2605.19344#bib.bib9)],但这些缺乏原则性控制。内部模型引导提供了语言不确定性的更细粒度校准[12 (https://arxiv.org/html/2605.19344#bib.bib34)],但需要访问模型内部,限制了在开源设置中的适用性。最相关的方法在词汇级重映射离散规避词,没有考虑上下文交互或产生校准的完整响应[35 (https://arxiv.org/html/2605.19344#bib.bib1)]。 ## 3 置信度估计与评估 ### 3.1 语言置信度估计 对于每个输入-响应对\((X,R)\),令\(y \in \{0,1\}\)表示\(R\)的正确性标签。我们定义一个分布置信度估计器\(g: \mathcal{R} \rightarrow \mathcal{P}([0,1])\),其中\(\mathcal{R}\)表示模型响应空间,\(\mathcal{P}([0,1])\)表示\([0,1]\)上的概率分布空间。估计器\(g\)将\(R\)正确的合理概率值建模为读者(人类或基于模型的评估者)感知到的\([0,1]\)置信度分数上的分布。我们将\(g\)抽象为基于模型或基于人类的评估者,并将估计的分布\(S\)参数化为贝塔分布\(S = \mathrm{Beta}(\alpha, \beta)\)。这一选择与证据深度学习[27 (https://arxiv.org/html/2605.19344#bib.bib23)]相类似,后者在类别概率上放置狄利克雷先验以表示二阶不确定性。我们的设置类似于二元分类:每个读者产生一个可视为真实类别概率抽取的解读置信度分数;因此贝塔分布是原则性的选择,作为狄利克雷的二元特例和伯努利似然的自然共轭先验。均值\(\alpha/(\alpha+\beta)\)捕捉了读者间感知置信度的中心趋势,而集中度\((\alpha+\beta)\)编码了共识的强度:高均值伴随低集中度表示不一致的读者解读,而相同均值伴随更高集中度表示一致的共识。 ### 3.2 置信度评估 ##### 校准作为置信度评估的一个维度 在总体层面,校准要求置信度在期望上与经验准确性匹配。令\(p \sim S\)表示从估计分布中抽取的标量置信度值,经典度量是期望校准误差:\(\text{ECE} = \mathbb{E}\!\left[\left\| \mathbb{E}[Y \mid p] - p \right\|\right]\),其实现包括标量分箱[8 (https://arxiv.org/html/2605.19344#bib.bib11)]和分布泛化[35 (https://arxiv.org/html/2605.19344#bib.bib1)]的变体。 ##### 忠实度作为置信度评估的一个维度 在分布设置中,校准是必要但不充分的:两个预测器可能实现相似的平均校准,但传达截然不同的实例级置信度概况。因此,我们引入**忠实度**,一个符合人类对齐的、实例级的置信度评估维度。当观察真实情况相对于先验信念引起的惊奇较小时,该置信度分布是忠实的。这种惊奇由中心趋势的未对齐以及持有该未对齐的共识强度共同驱动。基于这一直觉并扎根于信息论,我们借鉴贝叶斯惊奇[11 (https://arxiv.org/html/2605.19344#bib.bib43)],通过后验与先验分布之间的KL散度来衡量,并用集中度\((\alpha_i + \beta_i)\)进行加权,作为
相似文章
基于语义级奖励的LLM校准
提出了CSR,一种直接在语义空间中使用新颖的语义校准奖励来校准LLM的框架,在多个数据集上将ECE降低了高达40%,并将AUROC相较于口头化置信度基线提升了高达31%。
大型语言模型中的置信度校准
本文分析了11个主流大型语言模型的置信度校准情况,发现它们普遍过于自信,尤其在困难任务上,而在简单任务上则信心不足。文章引入了LifeEval,这是一个用于评估不同难度级别下校准效果的测试。
通过探针目标微调,让LLM真正表达其自信程度。[研究]
这项研究提出了探针目标微调(LoRA)方法,使LLM能够口头表达其内部置信度,实现了对置信度输出的因果控制,并证明模型通常知道自己是正确还是错误,但未能表达出来。
概率校准是大语言模型中的一项可训练能力
本文研究了语言模型的概率校准能力是否可以通过微调得到提升,并在12种模型上比较了软目标和硬目标两种方法。结果表明,校准能力是可以训练的,但有时会导致下游算术推理能力的下降。
采样更多,获得更少:校准是大语言模型多样性的瓶颈
本文引入了一种有效性-多样性框架,将大语言模型中的多样性崩溃归因于解码过程中的排序和形状校准偏差,并在 14 种语言模型上进行了验证。