超越表面统计:通过内部表示实现LLM鲁棒共形预测
摘要
本论文提出了一个利用内部表示而非输出层统计的LLM共形预测框架,引入层级信息(LI)评分作为非一致性度量,在分布偏移下改进有效性-效率权衡。该方法在QA基准上相比文本级基线展现出更强的对校准-部署不匹配的鲁棒性。
arXiv:2604.16217v1 公告类型:新提交
摘要:大语言模型越来越多地被部署在可靠性至关重要的场景中,然而输出层不确定性信号(如token概率、熵和自洽性)在校准-部署不匹配下会变得脆弱。共形预测在可交换性假设下提供有限样本有效性,但其实际效用取决于非一致性评分的质量。我们为LLM问答任务提出了一个共形框架,该框架利用内部表示而非输出面向的统计量:具体来说,我们引入层级信息(LI)评分,用来衡量输入条件如何在模型深度方向上重塑预测熵,并将其用作标准分割共形管道中的非一致性评分。在闭端和开域QA基准上,特别是在跨域偏移下效果最明显,我们的方法相比强文本级基线实现了更好的有效性-效率权衡,同时在相同标称风险水平下保持竞争性的域内可靠性。这些结果表明,当表面层不确定性在分布偏移下不稳定时,内部表示可以提供更具信息量的共形评分。
查看缓存全文
缓存时间: 2026/04/20 08:30
# 超越表面统计:通过内部表示的大语言模型稳健共形预测 来源:https://arxiv.org/html/2604.16217 Peng Kuang 浙江大学 [email protected] Xiaoyu Han 伊利诺伊大学厄巴纳-香槟分校 [email protected] Kaidi Xu 香港城市大学 [email protected] Haohan Wang 伊利诺伊大学厄巴纳-香槟分校 [email protected] ###### 摘要 大语言模型在可靠性至关重要的场景中日益广泛应用,然而基于输出层的不确定性信号(如token概率、熵和自一致性)在校准-部署失配时会变得脆弱。共形预测在可交换性下提供有限样本有效性保证,但其实际效用取决于非一致性评分的质量。我们提出了一个针对LLM问答的共形框架,使用内部表示而非输出层统计:具体地,我们引入了逐层信息(LI)评分,用于衡量给定输入如何在模型深度范围内重塑预测熵,并在标准的分割共形管道中使用它们作为非一致性评分。在闭卷和开放域问答基准测试中,特别是在跨域shift时表现最佳,与基于文本层的强基线相比,我们的方法在保持相同标称风险水平下的竞争性域内可靠性的同时,实现了更好的有效性-效率权衡。这些结果表明,当表面级不确定性在分布shift下不稳定时,内部表示可以为共形评分提供更具信息性的得分。 ## 1 引言 大语言模型(LLMs)在可靠性至关重要的场景中应用日益增加,从通用问答和决策支持到法律、金融和医学等高风险领域,用户不仅关心平均准确率,也关心模型输出是否可信(Huang等人,2024;Maccha等人,2026)。然而,LLM生成的不确定性量化仍然困难。基于token概率、熵或自一致性等常见置信代理在分布shift下变得脆弱,恰好是部署风险最高的时候(Kuhn等人,2023)。此外,由于许多表面形式可以表达相同的含义,输出层级的不确定性不必与基础语义决策的不确定性相一致。 共形预测(CP)很有吸引力,因为它在可交换性假设下为任意预测器提供有限样本有效性保证(Angelopoulos和Bates,2022)。然而,在LLM部署中,校准和测试数据往往在域、主题和提示风格上存在差异,因此该保证可能急剧恶化(Gibbs和Candes,2021)。感知shift的共形方法可以提供帮助,但通常需要能够划分输入空间的信息协变量或表征校准-测试shift的准确重要性权重(Tibshirani等人,2020;Barber等人,2023)。对于LLMs,从文本中推导这样的结构是困难的:提示相似性和词汇重叠往往只是控制可靠性潜在因素的浅层代理。 这表明瓶颈不仅在于如何将CP适应shift,还在于哪个不确定性信号被共形化。最近LLMs的共形方法特别清楚地说明了这一局限。仅限API的方法在没有logit访问权限的情况下共形化黑盒不确定性信号(Su等人,2024);基于采样的方法从多个生成中构建面向正确性的不确定性集合(Wang等人,2024b);选择性回答方法校准阈值以控制单个返回答案的下游风险(Wang等人,2025a)。即使是LLMs的域shift感知方法仍然主要依赖表面表示来评估相似性或重加权校准数据(Lin等人,2025)。在这些设置中,占主导地位的信号仍然是输出面向的(Quach等人,2024),因此当可靠性相关的shift不被可观察的表面特征捕获时,这些方法可能继承文本层级统计的脆弱性。 一条互补的研究线表明可靠性信号可能存在于模型内部而非仅在最终输出中。先前的研究表明LLM内部表示保留了语义和可靠性相关的结构,这些结构仅部分可见于解码文本或最终层统计(Azaria和Mitchell,2023;Chen等人,2024)。进一步的逐层分析表明幻觉和无法回答的情况表现为跨深度的信息缺陷或不稳定性,聚合跨层的证据比仅探测最终层更具信息性(Kim等人,2025b)。这些观察激发了直接基于内部表示的共形视角。 在这项工作中,我们在LLM问答的标准共形管道中操作该观点。我们引入*逐层信息*(LI)评分,从输入上下文如何在模型深度范围内重塑预测熵来计算,并在分割共形预测中将其用作非一致性度量。共形包装器本身保持不变:我们的贡献是用从采样候选答案的隐藏状态轨迹跨层聚合的内部答案级可靠性评分替换输出层不确定性评分。相应地,我们不声称内部表示消除了共形假设的必要性或在域shift下恢复形式有效性。我们的声明更为狭隘和经验性:如果逐层信息比输出层得分更忠实地排序可接受答案,那么相同的共形包装器可以产生更好的有效性-效率权衡,特别是当校准和部署域不同时。 我们的贡献有三个方面:(1)我们提出基于LI的非一致性评分,将共形不确定性估计从输出层统计转向内部逐层信号;(2)在闭卷、开放域和跨域问答基准测试中,我们证明了基于内部评分的共形化相比基于仅API、基于采样和选择性回答不确定性度量的基线实现了更强的经验有效性-效率权衡,在跨域shift下获得最明显的收益;(3)我们将内部表示定位为LLMs中的机制可靠性信号与共形不确定性量化之间的实用接口,突出了超越校准分布更稳健共形评分的路径。 ## 2 相关工作 #### LLMs的共形不确定性量化 共形预测(CP)在可交换性下提供有限样本保证,现在是不确定性量化的标准工具(Angelopoulos和Bates,2022;Angelopoulos等人,2026)。广泛的文献研究了CP在经典可交换性设置之外的行为,包括分布shift下的自适应共形推断、协变量shift感知重加权和超越可交换性的更一般分析(Gibbs和Candes,2021;Tibshirani等人,2020;Barber等人,2023)。相关工作还开发了条件或近似条件保证和超越标准边际覆盖的风险控制公式(Gibbs等人,2025;Plassiier等人,2024)。 这些思想最近被适应于LLMs和语言生成,从早期的闭卷和多选问答工作(Kumar等人,2023)到开放式生成、仅限API的设置和自由形式问答的面向正确性的不确定性集合(Quach等人,2024;Su等人,2024;Wang等人,2024b)。其他研究线学习真实性、长篇生成和选择性或弃权部署,包括COIN和SConU,它们校准阈值或检测不确定性异常值以改进问答设置中的稳健性(Mohri和Hashimoto,2024;Cherian等人,2024;Wang等人,2025a;b)。尽管界面和目标各不相同,大多数现有方法仍然是输出面向的,从最终输出统计推导非一致性或置信度。我们的工作目标相似但机制不同:与其提出另一个输出层代理,我们研究内部逐层评分是否可以更好地支持LLMs的共形预测。 #### 内部表示作为可靠性信号 互补研究线表明最具信息性的可靠性信号可能存在于模型的内部表示中,而非仅在解码输出中。早期证据表明隐藏激活可以揭示只在表面概率或生成文本中弱反映的潜在知识和真实性信号(Azaria和Mitchell,2023;Burns等人,2024)。这种观点在幻觉检测中得到强化:Chen等人(2024)展示内部状态即使在输出层统计较弱时也保留可观的检测能力,相关的基于激活的方法类似地探测内部计算而非仅最终响应。 一条信息论研究线为我们的方法提供了概念基础。预测V-可用信息形式化了在计算约束下模型族可以利用多少标签相关信息,其逐点扩展表征实例级难度(Xu等人,2020;Ethayarajh等人,2022)。基于这种观点,Kim等人(2025a)辩称幻觉从根本上是一种逐层信息缺陷现象:可用信息跨深度非单调演化,所以最终层分析可能遗漏在中间计算期间出现的可靠性相关的增益和损失。这条工作线为我们的方法提供了最接近的概念基础。我们的贡献是从诊断转向共形化,直接使用逐层内部信息作为驱动预测集构造的答案级非一致性评分。 ## 3 方法 ### 3.1 预备知识 我们在问答的标准分割共形预测(SCP)设置中工作。令$\mathcal{D}_{\mathrm{cal}}=\{(x_i,y_i^*)\}_{i=1}^N$为一个留出的校准集,其中$x_i\in\mathcal{X}$是第$i$个问题,$y_i^*\in\mathcal{Y}$是其真实答案。对于每个校准问题$x_i$,我们从部署的语言模型$\mathcal{M}:\mathcal{X}\to\mathcal{Y}$采样$M$个响应,产生候选池$\{y_j^{(i)}\}_{j=1}^M$。对于多选问答,每个采样响应被解析为一个答案选项;对于开放域问答,采样响应按照先前共形问答协议分组为语义答案单位(Quach等人,2024;Su等人,2024)。 令$\mathcal{A}(x_i)$表示$x_i$的采样响应诱导的不同候选答案单位的集合,定义$\mathcal{A}^*(x_i,y_i^*):=\{a\in\mathcal{A}(x_i):a\text{对}y_i^*\text{可接受}\}$,即采样池中可接受答案单位的子集。这里可接受性由多选问答中的精确匹配和开放域问答中的语义可接受性定义。 令$F(a;x_i)$为任何固定的答案级可靠性评分,更大的值表示更可信的答案。相应的校准非一致性评分为 $$s_i(F)=\begin{cases}1-\max\limits_{a\in\mathcal{A}^*(x_i,y_i^*)}F(a;x_i),&\text{如果}\mathcal{A}^*(x_i,y_i^*)\neq\emptyset,\\[4.0pt]\infty,&\text{如果}\mathcal{A}^*(x_i,y_i^*)=\emptyset.\end{cases} \quad(1)$$ 给定目标风险水平$\alpha\in(0,1)$,定义共形阈值 $$\widehat{q}_\alpha(F):=\operatorname{Quantile}\!\left(1-\alpha;\,\{s_i(F)\}_{i=1}^N\cup\{\infty\}\right), \quad(2)$$ 及由此产生的新问题$x$的预测集 $$\widehat{C}_\alpha(x;F)=\left\{a\in\mathcal{A}(x):1-F(a;x)\leq\widehat{q}_\alpha(F)\right\}. \quad(3)$$ 在校准和测试示例可交换性下,所得的集合预测器满足标准边际覆盖保证 $$\mathbb{P}\!\left(\widehat{C}_\alpha(X;F)\cap\mathcal{A}^*(X,Y^*)\neq\emptyset\right)\geq 1-\alpha, \quad(4)$$ 其中$(X,Y^*)$表示一个新的测试问题-答案对。等价地,以至少$1-\alpha$的概率,共形预测集包含至少一个对真实答案可接受的答案单位(Angelopoulos和Bates,2022)。 因此,我们的贡献是一个原理性的内部可靠性评分$F$,在其他方面标准的共形构造中进行实例化。共形问答中的一个实际复杂之处是候选集由有限数量$M$的采样响应形成。因此,某些校准问题可能在采样池中不包含可接受的答案单位。我们保留这样的示例而不过滤它们,因为过滤会改变校准分布,在跨域问答中特别有害。这导致最小可管理风险水平 $$\alpha_l=\frac{N}{N+1}\cdot\frac{1}{N}\sum_{i=1}^N\mathbf{1}\!\left\{\mathcal{A}^*(x_i,y_i^*)=\emptyset\right\}, \quad(5)$$ 因此基于采样候选池的实际保证仅在$\alpha\geq\alpha_l$时有意义。附录A(https://arxiv.org/html/2604.16217#A1)给出了该有限采样风险下限的简短推导和解释。 ### 3.2 逐层可用信息 我们现在定义用于共形问答的内部可靠性信号。该信号基于逐层可用信息(LI)概念,衡量输入上下文如何在模型计算的各个深度重塑预测熵。
相似文章
面向视觉与语言模型的经验贝叶斯共形预测
本文介绍了一种经验贝叶斯共形预测框架,该框架使用 r 值将评分变异性纳入非一致性得分中,从而提升排序稳定性并缩减集合大小,同时保持对视觉与语言模型的覆盖。
面向可靠LLM判断的边际自适应置信度排序
本文提出了一种针对LLM作为评判系统的基于边际的置信度排序方法,通过学习专用估计器来确保置信度与人类分歧风险之间的单调性,具有泛化保证,并在多个数据集上提高了排序准确性。
超越静态排行榜:LLM智能体评估的预测有效性
本文认为,针对LLM智能体基准测试的聚合得分排行榜未能捕捉到与部署相关的维度,并且表现出排名不稳定性。文章提出根据预测有效性(即样本内排名与样本外排名之间的相关性)来对配置进行排序,并引入了一个十二层级的测量体系以及可证伪的分布外准则。
在线局部化共形预测
本文提出了在线局部化共形预测(OLCP),旨在解决在线学习和时间序列设置中的协变量异质性问题。文章引入了用于带宽选择的 OLCP-Hedge 算法,并证明与现有基线相比,该方法在获得更窄预测集的同时,仍能保持有效的长期覆盖率。
论大语言模型适应性的局限:模型内化先验对标注任务性能的影响
本文研究了LLM的内化先验如何影响零样本标注性能,发现近三分之二的错误抵抗基于提示的修正,并引入了定义特定熟悉度(DSF)作为比记忆化指标更好的预测因子。