关注未见质量:通过软混合字母估计揭示 LLM 幻觉
摘要
研究者提出 SHADE,一种混合估计器,在仅能获取少量黑盒样本时,融合 Good-Turing 覆盖率与图谱线索,量化语义不确定性并检测大模型幻觉。
arXiv:2604.19162v1 公告类型: new
摘要:本文研究在仅能对每个查询采样少量响应的黑盒场景下,如何为大语言模型(LLM)量化不确定性。此时,估计“有效语义字母表大小”——即样本响应中表达的不同含义数量——可作为下游风险的有用代理。然而,当样本量较小时,基于频率的估计器容易低估罕见语义模式,而仅依赖图谱谱量也无法准确估计语义占用。为此,我们提出 SHADE(Soft-Hybrid Alphabet Dynamic Estimator),一种简单且可解释的估计器,将广义 Good-Turing 覆盖率与基于蕴含权重图的热核迹(归一化拉普拉斯矩阵)相结合。估计覆盖率自适应决定融合规则:高覆盖率时,SHADE 采用两种信号的凸组合;低覆盖率时,使用 LogSumExp 融合以突出缺失或弱观测的语义模式。随后引入有限样本修正,稳定所得基数估计,并将其转换为经覆盖率调整的语义熵分数。在池化语义字母表大小估计任务(对比大样本参考)以及 QA 错误检测实验中,SHADE 在样本最受限的场景下取得最大提升,随着样本量增加,性能差距逐渐缩小。结果表明,当黑盒不确定性量化必须在严格采样预算下运行时,混合语义占用估计尤为有益。
查看缓存全文
缓存时间: 2026/04/22 08:30
# 留意隐形质量:用软混合字母表估计揭穿 LLM 幻觉
来源:https://arxiv.org/html/2604.19162
潘红星、郭盈盈、况文清、陆嘉实
香港中文大学(深圳)数据科学学院
{124090486, 123090142, 123090247, 123090386}@link.cuhk.edu.cn
###### 摘要
本文研究黑盒访问下大语言模型(LLM)的不确定性量化,每查询只能采样少量回复。在此设定中,估计“有效语义字母表大小”——即采样回复所表达的不同含义数量——可作为下游风险的有效代理。然而,基于频率的估计器在样本量小时会低估罕见语义模式,而单纯的图谱量又并非为准确估计语义占用而设计。为此,我们提出 SHADE(Soft-Hybrid Alphabet Dynamic Estimator),一个简洁可解释的估计器:它将广义 Good–Turing 覆盖度与基于蕴含权重图的归一化拉普拉斯热核迹相结合。估计出的覆盖度自适应决定融合规则:高覆盖时用两信号的凸组合;低覆盖时用 LogSumExp 融合以强调缺失或弱观测语义模式。随后引入有限样本修正以稳定基数估计,再将其转化为覆盖调整后的语义熵得分。在合并语义字母表大小估计与大样本参考对比、以及 QA 错误检测实验上,SHADE 在样本最受限场景提升最显著,随样本量增加差距缩小。结果表明,混合语义占用估计在采样预算极紧的黑盒不确定性量化中尤其有益。
## 1 引言
大语言模型会“幻觉”或与可靠证据矛盾\[14,29,9\]。可靠的不确定性量化(UQ)可在高风险场景支持弃权与人类监督\[31,22\]。然而在部署系统中,往往面临*严格预算*:每查询只能负担极少独立生成,且专有 API 隐藏 logits、激活与 token 概率\[4,34,32\]。本文瞄准这种小 n 黑盒场景。
语义*字母表大小*——即通过双向蕴含聚类多代回复得到的语义等价类数量——是模型对查询含义“分散度”的可解释代理\[18,9,23\]。在极小 n 时,纯频率或纯谱估计都会低估有效支撑:经验计数忽略抽取间的几何结构,而语义图的谱值若无占用统计锚定会不稳定。
图注:黑盒采样每查询仅见少量回复;聚类得到 k_obs 个语义类,而*真实*语义字母表可能更大。有效字母表越大,认知不确定性越高,相同监控预算下输出不一致风险越大。我们提出 SHADE(Soft-Hybrid Alphabet Dynamic Estimator)。SHADE 结合 (i) 广义 Good–Turing(GGT)缺失质量外推与 (ii) 基于蕴含权重图归一化拉普拉斯的热核迹 tr(e^{-βL})\[5\]。估计覆盖度 C_GGT 决定融合方式:高覆盖时凸组合两信号,低覆盖时用 LogSumExp 融合以强调缺失或弱观测语义模式。轻量级有限样本修正稳定混合基数,再以 Horvitz–Thompson 式熵读数作为风险得分\[2\]。相比仅用占用基数\[23\]或图密度特征做 UQ\[21\],本文图谱作为*同一标量的第二估计器*,通过覆盖度而非辅助特征向量融合。
#### 贡献
1. 1. 基于覆盖度门控的 GGT 质量外推与语义图谱热核迹混合,避免仅对 n 硬阈值。
2. 2. 从原始生成到偏差修正基数再到可见性调整熵的*单一管道*,可直接阈值化。
3. 3. 字母表大小误差与下游错误检测的实证分析:增益集中在最小采样预算。
## 2 预备知识
#### 熵与语义类
对离散类变量 s 及其概率 p(s),香农熵为 ℍ = −∑_s p(s) log p(s)。语义熵(SE)通过双向蕴含将生成划分为等价类\[18,9,17\]。白盒可积分 token 似然得类概率;黑盒则用经验类频率 p̂_i,得到离散语义熵(DSE),但重尾导致大多数类未观测时会*低估*多样性\[4,9\]。
#### 覆盖度与图
令 f_m 表示在 n 个样本中恰好出现 m 次的语义类数量。未观测类缺失质量 M 与覆盖度 C = 1 − M 是 Good–Turing 推理的核心\[11\]。独立地,n 个回复诱导加权无向图:节点为回复,边权由蕴含决定,归一化拉普拉斯 L 编码全局连通性\[21,27\]。L 的特征值 λ_i 描述回复分裂成模态 vs 聚团的强度\[5\]。
## 3 相关研究
#### LLM 幻觉检测与 UQ
从有限观测提取鲁棒信号在空间建模、医学诊断、表示学习等领域普遍存在\[7,33,37,6\]。生成式 AI 中,大量文献通过幻觉与不确定性视角研究该问题\[14,29,31,22\]。实用 UQ 方法包括自洽、证据模型、内部探针、语义聚类\[4,3,36,17\]。本文聚焦*黑盒*访问与*小* n 的交集。
#### 语义熵与结构
Semantic Uncertainty 与 Semantic Entropy 确立“按含义聚类”范式\[18,9\]。后续工作用成对相似度、核化结构、证据目标、自适应探索\[26,27,19,32\]。McCabe 等\[23\]研究占用视角的语义基数;Li 等\[21\]将图密度作为辅助 UQ 信号。SHADE 区别:拉普拉斯谱作为*并行*有效支撑估计,通过 C_GGT 与 GGT 融合。
#### 图谱与估计
多代生成的图表示见于多条研究线\[8,13,10,1\]。不同于需训练的图模型,SHADE 仅将图作为结构估计器,结合经典缺失质量统计,推理轻量。
## 4 方法
令 k_obs 为聚类 n 代后观测到的语义类数。我们结合基于质量的 |Ŝ|_GGT 与基于谱的 |Ŝ|_Soft-EigV 估计有效支撑。
#### 热核迹
由 NLI 蕴含概率 a_ij 构造对称权重 w_ij = (a_ij + a_ji)/2\[12\]。令 L 为归一化拉普拉斯,特征值 0 = λ_1 ≤ … ≤ λ_n ≤ 2\[5\]。热核 e^{-βL} 在图上扩散质量,其迹
|Ŝ|_Soft-EigV := tr(e^{-βL}) = ∑_{i=1}^n e^{-βλ_i} (1)
聚合低频(相干)结构并对高频噪声指数衰减\[5\]。因此 tr(e^{-βL}) 作为*软*多尺度语义模态计数,与原始 k_obs 互补。
#### GGT 覆盖度
令 f_1, f_2 为单例与双例类计数。按稳定化 GGT 估计缺失质量与覆盖度\[23,11\]:
M_GGT = 1/n (1 − 2.08/n^0.7) f_1 + 4.1/n^1.7 f_2,
C_GGT = max(1 − M_GGT, 10^{-12}),
|Ŝ|_GGT = k_obs / C_GGT. (2)
#### 覆盖度驱动的混合
当 C_GGT ≥ τ,用覆盖度加权凸组合,随覆盖增大降低谱权重:
|Ŝ|_Hybrid = C_GGT |Ŝ|_GGT + (1 − C_GGT) |Ŝ|_Soft-EigV. (3)
当 C_GGT < τ,用 LogSumExp 融合,平滑取两预测器最大:
|Ŝ|_Hybrid = 1/α log(e^{α|Ŝ|_GGT} + e^{α|Ŝ|_Soft-EigV}). (4)
超参 (β, α, τ) 在开发集一次性固定(第 5 节)。阈值 τ 使典型查询避免边界处不稳定切换。
#### 有限样本修正与熵读数
插件多样性泛函有 O(1/n) 偏差\[25\];我们从混合基数中减去同阶主项:
|Ŝ|_Final = |Ŝ|_Hybrid + (k_obs − 1)/(2n),
p_i^* = (k_obs p̂_i) / |Ŝ|_Final. (5)
检测得分
Ĥ_SHADE = −∑_{i=1}^{k_obs} [p_i^* log p_i^*] / [1 − (1 − p_i^*)^n], (6)
其中可见性分母在无放回采样下标准化\[2\]。消融 |Ŝ|_Hybrid 与 Ĥ_Hybrid 省略此修正再做熵映射。
## 5 实验
### 5.1 设置
数据集:SQuAD、CoQA、NQ-Open、TriviaQA、HotpotQA\[28,30,20,16,35\]。生成模型:OPT-6.7B、Qwen3-8B-Instruct、Mistral-7B-Instruct、Phi-3.5-mini\[38,15,24\]。用 DeBERTa-v3-large-mnli 提供蕴含得分建图。字母表大小误差实验:每查询采 N=100 代作伪真值,子采样 n∈{5,…,50};基线包括插件 k_obs、GT、GGT、Laplacian U_EigV 及混合变体。二分类错误标签按数据集协议;CoQA 参与估计池但缺省于四数据集 AUC 表。可重复性细节见附录 B。
### 5.2 字母表大小估计
表 1 报告对 N=100 参考的 MAE 与 RMSE。SHADE 在 n=5 时优势最大,所列 n 内保持最佳。MAE 对任何方法均非严格单调,因池化异构提示。表 2 总结成对胜率:SHADE 在多数查询上优于先前混合与频率基线。
表 1:对 N=100 神谕的 MAE(RMSE)随子采样 n 变化。
表 2:SHADE 与基线成对胜率(n∈{5,10,20},池化查询)。
### 5.3 错误检测
对 Ĥ_SHADE 取阈值,报告四基准上序列级与回复级 ROC AUC(表 3)。n=5 时 SHADE 平均 AUC 最高;n∈{8,10} 时,插件熵或 NumSets 等简单得分偶得更高平均 AUC,尽管 MAE 更差——检测依赖标签噪声与可分性,不仅基数保真度。
表 3:错误检测相似文章
HalluSAE:利用稀疏自编码器检测大型语言模型中的幻觉
北京航空航天大学等机构的研究人员提出了HalluSAE,这是一个结合稀疏自编码器与相变理论的框架。该框架通过将生成过程建模为穿越势能地形的轨迹,来检测大型语言模型(LLM)中的幻觉,并精准定位发生事实性错误的关键过渡区域。
幻觉可从量化大语言模型中间层隐藏状态线性解码
本文研究开源量化大语言模型的隐藏状态中是否编码了线性可分的真实性信号。在三个7B-8B指令调优模型上,对单个网络中间层的线性探针在幻觉检测基准上达到0.904-1.000 AUROC,优于基于采样的方法。
PARALLAX: 区分真实幻觉检测与基准构建伪影
本文揭示了LLM幻觉检测领域报道的许多进展实际上源于基准构建伪影,其中真实答案被嵌入到提示中,使得简单的文本相似度基线方法能够获得近乎完美的分数。通过大规模受控评估,作者证明,在适当控制下,大多数方法的表现接近随机水平,除了对上层隐藏状态的监督探针(如SAPLMA)以及他们提出的DRIFT。
OpenHalDet:一种针对多样生成场景下幻觉检测的统一基准
OpenHalDet 是一个用于大语言模型幻觉检测的统一基准,它标准化了跨不同生成场景的评估,并支持黑盒、灰盒和白盒检测方法。
LLMs为何在结构化知识上产生幻觉:对线性化表示推理的机制分析
本文对LLMs在推理线性化结构化知识时产生幻觉的原因进行了机制分析,发现幻觉源于系统的内部动态,例如对捷径线索的关注以及前馈层中语义基础的失败,而非随机噪声。