关注未见质量：通过软混合字母估计揭示 LLM 幻觉

arXiv cs.CL 2026/04/22 04:00 论文

摘要

研究者提出 SHADE，一种混合估计器，在仅能获取少量黑盒样本时，融合 Good-Turing 覆盖率与图谱线索，量化语义不确定性并检测大模型幻觉。

arXiv:2604.19162v1 公告类型: new 摘要：本文研究在仅能对每个查询采样少量响应的黑盒场景下，如何为大语言模型（LLM）量化不确定性。此时，估计“有效语义字母表大小”——即样本响应中表达的不同含义数量——可作为下游风险的有用代理。然而，当样本量较小时，基于频率的估计器容易低估罕见语义模式，而仅依赖图谱谱量也无法准确估计语义占用。为此，我们提出 SHADE（Soft-Hybrid Alphabet Dynamic Estimator），一种简单且可解释的估计器，将广义 Good-Turing 覆盖率与基于蕴含权重图的热核迹（归一化拉普拉斯矩阵）相结合。估计覆盖率自适应决定融合规则：高覆盖率时，SHADE 采用两种信号的凸组合；低覆盖率时，使用 LogSumExp 融合以突出缺失或弱观测的语义模式。随后引入有限样本修正，稳定所得基数估计，并将其转换为经覆盖率调整的语义熵分数。在池化语义字母表大小估计任务（对比大样本参考）以及 QA 错误检测实验中，SHADE 在样本最受限的场景下取得最大提升，随着样本量增加，性能差距逐渐缩小。结果表明，当黑盒不确定性量化必须在严格采样预算下运行时，混合语义占用估计尤为有益。

查看原文

查看缓存全文

缓存时间: 2026/04/22 08:30

# 留意隐形质量：用软混合字母表估计揭穿 LLM 幻觉  
来源：https://arxiv.org/html/2604.19162  
潘红星、郭盈盈、况文清、陆嘉实  
香港中文大学（深圳）数据科学学院  
{124090486, 123090142, 123090247, 123090386}@link.cuhk.edu.cn  

###### 摘要  

本文研究黑盒访问下大语言模型（LLM）的不确定性量化，每查询只能采样少量回复。在此设定中，估计“有效语义字母表大小”——即采样回复所表达的不同含义数量——可作为下游风险的有效代理。然而，基于频率的估计器在样本量小时会低估罕见语义模式，而单纯的图谱量又并非为准确估计语义占用而设计。为此，我们提出 SHADE（Soft-Hybrid Alphabet Dynamic Estimator），一个简洁可解释的估计器：它将广义 Good–Turing 覆盖度与基于蕴含权重图的归一化拉普拉斯热核迹相结合。估计出的覆盖度自适应决定融合规则：高覆盖时用两信号的凸组合；低覆盖时用 LogSumExp 融合以强调缺失或弱观测语义模式。随后引入有限样本修正以稳定基数估计，再将其转化为覆盖调整后的语义熵得分。在合并语义字母表大小估计与大样本参考对比、以及 QA 错误检测实验上，SHADE 在样本最受限场景提升最显著，随样本量增加差距缩小。结果表明，混合语义占用估计在采样预算极紧的黑盒不确定性量化中尤其有益。  

## 1 引言  

大语言模型会“幻觉”或与可靠证据矛盾\[14,29,9\]。可靠的不确定性量化（UQ）可在高风险场景支持弃权与人类监督\[31,22\]。然而在部署系统中，往往面临*严格预算*：每查询只能负担极少独立生成，且专有 API 隐藏 logits、激活与 token 概率\[4,34,32\]。本文瞄准这种小 n 黑盒场景。  

语义*字母表大小*——即通过双向蕴含聚类多代回复得到的语义等价类数量——是模型对查询含义“分散度”的可解释代理\[18,9,23\]。在极小 n 时，纯频率或纯谱估计都会低估有效支撑：经验计数忽略抽取间的几何结构，而语义图的谱值若无占用统计锚定会不稳定。  

图注：黑盒采样每查询仅见少量回复；聚类得到 k_obs 个语义类，而*真实*语义字母表可能更大。有效字母表越大，认知不确定性越高，相同监控预算下输出不一致风险越大。我们提出 SHADE（Soft-Hybrid Alphabet Dynamic Estimator）。SHADE 结合 (i) 广义 Good–Turing（GGT）缺失质量外推与 (ii) 基于蕴含权重图归一化拉普拉斯的热核迹 tr(e^{-βL})\[5\]。估计覆盖度 C_GGT 决定融合方式：高覆盖时凸组合两信号，低覆盖时用 LogSumExp 融合以强调缺失或弱观测语义模式。轻量级有限样本修正稳定混合基数，再以 Horvitz–Thompson 式熵读数作为风险得分\[2\]。相比仅用占用基数\[23\]或图密度特征做 UQ\[21\]，本文图谱作为*同一标量的第二估计器*，通过覆盖度而非辅助特征向量融合。  

#### 贡献  

1. 1. 基于覆盖度门控的 GGT 质量外推与语义图谱热核迹混合，避免仅对 n 硬阈值。  
2. 2. 从原始生成到偏差修正基数再到可见性调整熵的*单一管道*，可直接阈值化。  
3. 3. 字母表大小误差与下游错误检测的实证分析：增益集中在最小采样预算。  

## 2 预备知识  

#### 熵与语义类  

对离散类变量 s 及其概率 p(s)，香农熵为 ℍ = −∑_s p(s) log p(s)。语义熵（SE）通过双向蕴含将生成划分为等价类\[18,9,17\]。白盒可积分 token 似然得类概率；黑盒则用经验类频率 p̂_i，得到离散语义熵（DSE），但重尾导致大多数类未观测时会*低估*多样性\[4,9\]。  

#### 覆盖度与图  

令 f_m 表示在 n 个样本中恰好出现 m 次的语义类数量。未观测类缺失质量 M 与覆盖度 C = 1 − M 是 Good–Turing 推理的核心\[11\]。独立地，n 个回复诱导加权无向图：节点为回复，边权由蕴含决定，归一化拉普拉斯 L 编码全局连通性\[21,27\]。L 的特征值 λ_i 描述回复分裂成模态 vs 聚团的强度\[5\]。  

## 3 相关研究  

#### LLM 幻觉检测与 UQ  

从有限观测提取鲁棒信号在空间建模、医学诊断、表示学习等领域普遍存在\[7,33,37,6\]。生成式 AI 中，大量文献通过幻觉与不确定性视角研究该问题\[14,29,31,22\]。实用 UQ 方法包括自洽、证据模型、内部探针、语义聚类\[4,3,36,17\]。本文聚焦*黑盒*访问与*小* n 的交集。  

#### 语义熵与结构  

Semantic Uncertainty 与 Semantic Entropy 确立“按含义聚类”范式\[18,9\]。后续工作用成对相似度、核化结构、证据目标、自适应探索\[26,27,19,32\]。McCabe 等\[23\]研究占用视角的语义基数；Li 等\[21\]将图密度作为辅助 UQ 信号。SHADE 区别：拉普拉斯谱作为*并行*有效支撑估计，通过 C_GGT 与 GGT 融合。  

#### 图谱与估计  

多代生成的图表示见于多条研究线\[8,13,10,1\]。不同于需训练的图模型，SHADE 仅将图作为结构估计器，结合经典缺失质量统计，推理轻量。  

## 4 方法  

令 k_obs 为聚类 n 代后观测到的语义类数。我们结合基于质量的 |Ŝ|_GGT 与基于谱的 |Ŝ|_Soft-EigV 估计有效支撑。  

#### 热核迹  

由 NLI 蕴含概率 a_ij 构造对称权重 w_ij = (a_ij + a_ji)/2\[12\]。令 L 为归一化拉普拉斯，特征值 0 = λ_1 ≤ … ≤ λ_n ≤ 2\[5\]。热核 e^{-βL} 在图上扩散质量，其迹  

|Ŝ|_Soft-EigV := tr(e^{-βL}) = ∑_{i=1}^n e^{-βλ_i}  (1)  

聚合低频（相干）结构并对高频噪声指数衰减\[5\]。因此 tr(e^{-βL}) 作为*软*多尺度语义模态计数，与原始 k_obs 互补。  

#### GGT 覆盖度  

令 f_1, f_2 为单例与双例类计数。按稳定化 GGT 估计缺失质量与覆盖度\[23,11\]：  

M_GGT = 1/n (1 − 2.08/n^0.7) f_1 + 4.1/n^1.7 f_2,  
C_GGT = max(1 − M_GGT, 10^{-12}),  
|Ŝ|_GGT = k_obs / C_GGT.  (2)  

#### 覆盖度驱动的混合  

当 C_GGT ≥ τ，用覆盖度加权凸组合，随覆盖增大降低谱权重：  

|Ŝ|_Hybrid = C_GGT |Ŝ|_GGT + (1 − C_GGT) |Ŝ|_Soft-EigV.  (3)  

当 C_GGT < τ，用 LogSumExp 融合，平滑取两预测器最大：  

|Ŝ|_Hybrid = 1/α log(e^{α|Ŝ|_GGT} + e^{α|Ŝ|_Soft-EigV}).  (4)  

超参 (β, α, τ) 在开发集一次性固定（第 5 节）。阈值 τ 使典型查询避免边界处不稳定切换。  

#### 有限样本修正与熵读数  

插件多样性泛函有 O(1/n) 偏差\[25\]；我们从混合基数中减去同阶主项：  

|Ŝ|_Final = |Ŝ|_Hybrid + (k_obs − 1)/(2n),  
p_i^* = (k_obs p̂_i) / |Ŝ|_Final.  (5)  

检测得分  

Ĥ_SHADE = −∑_{i=1}^{k_obs} [p_i^* log p_i^*] / [1 − (1 − p_i^*)^n],  (6)  

其中可见性分母在无放回采样下标准化\[2\]。消融 |Ŝ|_Hybrid 与 Ĥ_Hybrid 省略此修正再做熵映射。  

## 5 实验  

### 5.1 设置  

数据集：SQuAD、CoQA、NQ-Open、TriviaQA、HotpotQA\[28,30,20,16,35\]。生成模型：OPT-6.7B、Qwen3-8B-Instruct、Mistral-7B-Instruct、Phi-3.5-mini\[38,15,24\]。用 DeBERTa-v3-large-mnli 提供蕴含得分建图。字母表大小误差实验：每查询采 N=100 代作伪真值，子采样 n∈{5,…,50}；基线包括插件 k_obs、GT、GGT、Laplacian U_EigV 及混合变体。二分类错误标签按数据集协议；CoQA 参与估计池但缺省于四数据集 AUC 表。可重复性细节见附录 B。  

### 5.2 字母表大小估计  

表 1 报告对 N=100 参考的 MAE 与 RMSE。SHADE 在 n=5 时优势最大，所列 n 内保持最佳。MAE 对任何方法均非严格单调，因池化异构提示。表 2 总结成对胜率：SHADE 在多数查询上优于先前混合与频率基线。  

表 1：对 N=100 神谕的 MAE（RMSE）随子采样 n 变化。  
表 2：SHADE 与基线成对胜率（n∈{5,10,20}，池化查询）。  

### 5.3 错误检测  

对 Ĥ_SHADE 取阈值，报告四基准上序列级与回复级 ROC AUC（表 3）。n=5 时 SHADE 平均 AUC 最高；n∈{8,10} 时，插件熵或 NumSets 等简单得分偶得更高平均 AUC，尽管 MAE 更差——检测依赖标签噪声与可分性，不仅基数保真度。  

表 3：错误检测

关注未见质量：通过软混合字母估计揭示 LLM 幻觉

相似文章

HalluSAE：利用稀疏自编码器检测大型语言模型中的幻觉

幻觉可从量化大语言模型中间层隐藏状态线性解码

PARALLAX: 区分真实幻觉检测与基准构建伪影

OpenHalDet：一种针对多样生成场景下幻觉检测的统一基准

LLMs为何在结构化知识上产生幻觉：对线性化表示推理的机制分析

提交意见反馈