基于隐层表示引导和稀疏自编码器的Whisper幻觉检测与缓解
摘要
本文展示了Whisper在面对静音、噪声或音乐时产生的幻觉故障,可以完全通过内部激活和稀疏自编码器来检测和缓解,无需微调即可大幅降低幻觉率。
查看缓存全文
缓存时间: 2026/06/09 12:41
论文页面 - Whisper幻觉检测与缓解:基于隐藏表征引导与稀疏自编码器
来源:https://huggingface.co/papers/2606.07473 Whisper幻觉检测与缓解:基于隐藏表征引导与稀疏自编码器
Whisper 有一个众所周知的故障模式:给它输入静音、噪声或音乐时,它往往会给出自信满满的虚构转录文本。本文表明,无需微调,仅凭模型内部激活即可检测并缓解这些幻觉。
我们在 Whisper 音频编码器中探测了两个表征空间:原始激活和稀疏自编码器(SAE)隐变量。事实证明,两者都编码了线性可分的幻觉信号,这些信号集中在稀疏的特征子集中,并在深层中逐渐增强。在推理阶段,将激活值沿着这些方向进行引导调整,即可显著降低不同数据集中非语音样本的幻觉率:
- Whisper small:非语音样本的幻觉率 72.63% → 14.11%
- Whisper large-v3:86.88% → 27.33%
常规语音数据的词错误率(WER)几乎不受影响,且该方法达到了与 Calm-Whisper 等微调方法相媲美的效果,却无需改动任何模型权重。一个值得强调的发现:由于仅需引导少量编码器侧 SAE 特征即可抑制幻觉,说明幻觉信号并非纯粹的解码器侧生成问题,而是早已编码在 Whisper 编码器对非语音音频的表征之中。
论文链接:https://arxiv.org/abs/2606.07473
相似文章
HalluSAE:利用稀疏自编码器检测大型语言模型中的幻觉
北京航空航天大学等机构的研究人员提出了HalluSAE,这是一个结合稀疏自编码器与相变理论的框架。该框架通过将生成过程建模为穿越势能地形的轨迹,来检测大型语言模型(LLM)中的幻觉,并精准定位发生事实性错误的关键过渡区域。
基于开权重代理分析器激活的幻觉检测
本文介绍了一种代理分析器框架,通过分析小型开权重模型的内部激活状态而非生成模型本身,来检测大型语言模型中的幻觉。与 ReDeEP 等现有方法相比,该方法在 RAGTruth 等基准测试中表现出更优越的性能,证明了分析方法的优劣比模型大小更为关键。
从架构到输出:大型语言模型中幻觉的结构根源及数据的放大作用
本文分析了大型语言模型中的幻觉,将其视为三个架构决策的结构性后果:自注意力的共现学习、最大似然估计训练目标以及自回归解码的左到右承诺。它将每种机制映射到特定的幻觉类型,并论证了数据集病态会放大但不会导致这些脆弱性。
关注未见质量:通过软混合字母估计揭示 LLM 幻觉
研究者提出 SHADE,一种混合估计器,在仅能获取少量黑盒样本时,融合 Good-Turing 覆盖率与图谱线索,量化语义不确定性并检测大模型幻觉。
首个Token已知:用于幻觉检测的单次解码置信度
本文介绍了一种利用大语言模型生成首Token的置信度来检测幻觉的方法,该方法仅需执行单次解码步骤。