基于隐层表示引导和稀疏自编码器的Whisper幻觉检测与缓解

Hugging Face Daily Papers 2026/06/05 00:00 论文

摘要

本文展示了Whisper在面对静音、噪声或音乐时产生的幻觉故障，可以完全通过内部激活和稀疏自编码器来检测和缓解，无需微调即可大幅降低幻觉率。

Whisper作为一种广泛采用的ASR模型，已知存在幻觉问题——即为非语音音频生成与输入完全无关的连贯转录内容。我们研究是否可以通过Whisper的内部表示来检测和缓解幻觉。我们提取了音频编码器激活值，并评估了两个表示空间：原始Whisper激活值和稀疏自编码器（SAE）潜在变量。我们发现两个空间都编码了线性可分的幻觉相关信息，判别能力集中在稀疏特征子集中，并随着编码器层数的加深而增强。我们提出了两种引导策略：激活空间引导和SAE潜在空间引导。基于SAE的引导在完整非语音测试集上将Whisper small的幻觉率从72.63%降低到14.11%，将Whisper large-v3的幻觉率从86.88%降低到27.33%，同时在语音数据上仅有轻微的WER下降，接近基于微调方法的性能。

查看原文

查看缓存全文

缓存时间: 2026/06/09 12:41

论文页面 - Whisper幻觉检测与缓解：基于隐藏表征引导与稀疏自编码器

来源：https://huggingface.co/papers/2606.07473 Whisper幻觉检测与缓解：基于隐藏表征引导与稀疏自编码器

Whisper 有一个众所周知的故障模式：给它输入静音、噪声或音乐时，它往往会给出自信满满的虚构转录文本。本文表明，无需微调，仅凭模型内部激活即可检测并缓解这些幻觉。

我们在 Whisper 音频编码器中探测了两个表征空间：原始激活和稀疏自编码器（SAE）隐变量。事实证明，两者都编码了线性可分的幻觉信号，这些信号集中在稀疏的特征子集中，并在深层中逐渐增强。在推理阶段，将激活值沿着这些方向进行引导调整，即可显著降低不同数据集中非语音样本的幻觉率：

Whisper small：非语音样本的幻觉率 72.63% → 14.11%
Whisper large-v3：86.88% → 27.33%

常规语音数据的词错误率（WER）几乎不受影响，且该方法达到了与 Calm-Whisper 等微调方法相媲美的效果，却无需改动任何模型权重。一个值得强调的发现：由于仅需引导少量编码器侧 SAE 特征即可抑制幻觉，说明幻觉信号并非纯粹的解码器侧生成问题，而是早已编码在 Whisper 编码器对非语音音频的表征之中。

论文链接：https://arxiv.org/abs/2606.07473

基于隐层表示引导和稀疏自编码器的Whisper幻觉检测与缓解

论文页面 - Whisper幻觉检测与缓解：基于隐藏表征引导与稀疏自编码器

相似文章

HalluSAE：利用稀疏自编码器检测大型语言模型中的幻觉

基于开权重代理分析器激活的幻觉检测

从架构到输出：大型语言模型中幻觉的结构根源及数据的放大作用

关注未见质量：通过软混合字母估计揭示 LLM 幻觉

首个Token已知：用于幻觉检测的单次解码置信度

提交意见反馈