基于隐层表示引导和稀疏自编码器的Whisper幻觉检测与缓解

Hugging Face Daily Papers 论文

摘要

本文展示了Whisper在面对静音、噪声或音乐时产生的幻觉故障,可以完全通过内部激活和稀疏自编码器来检测和缓解,无需微调即可大幅降低幻觉率。

Whisper作为一种广泛采用的ASR模型,已知存在幻觉问题——即为非语音音频生成与输入完全无关的连贯转录内容。我们研究是否可以通过Whisper的内部表示来检测和缓解幻觉。我们提取了音频编码器激活值,并评估了两个表示空间:原始Whisper激活值和稀疏自编码器(SAE)潜在变量。我们发现两个空间都编码了线性可分的幻觉相关信息,判别能力集中在稀疏特征子集中,并随着编码器层数的加深而增强。我们提出了两种引导策略:激活空间引导和SAE潜在空间引导。基于SAE的引导在完整非语音测试集上将Whisper small的幻觉率从72.63%降低到14.11%,将Whisper large-v3的幻觉率从86.88%降低到27.33%,同时在语音数据上仅有轻微的WER下降,接近基于微调方法的性能。
查看原文
查看缓存全文

缓存时间: 2026/06/09 12:41

论文页面 - Whisper幻觉检测与缓解:基于隐藏表征引导与稀疏自编码器

来源:https://huggingface.co/papers/2606.07473 Whisper幻觉检测与缓解:基于隐藏表征引导与稀疏自编码器

Whisper 有一个众所周知的故障模式:给它输入静音、噪声或音乐时,它往往会给出自信满满的虚构转录文本。本文表明,无需微调,仅凭模型内部激活即可检测并缓解这些幻觉。

我们在 Whisper 音频编码器中探测了两个表征空间:原始激活和稀疏自编码器(SAE)隐变量。事实证明,两者都编码了线性可分的幻觉信号,这些信号集中在稀疏的特征子集中,并在深层中逐渐增强。在推理阶段,将激活值沿着这些方向进行引导调整,即可显著降低不同数据集中非语音样本的幻觉率:

  • Whisper small:非语音样本的幻觉率 72.63% → 14.11%
  • Whisper large-v3:86.88% → 27.33%

常规语音数据的词错误率(WER)几乎不受影响,且该方法达到了与 Calm-Whisper 等微调方法相媲美的效果,却无需改动任何模型权重。一个值得强调的发现:由于仅需引导少量编码器侧 SAE 特征即可抑制幻觉,说明幻觉信号并非纯粹的解码器侧生成问题,而是早已编码在 Whisper 编码器对非语音音频的表征之中。

论文链接:https://arxiv.org/abs/2606.07473

相似文章

HalluSAE:利用稀疏自编码器检测大型语言模型中的幻觉

arXiv cs.CL

北京航空航天大学等机构的研究人员提出了HalluSAE,这是一个结合稀疏自编码器与相变理论的框架。该框架通过将生成过程建模为穿越势能地形的轨迹,来检测大型语言模型(LLM)中的幻觉,并精准定位发生事实性错误的关键过渡区域。

基于开权重代理分析器激活的幻觉检测

arXiv cs.CL

本文介绍了一种代理分析器框架,通过分析小型开权重模型的内部激活状态而非生成模型本身,来检测大型语言模型中的幻觉。与 ReDeEP 等现有方法相比,该方法在 RAGTruth 等基准测试中表现出更优越的性能,证明了分析方法的优劣比模型大小更为关键。