打破幻觉:多模态解码中正负信号的博弈
摘要
本文提出了正负解码(PND),这是一种无需训练的推理框架,通过在解码过程中对比正向视觉证据与负向反事实来减少视觉-语言模型中的对象幻觉。
arXiv:2605.06679v1 公告类型:新论文
摘要:视觉-语言模型(VLMs)往往因过度依赖语言先验而产生对象幻觉,生成的内容与视觉现实相悖。我们引入了正负解码(PND),这是一种无需训练的推理框架,通过直接干预解码过程来确保视觉保真度。PND 的灵感来源于我们发现 VLMs 中存在注意力失衡问题,即视觉特征的权重不足。我们的框架引入了一种双路径对比机制:一条正向路径用于增强视觉证据,另一条负向路径则构建反事实以惩罚由先验主导的生成结果。通过在解码过程中对比这两条路径的输出,PND 引导生成过程趋向于基于视觉的结果。在 POPE、MME 和 CHAIR 数据集上的实验表明,该方法在未重新训练的情况下达到了最先进的性能。
查看缓存全文
缓存时间: 2026/05/11 06:39
# 打破幻觉:多模态解码中正与负的相遇
来源: https://arxiv.org/html/2605.06679
江玉波1,2 安奕彤1 杨欣2 吾尔开西·阿布都克依木2 程旭新2 谢凤英1,3 蒋志国3 刘超2 曾柯2†\{\}^\{2~\\dagger\} 张浩鹏1,3†\{\}^\{1,3~\\dagger\}
1 北京航空航天大学宇航学院,中国北京 102206
2 美团长猫互动团队,中国北京 100102
3 北京航空航天大学天目山实验室,中国杭州 311115
\{jbond0409, zhanghaopeng\}@buaa\.edu\.cn \(Y\.J\., H\.Z\.\)
###### 摘要
视觉-语言模型(VLMs)经常因过度依赖语言先验而产生对象幻觉——即生成与视觉现实相矛盾的内容。我们引入了正负解码(Positive-and-Negative Decoding, PND),这是一种无需训练的推理框架,通过直接干预解码过程来强制保持视觉保真度。PND 的动机源于我们在 VLM 中发现的一个关键注意力缺陷:视觉特征在经验上被低估。我们的框架通过双路径对比来纠正这一问题:正路径使用多层注意力来放大显著的视觉证据,以促进忠实的描述,直接对抗注意力缺陷;同时,负路径识别并削弱核心对象的特征以创建强烈的反事实,从而惩罚脱离视觉依据、由先验主导的生成内容。通过在每一步对比模型从这两个视角输出的结果,PND 引导生成过程走向不仅语言上合理,而且视觉上真实可信的文本。在 POPE、MME 和 CHAIR 等基准上的大量实验表明,PND 取得了最先进的性能,准确率最高提升了 6.5%,在显著减少对象幻觉的同时也增强了描述细节——且无需任何模型重新训练。该方法有效地泛化到了多种 VLM 架构,包括 LLaVA、InstructBLIP、InternVL 和 Qwen-VL。项目主页: https://github\.com/JiangYubo4399/PND\.
††脚注:†\\dagger表示通讯作者\.
## 1 引言
大规模视觉-语言模型(VLMs)在多模态任务中取得了显著成功\[45 (https://arxiv.org/html/2605.06679#bib.bib45),43 (https://arxiv.org/html/2605.06679#bib.bib43),7 (https://arxiv.org/html/2605.06679#bib.bib7)\]\. 然而,一个关键的故障模式仍然存在:这些模型经常产生幻觉,生成看似合理但事实上错误且与视觉输入相矛盾的内容\[14 (https://arxiv.org/html/2605.06679#bib.bib14),20 (https://arxiv.org/html/2605.06679#bib.bib20),11 (https://arxiv.org/html/2605.06679#bib.bib11)\]\. 我们认为,这种故障本质上是贝叶斯推理失衡\[38 (https://arxiv.org/html/2605.06679#bib.bib38),4 (https://arxiv.org/html/2605.06679#bib.bib4)\]\. 从贝叶斯的角度来看,VLM 的生成过程由两种相互竞争的力量决定:语言先验,指模型在预训练中学到的共同出现偏差,编码了词语和视觉概念在统计上如何对齐;以及视觉似然,指直接约束实际存在的对象和属性的以图像为根据的证据。当这种平衡失败且生成变得“先验主导”时,就会发生幻觉\[33 (https://arxiv.org/html/2605.06679#bib.bib33),22 (https://arxiv.org/html/2605.06679#bib.bib22)\]\. 这种失衡主要表现为两种方式:
- •对象捏造(正向幻觉)\. 正向幻觉是指模型*捏造*不存在的对象,通常发生在占主导地位的语言先压过视觉证据时。现有的仅扰动方法,如 VCD 式的负样本对构建,试图抑制这种行为,但往往过度破坏图像,移除可靠接地所需的关键语义。
- •对象遗漏(负向幻觉)\. 相比之下,遗漏发生在真实对象获得的接地支持不足时。如图 1 (https://arxiv.org/html/2605.06679#S1.F1)\(b\) 所示,飞盘清晰可见,但模型对“图中有飞盘吗?”的问题回答“没有”。仅扰动的对比方法进一步抑制了原本就微弱的飞盘区域,并且——由于它们在单一破坏性路径上操作——VCD 类方法无法从这种证据丢失中恢复,再次导致模型否认其存在\.
克服这一现象需要一种能够在解码期间动态且可靠地介入的机制。这种方法必须不断引导模型朝向以视觉为根据的预测,并防止其回归到由不正确的语言先验主导的描述中\[40 (https://arxiv.org/html/2605.06679#bib.bib40),46 (https://arxiv.org/html/2605.06679#bib.bib46)\]\. 如图 1 (https://arxiv.org/html/2605.06679#S1.F1)\(c\) 所示,我们的方法有效地解决了这种失衡。为了真正打破理解的幻觉,我们引入了**正负解码(PND)**,这是一种无需训练、即插即用的框架,在推理过程中执行实时的**贝叶斯信念调整**。PND 通过注入精心设计的**双路径对比机制**\[6 (https://arxiv.org/html/2605.06679#bib.bib6)\]来实现这一点,该机制动态地重新平衡先验和似然。
图 1 标题: PND 通过双路径对比抑制对象幻觉。\((a)\) 标准 VLM 由于语言先验较弱而未能识别飞盘。\((b)\) 现有的仅负向方法不足。\((c)\) 我们的 PND 的双路径克服了这一问题:正路径强化了对象的存在,而负路径创建了反事实,从而实现了正确识别。
1. **正路径(放大似然)**:此路径使用多层跨模态注意力来收集相关的视觉证据并将其放大。通过加强高显著性的视觉特征,它提升了**视觉似然**,引导模型走向以视觉为根据、忠实的描述。
2. **负路径(隔离先验)**:此路径通过识别核心证据区域并选择性削弱它们来构建有针对性的反事实。通过仅移除模型仍依赖的最小视觉线索,它诱发了“证据盲”状态,同时保留有用的先验信息,导致模型更严重地依赖其**语言先验**。由此产生的输出揭示了模型潜在的、由先验驱动的幻觉倾向。
这两条路径的“交汇”由我们的解码目标协调。通过将增强似然(正)路径的模型输出与先验主导(负)路径的模型输出进行对比,PND 施加了对称的压力。它将生成轨迹导向对象级别的真相(高视觉似然),并远离误导性的上下文信念(主导的语言先验),从而解决了导致幻觉的贝叶斯失衡\[8 (https://arxiv.org/html/2605.06679#bib.bib8),46 (https://arxiv.org/html/2605.06679#bib.bib46)\]\. 我们的贡献总结如下:
- •我们提出了 PND,这是一种无需训练、即插即用的解码框架,在推理期间使用**双路径对比机制**来抑制幻觉。
- •我们的方法独特地利用多层注意力动态生成正(放大似然)和负(隔离先验)指导,在推理时实现稳健的贝叶斯信念调整。
- •在多个 VLM 和基准数据集上的大量实验表明,PND 在抑制对象幻觉方面取得了最先进的性能,显著优于现有方法。
## 2 相关工作
### 2.1 视觉-语言模型(VLMs)
大型多模态模型(LMMs)的当前范式通过增强视觉理解来强化强大的大型语言模型(LLMs)。这通常是通过通过轻量级适配器\[24 (https://arxiv.org/html/2605.06679#bib.bib24),25 (https://arxiv.org/html/2605.06679#bib.bib25)\]将预训练视觉编码器\[9 (https://arxiv.org/html/2605.06679#bib.bib9)\]连接到 LLM 来实现的。这种架构,特别是经过大规模**视觉指令微调**\[24 (https://arxiv.org/html/2605.06679#bib.bib24)\]优化后,已被证明非常有效。它催生了一波具有影响力的开源模型——如 LLaVA-1.5\[25 (https://arxiv.org/html/2605.06679#bib.bib25)\]、Qwen-VL\[2 (https://arxiv.org/html/2605.06679#bib.bib2)\]和 Deepseek-VL\[27 (https://arxiv.org/html/2605.06679#bib.bib27)\]——以及像 OpenAI 的 GPT 模型和 Google 的 Gemini\[36 (https://arxiv.org/html/2605.06679#bib.bib36)\]这样的尖端专有系统。这些模型展示了前所未有的对话技能和性能\[13 (https://arxiv.org/html/2605.06679#bib.bib13)\]\.
虽然这种设计赋予了强大的流畅性,但也导致模型继承了其底层 LLM 的海量参数化知识。这种依赖极大地促成了我们要解决的**贝叶斯失衡**:它们强大的**语言先验**很容易覆盖事实性的视觉证据,导致普遍的幻觉问题\[26 (https://arxiv.org/html/2605.06679#bib.bib26),11 (https://arxiv.org/html/2605.06679#bib.bib11),17 (https://arxiv.org/html/2605.06679#bib.bib17),46 (https://arxiv.org/html/2605.06679#bib.bib46)\]\.
### 2.2 视觉-语言模型中的幻觉
VLM 中的幻觉指的是生成的内容与视觉输入不一致\[44 (https://arxiv.org/html/2605.06679#bib.bib44)\]\. 对象幻觉——假阳性(描述不存在的对象)或假阴性(遗漏存在的对象)——是研究最多且实际意义最大的形式\[11 (https://arxiv.org/html/2605.06679#bib.bib11),3 (https://arxiv.org/html/2605.06679#bib.bib3)\]\. 这些错误与强烈的语言先验\[29 (https://arxiv.org/html/2605.06679#bib.bib29)\]和注意力错位密切相关,后者指模型依赖上下文线索而不是对象级别的证据\[34 (https://arxiv.org/html/2605.06679#bib.bib34)\]\. 现有的缓解策略分为两类。基于训练的方法通过 RLHF\[28 (https://arxiv.org/html/2605.06679#bib.bib28),15 (https://arxiv.org/html/2605.06679#bib.bib15)\]、精心策划的数据集\[3 (https://arxiv.org/html/2605.06679#bib.bib3)\]或架构变更\[1 (https://arxiv.org/html/2605.06679#bib.bib1)\]来修改参数。虽然有效,但它们计算成本高昂,且往往会降低其他多模态能力。推理时方法提供了一种实用的替代方案。最近的方法如视觉对比解码(VCD)\[17 (https://arxiv.org/html/2605.06679#bib.bib17)\]、AGLA\[1 (https://arxiv.org/html/2605.06679#bib.bib1)\]和 VAF\[41 (https://arxiv.org/html/2605.06679#bib.bib41)\]对比扰动视觉输入下的预测以检测先验主导的 token。从贝叶斯角度来看,这些技术执行单路径扰动控制:它们削弱视觉似然并降低保持不变 token 的权重。尽管有效,但这种机制本质上是片面的;它既不放大有证据的区域,也不分离语言先验的影响。
图 2 标题: PND 信念调整解码框架概述\. 给定输入图像,我们首先提取多层跨模态注意力图以估计查询对齐的视觉证据。这些图指导构建两个扰动的视觉表示:一个*正*视图 $V_{\mathrm{pos}}$ 放大证据,一个*负*视图 $V_{\mathrm{neg}}$ 抑制证据。将每个视图通过 VLM 产生三个 logits(原始、正和负),它们的对比揭示了 token 是由视觉似然还是语言先验驱动的。最终的下一个 token 概率是通过这些 logits 的信念调整组合获得的,使模型能够恢复以视觉为根据的预测并减少幻觉\.
我们的方法提供了一种互补的、结构化的视角。PND 不依赖于单一的扰动视图,而是引入双路径公式来探测两个信念来源。负路径构建一个受控的反事实,移除多层共识证据以近似先验,而正路径通过注意力引导的增强来强化显著区域。这种设计将 CAM(类别激活图)视为一种可微的、与架构无关的代理,用于分离似然主导和先验主导的区域,从而实现原则性的、与模型无关的信念调整解码。对称公式比仅扰动方法提供了更清晰的贝叶斯分解近似。
## 3 方法
本节介绍了 PND,我们由贝叶斯信念调整引导的推理时框架。我们并不假设一个完全参数化的贝叶斯模型,而是利用这一观点来描述观察到的失衡:现代 VLM 严重依赖语言自洽性,同时在较深的解码层中逐渐较少利用视觉证据(见图 3 (https://arxiv.org/html/2605.06679#S3.F3)\)\. 在这种失衡下,PND 旨在在 token 生成期间动态地重新加权语言先验和视觉似然。
为了实现这一点,PND 对比模型在两种视觉表示下的行为。正表示 $V_{\mathrm{pos}}$ 放大显著的视觉证据,而负表示 $V_{\mathrm{neg}}$ 减弱或移除此类证据以隔离模型的语言先验。前提很简单:由先验主导的 token 对视觉扰动不敏感,而由似然驱动的 token 表现出强烈的变化。如图 2 (https://arxiv.org/html/2605.06679#S2.F2) 所示,我们的框架由两个组件组成:用于构建 $V_{\mathrm{pos}}$ 和 $V_{\mathrm{neg}}$ 的注意力衍生的显著性图,以及一个信念调整解码目标,该目标将来自所有三条路径的 logits 集成到单个下一个 token 分布中。
### 3.1 通过注意力解耦证据与上下文
我们通过概念性的贝叶斯视角重新审视多模态解码,其中下一个 token 的分布同时受到语言期望和动态演变的图像衍生证据的影响:
$$p(y|x_v, x_t) \propto \underbrace{p(y|x_t)}_{\text{language prior}} \cdot \underbrace{p(x_v|y)}_{\text{visual likelihood}}. \quad (1)$$
虽然这种分解有助于解释幻觉,但显式地将 VLM 的隐藏特征分解为这些组成部分是不可行的。相反,我们寻求一个与可观察模型行为\[19 (https://arxiv.org/html/2605.06679#bib.bib19),4 (https://arxiv.org/html/2605.06679#bib.bib4)\]一致的实际代理。
##### 跨模态注意力作为经验代理\.
我们将视觉嵌入 $V$ 解释为包含承载证据的 $V_{\mathrm{evidence}}$(支持似然的对象特征)和上下文 $V_{\mathrm{context}}$(强化语言先验的语义)。当模型在解码期间过度加权 $V_{\mathrm{context}}$ 且低估 $V_{\mathrm{evidence}}$ 时,就会产生幻觉。尽管有早期聚合假设(视觉证据早期整合以便间接地后期访问),但更深层越来越多地偏向于语言先验而非直接视觉证据。因此,观察到的注意力下降在经验上表明直接视觉接地的减少,而不是决定性的信息丢失。
为了近似这种二相似文章
通过分阶段自奖励缓解多模态幻觉
PSRD 框架通过分阶段自奖励解码和蒸馏轻量奖励模型,无需额外监督即可将 LVLM 的多模态幻觉降低一半。
负面先于正面:大型语言模型中的不对称效价处理
本文通过机理可解释性研究大型语言模型如何处理情感效价。通过在三个开源LLMs上使用激活修补和引导,作者发现负面效价定位于早期层,而正面效价在中后期层达到峰值,并通过主题控制翻转测试验证了这一点。
HNC:利用困难负样本描述提升模型的细粒度视觉-语言理解能力
本文介绍了困难负样本描述(HNC),这是一种数据集和方法,旨在通过解决网络采集的图文对中存在的弱关联问题,训练视觉-语言模型以实现细粒度理解。
看不清还是想不对?面向视觉语言推理的感知奖励
本文提出一种强化学习框架,通过显式奖励感知保真度来改善视觉语言模型中的感知-推理协同,利用“蒙眼推理”代理和结构化言语验证来解决模态信用分配中的模糊性。
视觉语言模型在多语言否定理解上的差异
MIT 研究人员发布首个涵盖七种语言的多语言否定基准,发现 CLIP 等模型在非拉丁文字上表现不佳,而 MultiCLIP 与 SpaceVLM 在各语言间的提升并不均衡。