扩散模型中减少幻觉的分数控制
摘要
本文介绍了方差引导的分数调制(VSM),通过控制分数函数的平滑度来减少扩散模型中的幻觉,在保持图像质量的同时实现了高达约25%的减少。
查看缓存全文
缓存时间: 2026/06/04 03:41
论文页面 - 扩散模型中的幻觉减少:分数控制方法
来源:https://huggingface.co/papers/2606.00377
摘要
方差引导的分数调制通过雅可比调制控制分数函数的平滑度,在保持图像质量的同时减少扩散模型中的幻觉现象。
扩散模型(https://huggingface.co/papers?q=Diffusion%20models)已成为现代生成式AI的支柱,推动着视觉、语言、音频及其他模态的发展。尽管取得了成功,它们仍饱受幻觉(https://huggingface.co/papers?q=hallucinations)问题困扰——即生成位于真实数据分布支持范围之外的不可信样本,这降低了可靠性和信任度。在本工作中,我们首先通过实验证实了先前提出的假设:分数平滑度会导致图像生成(https://huggingface.co/papers?q=Image%20Generation)扩散模型(https://huggingface.co/papers?q=diffusion%20models)中的幻觉(https://huggingface.co/papers?q=hallucinations)现象,并提供了基于密度的视角。我们进一步将幻觉概率质量与学习到的分数函数(https://huggingface.co/papers?q=score%20function)的利普希茨常数(https://huggingface.co/papers?q=lipschitz%20constant)联系起来,从而形式化了这一概念。受此启发,我们引入了一种方差引导的分数调制(https://huggingface.co/papers?q=Variance-Guided%20Score%20Modulation)(VSM)策略,该策略控制分数雅可比(https://huggingface.co/papers?q=score%20Jacobian),进而降低分数平滑度,更好地逼近真实分数函数,从而减少幻觉(https://huggingface.co/papers?q=hallucinations)现象。在合成数据集和真实世界数据集上的实验结果表明,我们的方法在保持高保真度和多样性的同时,减少了幻觉(最高约25%),为实现更可靠的基于扩散的图像生成(https://huggingface.co/papers?q=image%20generation)迈出了原则性的一步。我们还提出了两个具有极端语义变化(https://huggingface.co/papers?q=semantic%20variation)的基准数据集,用于系统的幻觉评估(https://huggingface.co/papers?q=hallucination%20evaluation)。代码和数据集已在 https://github.com/bhosalems/VSM 上公开。
查看 arXiv 页面(https://arxiv.org/abs/2606.00377)查看 PDF(https://arxiv.org/pdf/2606.00377)GitHub0(https://github.com/bhosalems/VSM)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.00377)
在你的代理中获取此论文:
hf papers read 2606.00377
没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2606.00377 以从此页面链接。
引用此论文的数据集0
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.00377 以从此页面链接。
引用此论文的 Spaces0
没有 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2606.00377 以从此页面链接。
包含此论文的收藏集0
没有包含此论文的收藏集
将此论文添加到收藏集(https://huggingface.co/new-collection)以从此页面链接。
相似文章
幻觉检测引导的临床摘要偏好优化
介绍了HDSR和HDSR-PL方法,这些方法使用幻觉检测器来指导迭代自我改进和偏好学习,在MIMIC-IV-Note上使用Llama和Gemma模型进行临床摘要时,幻觉减少高达48%。
通过分阶段自奖励缓解多模态幻觉
PSRD 框架通过分阶段自奖励解码和蒸馏轻量奖励模型,无需额外监督即可将 LVLM 的多模态幻觉降低一半。
基于隐层表示引导和稀疏自编码器的Whisper幻觉检测与缓解
本文展示了Whisper在面对静音、噪声或音乐时产生的幻觉故障,可以完全通过内部激活和稀疏自编码器来检测和缓解,无需微调即可大幅降低幻觉率。
PARALLAX: 区分真实幻觉检测与基准构建伪影
本文揭示了LLM幻觉检测领域报道的许多进展实际上源于基准构建伪影,其中真实答案被嵌入到提示中,使得简单的文本相似度基线方法能够获得近乎完美的分数。通过大规模受控评估,作者证明,在适当控制下,大多数方法的表现接近随机水平,除了对上层隐藏状态的监督探针(如SAPLMA)以及他们提出的DRIFT。
为什么 DDIM 比 DDPM 产生更多幻觉:逆向动力学的理论分析
本文提供了理论分析,解释了为什么在扩散模型中,确定性的 DDIM 采样器比随机性的 DDPM 采样器产生更多的幻觉,将其归因于在逆向动力学过程中卡在模态插值区域。