标签
本文揭示了大视觉语言模型中的幻觉是由一种动态结构错位引起的,其中某些注意力头充当风险中介,与视觉证据解耦,转而锁定语言先验。作者提出了Fox,一种无需训练的因果干预框架,能够诊断并物理切断这些病态捷径,在忠实解码中实现了最先进的性能。