标签
本文对LLMs在推理线性化结构化知识时产生幻觉的原因进行了机制分析,发现幻觉源于系统的内部动态,例如对捷径线索的关注以及前馈层中语义基础的失败,而非随机噪声。
本文提出,大型语言模型中的上下文学习通过低维概念子空间运作,任务相关信息集中在表示空间的一小部分中,并在Llama-3-8B和Qwen2.5-7B上通过实验得到支持。
本文通过机制分析研究视觉-语言模型中的提示诱导幻觉,识别出导致模型偏向文本提示而忽视视觉证据的特定注意力头。作者证明了删除这些PIH头可以在无需额外训练的情况下减少至少40%的幻觉,揭示了该故障模式背后的模型特定机制。