大语言模型真的知道自己不知道什么吗?内部状态主要反映知识回忆而非真实性
摘要
本文质疑了大语言模型能够通过内部信号可靠区分幻觉输出和事实输出的假设,论证内部状态主要反映知识回忆而非真实性。作者提出了一套幻觉分类法(相关性幻觉与非相关性幻觉),并证明相关性幻觉的隐藏状态几何特性与事实输出重叠,使得标准检测方法失效。
arXiv:2510.09033v3 公告类型:替换
摘要:最近的研究表明大语言模型"知道它们不知道什么",认为幻觉输出和事实正确输出来自不同的内部过程,因此可以使用内部信号进行区分。然而,幻觉有多方面的原因:除了简单的知识缺陷外,还可能源于鼓励模型利用统计捷径或在预训练期间学到的虚假关联的训练激励。在本文中,我们主张当大语言模型依靠这些学到的关联来产生幻觉时,其内部过程在机制上类似于事实回忆的过程,因为两者都源于模型参数中编码的强统计相关性。为了验证这一点,我们提出了一套新颖的分类法,将幻觉分为非相关性幻觉(UHs)(输出缺乏参数基础)和相关性幻觉(AHs)(由虚假关联驱动)。通过机制分析,我们将其计算过程和隐藏状态几何特性与事实正确输出进行比较。我们的结果表明,隐藏状态主要反映模型是否在回忆参数知识,而不是输出本身的真实性。因此,AHs的隐藏状态几何特性在很大程度上与事实输出重叠,使得标准检测方法失效。相比之下,UHs展现出独特的、聚类的表示,有利于可靠的检测。
查看缓存全文
缓存时间: 2026/04/20 08:31
# 大语言模型真的知道它们不知道什么吗?内部状态主要反映知识回忆而非真实性 来源: https://arxiv.org/html/2510.09033 Chi Seng Cheang1Hou Pong Chan2Wenxuan Zhang3Yang Deng1 1新加坡管理大学 2DAMO Academy, 阿里巴巴集团 3新加坡科技设计大学 [email protected], [email protected] [email protected], [email protected] ###### 摘要 最近的研究表明,大语言模型(LLMs)"知道它们不知道什么",声称幻觉和事实正确的输出来自不同的内部过程,因此可以使用内部信号进行区分。然而,幻觉有多方面的原因:除了简单的知识缺陷外,还可能源于鼓励模型利用统计快捷方式或预训练中学到的虚假关联的训练激励。在本论文中,我们主张当LLMs依赖这些学到的关联来产生幻觉时,它们的内部过程在机制上类似于事实回忆的过程,因为两者都源于编码在模型参数中的强统计相关性。为了验证这一点,我们提出了一个新的分类法,将幻觉分为无关联幻觉(UHs)(输出缺乏参数基础)和关联幻觉(AHs)(由虚假关联驱动)。通过机制分析,我们比较了它们的计算过程和隐藏状态几何与事实正确输出的对应特征。我们的结果表明,隐藏状态主要反映模型是否在回忆参数知识,而不是输出本身的真实性。因此,AHs的隐藏状态几何与事实输出大部分重叠,使得标准检测方法失效。相比之下,UHs展现出独特的聚类表示,便于可靠检测。 https://github.com/AndyCheang/knowledge-recall-vs-truthfulness ## 1 引言 **图1:** 三类知识的示意图。关联幻觉遵循与事实关联相似的内部知识回忆过程,而无关联幻觉则在模型的输出与输入脱离时出现。 大语言模型(LLMs)因产生幻觉而臭名昭著(Zhang et al., 2023b; Huang et al., 2025),其生成的输出看似可信但事实不正确。最近的研究表明,LLMs的内部状态包含与事实正确性相关的信号,可以使用内部表示进行幻觉检测,例如残差流(Azaria and Mitchell, 2023; Gottesman and Geva, 2024)、注意力权重(Yüksekgönül et al., 2024)和输出token对数(Orgad et al., 2025; Varshney et al., 2023a)。然而,由于LLMs没有被明确训练以表示真实性,这些信号是否真正反映真实性或仅仅捕捉其他混淆因素仍不清楚。理解这些信号实际编码的内容对于在真实应用中可靠部署LLMs至关重要。 在本工作中,我们主张这些内部信号主要反映模型回忆参数知识的内部过程,而不是真实性本身。因此,这些信号只有在幻觉和事实正确输出由不同内部机制产生时,才能可靠地检测幻觉。例如,如图1所示,给定提示"Brenda Johnston出生在城市",缺乏有关主题("Brenda Johnston")相关事实知识的模型可能会产生幻觉补全,如"波特兰"。相比之下,给定提示"Barack Obama在城市学习",模型可以利用有关主题("Barack Obama")的编码知识来产生事实正确的输出"芝加哥"。这两种情况可能由不同的内部机制支持:前者缺乏有关主题实体的知识,而后者依赖于与查询主题相关的编码知识。因此,内部表示可以反映模型如何处理主题实体的这种差异,使这两种情况能够被区分。 然而,幻觉并不总是源于知识缺失。当模型利用学到的统计快捷方式或虚假相关性(Lin et al., 2022b; Kang and Choi, 2023; Cheang et al., 2023)时,产生的幻觉可能通过类似于事实回忆的机制产生。例如,"Barack Obama"在模型预训练语料库中经常与"芝加哥"共现。模型可以利用这个统计关联来产生事实正确的输出(例如,"Barack Obama在城市芝加哥学习。"),但也可以利用相同的关联来产生幻觉响应(例如,"Barack Obama出生在城市芝加哥。")。在两种情况下,模型都依赖于涉及主题实体的相同编码统计关联。因此,产生的内部表示可能无法提供可靠的信号来区分幻觉输出和事实输出,限制了现有基于表示的幻觉检测方法的有效性。 基于这个观察,我们假设基于表示的幻觉检测的有效性取决于模型在产生响应时如何利用其参数知识,特别是生成的输出是否由涉及主题实体的学到的关联驱动。为了调查这个假设,我们超越仅通过事实正确性标记输出,而是通过因果干预根据输出与主题实体的关系进行分类。具体来说,我们将事实正确的输出标记为**事实关联(FAs)**。对于事实不正确的输出,我们进一步将其分类为**无关联幻觉(UHs)**(其输出与主题实体缺乏强学到的关联)和**关联幻觉(AHs)**(由涉及主题实体的强但虚假关联驱动)。使用这个分类法,我们对这些知识类别进行机制和经验分析,得出三个关键观察: 首先,**AHs和FAs共享高度相似的内部过程和表示几何**。基于Geva et al.(2023)的分析框架,我们通过追踪信息在推理过程中跨层和token位置的传播方式来检查模型预测的内部机制。我们观察到,由于AHs和FAs都由与主题的学到关联驱动,它们的隐藏状态表示在隐藏空间中重叠。相比之下,UHs不依赖这种主题关联,而是通过不同的内部过程生成,使它们在表示空间中更具可分离性。 其次,**现有幻觉检测方法难以区分AHs和FAs**。由于这些方法依赖于主要反映知识回忆过程而非真实性的内部状态,它们在AH样本上的性能显著下降(LLaMA的AUROC≈0.48–0.69)。然而,UHs因其更可分离的表示几何而被更可靠地检测(AUROC≈0.86–0.93)。 第三,**表示重叠限制了拒绝调优对AHs的有效性**。我们比较了两种设置下的调优有效性:(i)训练模型拒绝AHs,(ii)训练模型拒绝UHs。在两种设置中,模型都被训练以保持其对FAs的原始事实响应。因为UH表示与FAs的分离度更高,模型可以成功学到不同的生成行为,在UH样本上达到82%的拒绝率。相反,由于AH表示与FAs实质重叠,模型难以区分它们来学习拒绝行为,导致AH样本的拒绝率仅为33%。 ## 2 相关工作 现有幻觉检测方法可以广泛分为两类:**基于表示的**和**基于置信度的**。 **基于表示的方法**假设LLM的内部隐藏状态可以反映其生成响应的正确性。这些方法使用来自一组标记为正确/不正确响应的隐藏状态训练分类器(通常是线性探针),以预测新响应是否存在幻觉(Li et al., 2023; Azaria and Mitchell, 2023; Su et al., 2024; Ji et al., 2024; Chen et al., 2024; Ni et al., 2025; Xiao et al., 2025)。 **基于置信度的方法**相比之下,假设生成过程中的较低置信度导致较高的幻觉概率。这些方法通过各种信号量化不确定性,包括:(i)token级输出概率(Guerreiro et al., 2023; Varshney et al., 2023a; Orgad et al., 2025);(ii)直接查询LLM以表达其自身置信度(Lin et al., 2022a; Tian et al., 2023; Xiong et al., 2024; Yang et al., 2024b; Ni et al., 2024; Zhao et al., 2024);或(iii)测量从相同提示采样的多个输出之间的语义一致性(Manakul et al., 2023; Kuhn et al., 2023; Zhang et al., 2023a; Ding et al., 2024)。如果关联的置信度指标低于预定义阈值,响应通常被标记为幻觉。 然而,越来越多的工作揭示了一个关键限制:即使是最先进的LLMs也校准不良,意味着它们表达的置信度通常与其生成的事实准确性不一致(Kapoor et al., 2024; Xiong et al., 2024; Tian et al., 2023)。这种校准不当限制了基于置信度的检测器的有效性,并引发了一个根本性问题,即LLMs的自我意识程度如何,即它们是否能可靠地"知道它们不知道什么"(Yin et al., 2023; Li et al., 2025)。 尽管认识到这个问题,之前的工作没有提供其发生的机制解释。为此,我们的工作通过采用机制可解释性技术来追踪LLMs中底层知识回忆的内部计算,填补了这个解释性空白。 ## 3 数据集构建 在本节中,我们概述了两种条件下的数据集构建以进行机制和经验分析:幻觉在有和没有利用与主题实体相关的学到关联的情况下产生。 给定输入查询q、ground-truth答案y和模型的响应ŷ,幻觉检测方法的标准评估通常通过将ŷ与y进行比较来分配事实正确性标签。为了研究通过不同内部机制产生的幻觉,我们超越事实正确性:对于每个幻觉样本,我们执行因果干预以估计其对学到的主题关联的依赖程度,并相应地进行分类。 ### 3.1 数据收集 ##### 事实查询提示创建 我们专注于基于知识的问答设置,其中每个示例对应一个知识三元组(主题, 关系, 对象)(s, r, o)。为了构建事实查询提示,我们首先从维基数据(Wikidata)(Vrandecic and Krötzsch, 2014)收集知识三元组。然后,每个(s, r)对被使用对每个关系r的手工制作提示模板转换为填空式事实查询q。相应的对象o被视为ground-truth答案y。为了确保定义良好的评估设置,我们遵循Gekhman et al.(2025)并仅选择正确对象客观可验证的关系。关于关系选择和提示模板的详细信息在附录A.1中提供。 ##### 生成模型响应 对于每个查询,我们使用贪心解码提示LLMs生成响应ŷ。我们在两个广泛采用的开源LLMs上进行实验:LLaMA-3(Dubey et al., 2024)和Mistral-v0.3(Jiang et al., 2023)。由于篇幅限制,完整的实现细节在附录A.2中提供。 ### 3.2 知识分类 我们根据两个标准对每个响应进行分类:(1)**事实正确性**和(2)**对主题表示的依赖性**。每个样本随后分类为以下类别之一: - **事实关联(FA)** 指可靠地存储在LLM参数或内部状态中的事实知识,可以被回忆以产生正确、可验证的输出。 - **关联幻觉(AH)** 指当LLM依赖输入触发的参数关联时产生的非事实内容。 - **无关联幻觉(UH)** 指在不依赖参数关联于输入的情况下产生的非事实内容。 **图2:** LLaMA-3-8B各层干预的效果。热力图显示干预前后输出分布之间的JS散度。颜色越深表示干预的隐藏状态对模型预测的因果影响越大。上行:主题token的修补表示。中行:阻止从主题到最后token的注意力流。下行:最后token的修补表示。 ### 3.3 标记程序 我们详细说明标记程序如下:
相似文章
理解LLM中新知识诱导的事实幻觉:分析与解释
本论文探究了在新知识上微调LLM如何诱导事实幻觉,研究表明特定知识类型内的陌生性通过削弱对关键实体的注意力来驱动幻觉。作者提议通过在后期训练阶段重新引入已知知识来缓解这一问题。
LLMs为何在结构化知识上产生幻觉:对线性化表示推理的机制分析
本文对LLMs在推理线性化结构化知识时产生幻觉的原因进行了机制分析,发现幻觉源于系统的内部动态,例如对捷径线索的关注以及前馈层中语义基础的失败,而非随机噪声。
LLMs 能内省吗?现实检验
本文认为,近期关于LLMs内省能力的说法并不成立,因为仅凭行为证据无法区分真正的内省与基于表面线索的模式匹配。作者重新审视了两种评估范式,发现模型依赖于输入层特征,而非真正访问内部状态。
基准是否低估了 LLM 的性能?采用以大语言模型为先、人工仲裁的评估方法评估幻觉检测
本文通过采用以大语言模型为先、人工仲裁的评估方法重新评估幻觉检测数据集,研究了标准基准是否低估了大语言模型(LLM)的性能。研究发现,在仲裁过程中融入大语言模型的推理能力可以提高评估的一致性,并表明针对容易产生歧义的任务,采用模型辅助的重新评估能产生更可靠的基准。
PARALLAX: 区分真实幻觉检测与基准构建伪影
本文揭示了LLM幻觉检测领域报道的许多进展实际上源于基准构建伪影,其中真实答案被嵌入到提示中,使得简单的文本相似度基线方法能够获得近乎完美的分数。通过大规模受控评估,作者证明,在适当控制下,大多数方法的表现接近随机水平,除了对上层隐藏状态的监督探针(如SAPLMA)以及他们提出的DRIFT。