伪造引文在哪里产生:将字段级幻觉追溯到 LLM 中的特定神经元

arXiv cs.CL 论文

摘要

罗格斯大学研究人员将 LLM 中的引文幻觉追溯到稀疏的字段特异性神经元,并通过因果干预抑制虚假引用。

arXiv:2604.18880v1 公告类型:new 摘要:LLM 经常生成虚构却令人信服的引文,即使底层参考文献错误,也常表现出高度自信。我们在 9 个模型和 108,000 条生成参考文献中研究这一失效现象,发现作者姓名在所有模型和设置中失败率远高于其他字段。引文样式没有可测影响,而面向推理的蒸馏会降低召回率。在一个字段上训练的探针迁移到其他字段时准确率接近随机,表明幻觉信号无法跨字段泛化。基于此,我们对 Qwen2.5-32B-Instruct 的神经元级 CETT 值应用弹性网络正则化与稳定性选择,识别出一组稀疏的字段特异性幻觉神经元(FH-neurons)。因果干预进一步验证其作用:放大这些神经元会增加幻觉,抑制它们则能提升各字段性能,并在某些字段带来更大增益。结果表明,仅利用模型内部信号即可轻量级检测并缓解引文幻觉。
查看原文
查看缓存全文

缓存时间: 2026/04/22 08:29

# 假引用从何而来:将字段级幻觉追溯到 LLM 中的特定神经元  
来源:https://arxiv.org/html/2604.18880  
Yihao Quan 罗格斯大学  
Xiaodong Lin 罗格斯大学  
Ruixiang Tang(通讯作者:[email protected]) 罗格斯大学  

## 摘要  
大语言模型经常生成虚构却看似可信的引用,即使底层参考文献完全错误,也表现出极高的自信。我们在 9 个模型、10.8 万条生成引用上研究了这一失效现象,发现所有模型与设置下,作者姓名字段的错误率远高于其他字段。引用格式对幻觉率无显著影响,而面向推理的蒸馏会削弱召回能力。针对某一字段训练的探针在其余字段上的迁移准确率接近随机,表明不同字段的幻觉信号并不通用。基于该发现,我们对 Qwen2.5-32B-Instruct 的神经元级 CETT 值施加弹性网络正则化与稳定性选择,识别出一组稀疏的字段特异幻觉神经元(FH-neurons)。因果干预进一步验证其作用:放大这些神经元会加剧幻觉,抑制它们则能提升各字段准确率,且部分字段改善更显著。结果表明,仅凭模型内部信号即可轻量级检测并缓解引用幻觉。

## 1 引言  
图 1:LLM 引用幻觉概览。给定主题,模型生成看似合理但元数据错误的参考文献。我们围绕三个研究问题展开:幻觉的普遍程度、如何在模型表示中编码、以及定向神经元干预能否降低错误。  

大语言模型越来越多地被用于撰写相关工作与参考文献,但若仅依赖参数记忆,它们无法区分“自信回忆”与“自信编造”。这导致一种反复出现的模式:初看正确却含有一处或多处书目字段错误的引用。该问题已出现在近期工作中:对 NeurIPS 2025 录用论文的审计发现 100 多条幻觉引用逃过了同行评审。以往研究多聚焦检测或规避幻觉,而未显式建模其成因。例如,事后验证流水线可发现错误引用,但每条引用需多次 API 调用,且作为黑箱检查无法揭示错误根源。检索增强生成通过外部文档降低幻觉,却未触及幻觉产生的内部机制。因此,引用幻觉究竟源于模型何处、能否仅凭内部信号检测并修正,仍不清楚。该问题对引用尤为重要:一条参考文献是作者、标题、会议、年份、DOI 等独立字段的结构化组合。已有可解释性研究表明,LLM 隐藏状态中的“真伪”信号可用简单探针恢复,且激活层面干预可引导模型趋向真实。在神经元层面,前人已识别出与幻觉相关的神经元,抑制它们可降低事实问答错误率;另有研究发现真伪探针跨数据集迁移性弱,提示内部信号随设置而异。这些发现凸显在结构化引用场景研究幻觉的重要性——单条引用含多个相互依赖的字段,每个字段可能因不同原因出错。然而,面向通用事实问答的工具无法直接用于这种多字段结构化场景。为此,我们围绕三个研究问题展开分析(图 1):  

- 不同字段的引用幻觉普遍程度如何?我们构建大规模数据集:在 50 个主题、8 种引用格式下,提示多个模型生成引用,并逐字段与 OpenAlex 元数据比对。发现跨模型、跨设置下字段错误率排序一致,作者字段最难,其次为会议、标题、年份。  
- 幻觉是否在字段特异表示中编码?我们在 Qwen2.5-32B-Instruct 隐藏状态上训练线性探针,发现不同字段呈现不同层间模式;某字段探针在其余字段上准确率接近随机,表明模型内部对不同字段的错误有不同编码。  
- 定向神经元干预能否降低字段级错误?我们对神经元级 CETT 贡献施加弹性网络正则化与稳定性选择,识别出少量字段特异幻觉神经元(FH-neurons)。放大它们会加剧幻觉,抑制它们则提升准确率,且随机消融无此效果,提供因果证据表明特定神经元导致字段级引用错误。  

综上,引用幻觉可从内部信号检测,不同书目字段遵循不同模式,且可通过定向抑制神经元部分缓解,无需外部检索。

表 1:不同模型与每条提示引用数 N 的字段级验证准确率。

## 2 引用幻觉实证分析  

### 2.1 数据收集  
我们提示一组大语言模型,在仅依赖参数记忆的前提下,为 50 个计算机科学主题(含机器学习、NLP、系统、安全、理论,完整列表见附录 C)生成学术引用。每个主题下,模型在 8 种引用格式(APA、MLA、Chicago、Harvard、Vancouver、IEEE、ACM、AMA)中生成 N∈{5,10,15} 条引用,以考察格式与数量对幻觉率的影响。每模型共约 1.2 万条引用。输出通过 JSON 模式约束为五字段:title、authors、venue、year、doi,每条引用独立验证与标注。

### 2.2 验证流程  
首先通过 OpenAlex 公共 REST API 逐条验证。若生成 DOI,则直接以归一化 DOI 查询;否则以标题检索前 10 候选,再按标题相似度、第一作者重叠、年份接近度选最佳匹配,为每字段打二元标签,并给出整体 Supported/Partial/Unsupported 判决。对模糊案例(如 arXiv 预印本与正式出版版本差异,或尚未被 OpenAlex 收录),引入第二阶段:用可联网搜索的 GPT-5.4-mini 再次核实。该验证器基于检索而非参数记忆,避免与待测模型重叠。两名专家独立抽查 200 条,与自动判决一致率 93%,表明流程可靠。

### 2.3 模型与生成因素  
我们比较:  
1) Qwen2.5-14B-Instruct vs. Qwen2.5-32B-Instruct,看同系列规模效应;  
2) Qwen2.5-32B-Instruct vs. Qwen3-30B-Instruct,看版本差异;  
3) Qwen3-30B-Base vs. 其 Instruct 版,看对齐训练影响;  
4) 每条提示引用数 N∈{5,10,15},看一次召回更多条目是否加剧幻觉。

### 2.4 结果:幻觉率与模式  
表 1 报告各模型、各数量的字段准确率。即使最强模型也有显著错误,作者与 DOI 字段正确率最低。  

**字段级分析**  
表 1 与图 2 显示稳定的字段难度排序:作者字段远最难(N=15 时正确率<14%),标题与年份在 27–41% 之间,会议略低。DOI 最依赖模型:Qwen2.5-32B-Instruct 达 53.5%,其余模型仅 17–30%。至关重要的是,该排序与引用格式无关(双因素方差分析,字段主效应 p<0.001,格式与交互 p>0.05,见附录 A)。  

**模型级分析**  
图 4(a) 对比 Qwen3-30B-A3B-Instruct(MoE,每 token 3B 活跃)、Qwen2.5-14B-Instruct(稠密 14B)、Qwen2.5-32B-Instruct(稠密 32B)。MoE 在标题、年份、会议上与 14B 稠密相当或略优,但 32B 稠密显著领先,DOI 与会议提升最大;然而作者准确率仍<14%,表明规模与 MoE 均无法解决最难召回任务。Moonlight-16B-A3B-Instruct 与 Mistral-Small-24B-Instruct-2501 亦遵循同层次序。三款 DeepSeek-R1-Distill 变体表明,面向推理的蒸馏削弱引用召回:DeepSeek-R1-Distill-Qwen2.5-14B 在 N=15 时总准确率仅 0.4%,远低于未蒸馏版;DeepSeek-R1-Distill-Qwen2.5-32B 在各字段亦落后,DOI 差距最大,表明链式思维蒸馏以牺牲事实记忆为代价换取推理结构。

图 3:按引用格式与字段的幻觉率。作者幻觉率在所有格式下均最高,格式本身几乎无影响。  
图 4:N=15 时模型级对比。(a) Qwen2.5-32B-Instruct 全字段领先。(b) 指令微调在各字段差异极小。  

## 3 字段级幻觉探针  
前述分析证实引用幻觉普遍且作者字段最易出错。这引出一个更深问题:幻觉仅发生在解码表层,还是模型在内部表示中早已“决定”错误?若是后者,应能在输出任何 token 前从隐藏状态“读出”幻觉。我们聚焦 Qwen2.5-32B-Instruct 进行探针与神经元定位分析,因它是表 1 中最强生成器且权重开放。

相似文章

理解LLM中新知识诱导的事实幻觉:分析与解释

arXiv cs.CL

本论文探究了在新知识上微调LLM如何诱导事实幻觉,研究表明特定知识类型内的陌生性通过削弱对关键实体的注意力来驱动幻觉。作者提议通过在后期训练阶段重新引入已知知识来缓解这一问题。

PARALLAX: 区分真实幻觉检测与基准构建伪影

arXiv cs.CL

本文揭示了LLM幻觉检测领域报道的许多进展实际上源于基准构建伪影,其中真实答案被嵌入到提示中,使得简单的文本相似度基线方法能够获得近乎完美的分数。通过大规模受控评估,作者证明,在适当控制下,大多数方法的表现接近随机水平,除了对上层隐藏状态的监督探针(如SAPLMA)以及他们提出的DRIFT。