伪造引文在哪里产生：将字段级幻觉追溯到 LLM 中的特定神经元

arXiv cs.CL 2026/04/22 04:00 论文

摘要

罗格斯大学研究人员将 LLM 中的引文幻觉追溯到稀疏的字段特异性神经元，并通过因果干预抑制虚假引用。

arXiv:2604.18880v1 公告类型：new 摘要：LLM 经常生成虚构却令人信服的引文，即使底层参考文献错误，也常表现出高度自信。我们在 9 个模型和 108,000 条生成参考文献中研究这一失效现象，发现作者姓名在所有模型和设置中失败率远高于其他字段。引文样式没有可测影响，而面向推理的蒸馏会降低召回率。在一个字段上训练的探针迁移到其他字段时准确率接近随机，表明幻觉信号无法跨字段泛化。基于此，我们对 Qwen2.5-32B-Instruct 的神经元级 CETT 值应用弹性网络正则化与稳定性选择，识别出一组稀疏的字段特异性幻觉神经元（FH-neurons）。因果干预进一步验证其作用：放大这些神经元会增加幻觉，抑制它们则能提升各字段性能，并在某些字段带来更大增益。结果表明，仅利用模型内部信号即可轻量级检测并缓解引文幻觉。

查看原文

查看缓存全文

缓存时间: 2026/04/22 08:29

# 假引用从何而来：将字段级幻觉追溯到 LLM 中的特定神经元  
来源：https://arxiv.org/html/2604.18880  
Yihao Quan　罗格斯大学  
Xiaodong Lin　罗格斯大学  
Ruixiang Tang（通讯作者：[email protected]）　罗格斯大学  

## 摘要  
大语言模型经常生成虚构却看似可信的引用，即使底层参考文献完全错误，也表现出极高的自信。我们在 9 个模型、10.8 万条生成引用上研究了这一失效现象，发现所有模型与设置下，作者姓名字段的错误率远高于其他字段。引用格式对幻觉率无显著影响，而面向推理的蒸馏会削弱召回能力。针对某一字段训练的探针在其余字段上的迁移准确率接近随机，表明不同字段的幻觉信号并不通用。基于该发现，我们对 Qwen2.5-32B-Instruct 的神经元级 CETT 值施加弹性网络正则化与稳定性选择，识别出一组稀疏的字段特异幻觉神经元（FH-neurons）。因果干预进一步验证其作用：放大这些神经元会加剧幻觉，抑制它们则能提升各字段准确率，且部分字段改善更显著。结果表明，仅凭模型内部信号即可轻量级检测并缓解引用幻觉。

## 1 引言  
图 1：LLM 引用幻觉概览。给定主题，模型生成看似合理但元数据错误的参考文献。我们围绕三个研究问题展开：幻觉的普遍程度、如何在模型表示中编码、以及定向神经元干预能否降低错误。  

大语言模型越来越多地被用于撰写相关工作与参考文献，但若仅依赖参数记忆，它们无法区分“自信回忆”与“自信编造”。这导致一种反复出现的模式：初看正确却含有一处或多处书目字段错误的引用。该问题已出现在近期工作中：对 NeurIPS 2025 录用论文的审计发现 100 多条幻觉引用逃过了同行评审。以往研究多聚焦检测或规避幻觉，而未显式建模其成因。例如，事后验证流水线可发现错误引用，但每条引用需多次 API 调用，且作为黑箱检查无法揭示错误根源。检索增强生成通过外部文档降低幻觉，却未触及幻觉产生的内部机制。因此，引用幻觉究竟源于模型何处、能否仅凭内部信号检测并修正，仍不清楚。该问题对引用尤为重要：一条参考文献是作者、标题、会议、年份、DOI 等独立字段的结构化组合。已有可解释性研究表明，LLM 隐藏状态中的“真伪”信号可用简单探针恢复，且激活层面干预可引导模型趋向真实。在神经元层面，前人已识别出与幻觉相关的神经元，抑制它们可降低事实问答错误率；另有研究发现真伪探针跨数据集迁移性弱，提示内部信号随设置而异。这些发现凸显在结构化引用场景研究幻觉的重要性——单条引用含多个相互依赖的字段，每个字段可能因不同原因出错。然而，面向通用事实问答的工具无法直接用于这种多字段结构化场景。为此，我们围绕三个研究问题展开分析（图 1）：  

- 不同字段的引用幻觉普遍程度如何？我们构建大规模数据集：在 50 个主题、8 种引用格式下，提示多个模型生成引用，并逐字段与 OpenAlex 元数据比对。发现跨模型、跨设置下字段错误率排序一致，作者字段最难，其次为会议、标题、年份。  
- 幻觉是否在字段特异表示中编码？我们在 Qwen2.5-32B-Instruct 隐藏状态上训练线性探针，发现不同字段呈现不同层间模式；某字段探针在其余字段上准确率接近随机，表明模型内部对不同字段的错误有不同编码。  
- 定向神经元干预能否降低字段级错误？我们对神经元级 CETT 贡献施加弹性网络正则化与稳定性选择，识别出少量字段特异幻觉神经元（FH-neurons）。放大它们会加剧幻觉，抑制它们则提升准确率，且随机消融无此效果，提供因果证据表明特定神经元导致字段级引用错误。  

综上，引用幻觉可从内部信号检测，不同书目字段遵循不同模式，且可通过定向抑制神经元部分缓解，无需外部检索。

表 1：不同模型与每条提示引用数 N 的字段级验证准确率。

## 2 引用幻觉实证分析  

### 2.1 数据收集  
我们提示一组大语言模型，在仅依赖参数记忆的前提下，为 50 个计算机科学主题（含机器学习、NLP、系统、安全、理论，完整列表见附录 C）生成学术引用。每个主题下，模型在 8 种引用格式（APA、MLA、Chicago、Harvard、Vancouver、IEEE、ACM、AMA）中生成 N∈{5,10,15} 条引用，以考察格式与数量对幻觉率的影响。每模型共约 1.2 万条引用。输出通过 JSON 模式约束为五字段：title、authors、venue、year、doi，每条引用独立验证与标注。

### 2.2 验证流程  
首先通过 OpenAlex 公共 REST API 逐条验证。若生成 DOI，则直接以归一化 DOI 查询；否则以标题检索前 10 候选，再按标题相似度、第一作者重叠、年份接近度选最佳匹配，为每字段打二元标签，并给出整体 Supported/Partial/Unsupported 判决。对模糊案例（如 arXiv 预印本与正式出版版本差异，或尚未被 OpenAlex 收录），引入第二阶段：用可联网搜索的 GPT-5.4-mini 再次核实。该验证器基于检索而非参数记忆，避免与待测模型重叠。两名专家独立抽查 200 条，与自动判决一致率 93%，表明流程可靠。

### 2.3 模型与生成因素  
我们比较：  
1) Qwen2.5-14B-Instruct vs. Qwen2.5-32B-Instruct，看同系列规模效应；  
2) Qwen2.5-32B-Instruct vs. Qwen3-30B-Instruct，看版本差异；  
3) Qwen3-30B-Base vs. 其 Instruct 版，看对齐训练影响；  
4) 每条提示引用数 N∈{5,10,15}，看一次召回更多条目是否加剧幻觉。

### 2.4 结果：幻觉率与模式  
表 1 报告各模型、各数量的字段准确率。即使最强模型也有显著错误，作者与 DOI 字段正确率最低。  

**字段级分析**  
表 1 与图 2 显示稳定的字段难度排序：作者字段远最难（N=15 时正确率<14%），标题与年份在 27–41% 之间，会议略低。DOI 最依赖模型：Qwen2.5-32B-Instruct 达 53.5%，其余模型仅 17–30%。至关重要的是，该排序与引用格式无关（双因素方差分析，字段主效应 p<0.001，格式与交互 p>0.05，见附录 A）。  

**模型级分析**  
图 4(a) 对比 Qwen3-30B-A3B-Instruct（MoE，每 token 3B 活跃）、Qwen2.5-14B-Instruct（稠密 14B）、Qwen2.5-32B-Instruct（稠密 32B）。MoE 在标题、年份、会议上与 14B 稠密相当或略优，但 32B 稠密显著领先，DOI 与会议提升最大；然而作者准确率仍<14%，表明规模与 MoE 均无法解决最难召回任务。Moonlight-16B-A3B-Instruct 与 Mistral-Small-24B-Instruct-2501 亦遵循同层次序。三款 DeepSeek-R1-Distill 变体表明，面向推理的蒸馏削弱引用召回：DeepSeek-R1-Distill-Qwen2.5-14B 在 N=15 时总准确率仅 0.4%，远低于未蒸馏版；DeepSeek-R1-Distill-Qwen2.5-32B 在各字段亦落后，DOI 差距最大，表明链式思维蒸馏以牺牲事实记忆为代价换取推理结构。

图 3：按引用格式与字段的幻觉率。作者幻觉率在所有格式下均最高，格式本身几乎无影响。  
图 4：N=15 时模型级对比。(a) Qwen2.5-32B-Instruct 全字段领先。(b) 指令微调在各字段差异极小。  

## 3 字段级幻觉探针  
前述分析证实引用幻觉普遍且作者字段最易出错。这引出一个更深问题：幻觉仅发生在解码表层，还是模型在内部表示中早已“决定”错误？若是后者，应能在输出任何 token 前从隐藏状态“读出”幻觉。我们聚焦 Qwen2.5-32B-Instruct 进行探针与神经元定位分析，因它是表 1 中最强生成器且权重开放。

伪造引文在哪里产生：将字段级幻觉追溯到 LLM 中的特定神经元

相似文章

有源可查，否则未曾发生：一种用于检测引用幻觉的多智能体框架

理解LLM中新知识诱导的事实幻觉：分析与解释

幻觉神经元是否通用？LLM跨领域迁移证据

LLMs为何在结构化知识上产生幻觉：对线性化表示推理的机制分析

PARALLAX: 区分真实幻觉检测与基准构建伪影

提交意见反馈