幻觉神经元是否通用？LLM跨领域迁移证据

arXiv cs.CL 2026/04/23 04:00 论文

摘要

独立研究者发现，大模型中稀疏的“幻觉神经元”无法跨领域迁移，AUROC从0.783降至0.563，表明幻觉具有领域特异性，而非通用神经特征。

arXiv:2604.19765v1 公告类型：new 摘要：近期研究识别出一组稀疏的“幻觉神经元”（H-neurons），占前馈网络神经元不到0.1%，能可靠预测大语言模型何时产生幻觉。这些神经元在通用知识问答任务上被识别，并可在新评估实例中泛化。我们提出一个自然的后续问题：H-neurons能否跨知识领域泛化？通过系统性的跨领域迁移协议，涵盖6个领域（通用问答、法律、金融、科学、道德推理、代码漏洞）和5个开源模型（3B到8B参数），我们发现它们无法泛化。基于某一领域H-neurons训练的分类器，在领域内AUROC达0.783，但迁移到另一领域时仅0.563（下降0.220，p < 0.001），在所有被测模型中均一致下降。结果表明，幻觉并非单一机制伴随通用神经特征，而是涉及随查询知识类型而异的领域特异性神经元群体。该发现对神经元级幻觉检测器的部署具有直接影响：必须按领域校准，而非一次性训练后通用。

查看原文

查看缓存全文

缓存时间: 2026/04/23 10:02

# 幻觉神经元是否通用？来自大语言模型跨领域迁移的证据  
来源：https://arxiv.org/html/2604.19765  
Snehit Vaddi 独立研究者 [email protected]  
Pujith Vaddi 独立研究者 [email protected]  

###### 摘要  
近期研究指出，存在极少数（<0.1%）前馈网络神经元——“幻觉神经元”(H-neurons)——能够可靠预测大模型何时产生幻觉。这些神经元在通用知识问答中被发现，并能在同类新样本上泛化。我们追问：H-neurons能否跨*知识领域*迁移？在6个领域（通用 QA、法律、金融、科学、道德推理、代码漏洞）和5个3B–8B开源模型上，采用系统跨域迁移协议，我们发现它们*不能*。用某一领域H-neurons训练的分类器，域内AUROC达0.783，但跨域仅0.563（Δ=0.220，p<0.001），且在所有模型上均如此。结果表明，幻觉并非单一机制，也不存在通用神经信号，而是依赖知识类型的领域特化神经元群体。该发现直接影响幻觉神经元级检测器的部署：必须逐领域校准，而非一次性训练后通用。  

## 1 引言  
大语言模型会*幻觉*：生成流畅自信却事实错误、逻辑矛盾或毫无训练依据的文本（Ji et al., 2023；Huang et al., 2023；Rawte et al., 2023）。随着LLM被用于法律分析（Guha et al., 2024）、金融推理（Chen et al., 2024）、医疗决策（Pal et al., 2024）等高风险场景，检测并缓解幻觉成为核心挑战。  

一条前景可期的机制可解释性研究开始把幻觉定位到模型内部。Gao et al. (2025) 发现“H-neurons”：不到0.1%的前馈网络神经元，其激活模式可可靠预测模型是否将产生幻觉。他们使用CETT指标训练轻量分类器，在神经元激活特征上取得强检测性能，并通过激活缩放实验证明这些神经元与幻觉行为存在因果关联，且相关特性在预训练早期就已出现。  

这项研究引出一个尚未系统回答的问题：在一类知识领域发现的H-neurons，能否迁移到*其他领域*？原文仅在TriviaQA（通用知识问答）上识别H-neurons，并在相关QA基准上验证，从未跨根本不同的知识领域训练与测试。若H-neurons编码的是通用“幻觉信号”（与领域无关的不确定或捏造特征），则在通用QA上训练的分类器也应能检测法律、金融、科学等语境中的幻觉；反之，若幻觉依赖领域特化神经通路，则跨域迁移应当失败。  

这一区分关乎落地。当前实践默认可在方便基准上开发幻觉检测方法并广泛复用。若H-neurons具有领域特异性，则该假设不成立，从业者需为每个领域单独建设检测基础设施，成本大幅上升。  

本文首次对幻觉神经元进行系统跨域迁移分析。我们在6个知识领域、5个3B–8B开源模型上完成研究，为每个模型生成完整的6×6跨域迁移矩阵。主要贡献：  

1. H-neurons跨域迁移协议。在6个领域分别训练H-neurons分类器，并在所有领域两两测试，共180对训练–测试组合，横跨5个模型。首次系统量化神经元级幻觉检测器的领域可迁移性。  
2. 领域特化幻觉通路的证据。域内检测AUROC=0.783，跨域仅0.563，Δ=0.220（p<0.001），且在所有模型上一致，表明不同知识领域激活的幻觉相关神经元群体根本不同。  
3. 领域与模型因素分析。刻画哪些领域对存在部分迁移（提示共享神经基底），哪些完全不可迁移，并考察模型架构与规模如何调节领域特异性程度。  

我们的发现把幻觉重新定义为“受领域条件约束的过程家族”，而非“具有通用神经签名单一机制”。其影响超出检测：针对H-neurons的干预（如激活抑制、微调）也需领域特化，且在大模型内部寻找“通用幻觉特征”可能从根本上就是误区。  

## 2 相关工作  

### 2.1 幻觉检测方法  
输出法仅依赖生成文本，如SelfCheckGPT通过多次采样一致性检测幻觉，模型无关但计算开销大。不确定度法利用模型自身置信度，如语义熵、SEPs、CLAP等，高效但仍基于聚合表征。激活空间法如HaloScope、TSV在表征几何中寻找“真值子空间”，但未跨领域测试。本文*首次*在*单神经元*层面系统检验跨域迁移。  

### 2.2 机制可解释性与神经元分析  
“知识神经元”研究表明特定神经元抑制可阻断特定事实回忆。H-neurons将类似思路拓展至幻觉，并证明因果作用。LLM-CAS通过动态扰动实现实时纠正。其他工作发现不同类型知识、社会价值亦由不同神经元群体编码。SAE可将多语义神经元拆分为可解释单语义特征，但尚未测试跨域。本文检验H-neurons的功能特化是否止步于领域边界。  

### 2.3 领域特化幻觉评估  
MedHallu、FinanceBench、CodeHalu、LegalBench等行为学基准显示各领域幻觉模式不同，但未探究其*内部机制*差异。本文首次把行为差异与神经元机制联系起来。  

### 2.4 思维链与幻觉  
CoT提升推理却可能不忠实，且会稀释幻觉信号，使检测器性能下降。Cheng et al. (2025) 在行为层面验证，本文进一步检验CoT是否改变*神经元级*幻觉签名及其是否随领域变化。  

## 3 方法  
图1给出实验流程概览。我们先介绍H-neurons识别流程（3.1），再详述实验设置（3.2）、跨域迁移协议（3.3）与鲁棒性分析（3.4）。

幻觉神经元是否通用？LLM跨领域迁移证据

相似文章

大语言模型真的知道自己不知道什么吗？内部状态主要反映知识回忆而非真实性

理解LLM中新知识诱导的事实幻觉：分析与解释

重访最大池化网络：分析语义概率在幻觉检测多重实例学习中的作用

伪造引文在哪里产生：将字段级幻觉追溯到 LLM 中的特定神经元

LLMs为何在结构化知识上产生幻觉：对线性化表示推理的机制分析

提交意见反馈