幻觉神经元是否通用?LLM跨领域迁移证据
摘要
独立研究者发现,大模型中稀疏的“幻觉神经元”无法跨领域迁移,AUROC从0.783降至0.563,表明幻觉具有领域特异性,而非通用神经特征。
arXiv:2604.19765v1 公告类型:new
摘要:近期研究识别出一组稀疏的“幻觉神经元”(H-neurons),占前馈网络神经元不到0.1%,能可靠预测大语言模型何时产生幻觉。这些神经元在通用知识问答任务上被识别,并可在新评估实例中泛化。我们提出一个自然的后续问题:H-neurons能否跨知识领域泛化?通过系统性的跨领域迁移协议,涵盖6个领域(通用问答、法律、金融、科学、道德推理、代码漏洞)和5个开源模型(3B到8B参数),我们发现它们无法泛化。基于某一领域H-neurons训练的分类器,在领域内AUROC达0.783,但迁移到另一领域时仅0.563(下降0.220,p < 0.001),在所有被测模型中均一致下降。结果表明,幻觉并非单一机制伴随通用神经特征,而是涉及随查询知识类型而异的领域特异性神经元群体。该发现对神经元级幻觉检测器的部署具有直接影响:必须按领域校准,而非一次性训练后通用。
查看缓存全文
缓存时间: 2026/04/23 10:02
# 幻觉神经元是否通用?来自大语言模型跨领域迁移的证据 来源:https://arxiv.org/html/2604.19765 Snehit Vaddi 独立研究者 [email protected] Pujith Vaddi 独立研究者 [email protected] ###### 摘要 近期研究指出,存在极少数(<0.1%)前馈网络神经元——“幻觉神经元”(H-neurons)——能够可靠预测大模型何时产生幻觉。这些神经元在通用知识问答中被发现,并能在同类新样本上泛化。我们追问:H-neurons能否跨*知识领域*迁移?在6个领域(通用 QA、法律、金融、科学、道德推理、代码漏洞)和5个3B–8B开源模型上,采用系统跨域迁移协议,我们发现它们*不能*。用某一领域H-neurons训练的分类器,域内AUROC达0.783,但跨域仅0.563(Δ=0.220,p<0.001),且在所有模型上均如此。结果表明,幻觉并非单一机制,也不存在通用神经信号,而是依赖知识类型的领域特化神经元群体。该发现直接影响幻觉神经元级检测器的部署:必须逐领域校准,而非一次性训练后通用。 ## 1 引言 大语言模型会*幻觉*:生成流畅自信却事实错误、逻辑矛盾或毫无训练依据的文本(Ji et al., 2023;Huang et al., 2023;Rawte et al., 2023)。随着LLM被用于法律分析(Guha et al., 2024)、金融推理(Chen et al., 2024)、医疗决策(Pal et al., 2024)等高风险场景,检测并缓解幻觉成为核心挑战。 一条前景可期的机制可解释性研究开始把幻觉定位到模型内部。Gao et al. (2025) 发现“H-neurons”:不到0.1%的前馈网络神经元,其激活模式可可靠预测模型是否将产生幻觉。他们使用CETT指标训练轻量分类器,在神经元激活特征上取得强检测性能,并通过激活缩放实验证明这些神经元与幻觉行为存在因果关联,且相关特性在预训练早期就已出现。 这项研究引出一个尚未系统回答的问题:在一类知识领域发现的H-neurons,能否迁移到*其他领域*?原文仅在TriviaQA(通用知识问答)上识别H-neurons,并在相关QA基准上验证,从未跨根本不同的知识领域训练与测试。若H-neurons编码的是通用“幻觉信号”(与领域无关的不确定或捏造特征),则在通用QA上训练的分类器也应能检测法律、金融、科学等语境中的幻觉;反之,若幻觉依赖领域特化神经通路,则跨域迁移应当失败。 这一区分关乎落地。当前实践默认可在方便基准上开发幻觉检测方法并广泛复用。若H-neurons具有领域特异性,则该假设不成立,从业者需为每个领域单独建设检测基础设施,成本大幅上升。 本文首次对幻觉神经元进行系统跨域迁移分析。我们在6个知识领域、5个3B–8B开源模型上完成研究,为每个模型生成完整的6×6跨域迁移矩阵。主要贡献: 1. H-neurons跨域迁移协议。在6个领域分别训练H-neurons分类器,并在所有领域两两测试,共180对训练–测试组合,横跨5个模型。首次系统量化神经元级幻觉检测器的领域可迁移性。 2. 领域特化幻觉通路的证据。域内检测AUROC=0.783,跨域仅0.563,Δ=0.220(p<0.001),且在所有模型上一致,表明不同知识领域激活的幻觉相关神经元群体根本不同。 3. 领域与模型因素分析。刻画哪些领域对存在部分迁移(提示共享神经基底),哪些完全不可迁移,并考察模型架构与规模如何调节领域特异性程度。 我们的发现把幻觉重新定义为“受领域条件约束的过程家族”,而非“具有通用神经签名单一机制”。其影响超出检测:针对H-neurons的干预(如激活抑制、微调)也需领域特化,且在大模型内部寻找“通用幻觉特征”可能从根本上就是误区。 ## 2 相关工作 ### 2.1 幻觉检测方法 输出法仅依赖生成文本,如SelfCheckGPT通过多次采样一致性检测幻觉,模型无关但计算开销大。不确定度法利用模型自身置信度,如语义熵、SEPs、CLAP等,高效但仍基于聚合表征。激活空间法如HaloScope、TSV在表征几何中寻找“真值子空间”,但未跨领域测试。本文*首次*在*单神经元*层面系统检验跨域迁移。 ### 2.2 机制可解释性与神经元分析 “知识神经元”研究表明特定神经元抑制可阻断特定事实回忆。H-neurons将类似思路拓展至幻觉,并证明因果作用。LLM-CAS通过动态扰动实现实时纠正。其他工作发现不同类型知识、社会价值亦由不同神经元群体编码。SAE可将多语义神经元拆分为可解释单语义特征,但尚未测试跨域。本文检验H-neurons的功能特化是否止步于领域边界。 ### 2.3 领域特化幻觉评估 MedHallu、FinanceBench、CodeHalu、LegalBench等行为学基准显示各领域幻觉模式不同,但未探究其*内部机制*差异。本文首次把行为差异与神经元机制联系起来。 ### 2.4 思维链与幻觉 CoT提升推理却可能不忠实,且会稀释幻觉信号,使检测器性能下降。Cheng et al. (2025) 在行为层面验证,本文进一步检验CoT是否改变*神经元级*幻觉签名及其是否随领域变化。 ## 3 方法 图1给出实验流程概览。我们先介绍H-neurons识别流程(3.1),再详述实验设置(3.2)、跨域迁移协议(3.3)与鲁棒性分析(3.4)。
相似文章
大语言模型真的知道自己不知道什么吗?内部状态主要反映知识回忆而非真实性
本文质疑了大语言模型能够通过内部信号可靠区分幻觉输出和事实输出的假设,论证内部状态主要反映知识回忆而非真实性。作者提出了一套幻觉分类法(相关性幻觉与非相关性幻觉),并证明相关性幻觉的隐藏状态几何特性与事实输出重叠,使得标准检测方法失效。
理解LLM中新知识诱导的事实幻觉:分析与解释
本论文探究了在新知识上微调LLM如何诱导事实幻觉,研究表明特定知识类型内的陌生性通过削弱对关键实体的注意力来驱动幻觉。作者提议通过在后期训练阶段重新引入已知知识来缓解这一问题。
重访最大池化网络:分析语义概率在幻觉检测多重实例学习中的作用
本文分析了大语言模型中的幻觉检测问题,提出了一种最大池化方法,该方法通过消除昂贵的语义一致性计算来提高效率,同时保持具有竞争力的性能。
伪造引文在哪里产生:将字段级幻觉追溯到 LLM 中的特定神经元
罗格斯大学研究人员将 LLM 中的引文幻觉追溯到稀疏的字段特异性神经元,并通过因果干预抑制虚假引用。
LLMs为何在结构化知识上产生幻觉:对线性化表示推理的机制分析
本文对LLMs在推理线性化结构化知识时产生幻觉的原因进行了机制分析,发现幻觉源于系统的内部动态,例如对捷径线索的关注以及前馈层中语义基础的失败,而非随机噪声。