毒性幻觉:扰动提示并追踪LLM电路
摘要
本文研究了提示中的毒性词汇扰动如何降低LLM的事实准确性并增加不确定性,并使用归因图分析追踪内部变化。研究发现,增加毒性会放大对扰动敏感的变异节点,而核心推理节点保持不变。
arXiv:2605.30913v1 公告类型:新
摘要:大型语言模型(LLMs)越来越多地部署在用户语气从礼貌到对抗性或毒性不等的对话环境中,但关于毒性语言在语义上等价的提示中是否会降低事实可靠性,人们知之甚少。我们研究了词汇和语气层面的提示扰动如何影响LLM的事实可靠性。通过控制礼貌、随机和三个毒性级别的提示变体,我们在ARC-Easy、GSM8K和MMLU上评估了五个LLM。我们发现,毒性词汇扰动 consistently 降低事实准确性并增加不确定性,而礼貌措辞带来的变化有限且不一致。为了检查这些答案不一致是否对应内部变化,我们对模型激活和影响进行了归因图分析。我们发现,增加毒性会选择性地放大对扰动敏感的变异节点,而相对稳定的核心推理节点保持更不变。这些发现将提示语气定位为LLM可靠性的关键维度,并提供了行为学和机制性证据,表明表面词汇变化可以改变事实输出和内部计算。
查看缓存全文
缓存时间: 2026/06/01 09:30
# 有毒的幻觉:扰动提示与追踪LLM电路
来源:https://arxiv.org/html/2605.30913
Soorya Ram Shimgekar¹, Agam Goyal¹, Amruta Parulekar¹, Joshua Chen¹, Yian Wang¹, Navin Kumar², Hari Sundaram¹, Eshwar Chandrasekharan¹, Koustuv Saha¹
¹伊利诺伊大学厄巴纳-香槟分校,²Nimblemind
\{sooryas2, agamg2, amp20, joshua86, yian3, hs1, eshwar, ksaha2\}@illinois\.edu, navin@nimblemind\.ai
###### 摘要
大语言模型(LLMs)日益部署于对话场景中,用户的语气可能从礼貌到对抗或恶毒不等,但对于语义等价提示中包含的恶毒语言是否会降低事实可靠性,人们知之甚少。我们研究基于词汇和语气的提示扰动如何影响LLM的事实可靠性。通过控制提示变化(包括礼貌、随机和三种恶毒程度),我们在ARC-Easy、GSM8K和MMLU上评估了五个LLM。我们发现,恶毒词汇扰动一致地降低了事实准确性并增加了不确定性,而礼貌措辞则带来有限且不一致的变化。为了探究这些答案不一致性是否对应内部变化,我们进行了模型激活和影响的归因图分析。我们发现,增加恶毒程度会选择性地放大扰动敏感的变体节点,而相对稳定的核心推理节点则保持较大不变性。这些发现将提示语气定位为LLM可靠性的一个关键维度,并提供了行为与机制层面的证据,表明表面词汇变化可改变事实输出和内部计算。
有毒的幻觉:扰动提示与追踪LLM电路
Soorya Ram Shimgekar¹, Agam Goyal¹, Amruta Parulekar¹, Joshua Chen¹, Yian Wang¹, Navin Kumar², Hari Sundaram¹, Eshwar Chandrasekharan¹, Koustuv Saha¹
¹伊利诺伊大学厄巴纳-香槟分校,²Nimblemind
\{sooryas2, agamg2, amp20, joshua86, yian3, hs1, eshwar, ksaha2\}@illinois\.edu, navin@nimblemind\.ai
## 1 引言
> “对AI聊天机器人说‘请’或‘谢谢’显然可能要花费数千万美元。但有些人担心不礼貌的代价可能更高。”——《纽约时报》Deb (2025) (https://arxiv.org/html/2605.30913#bib.bib9)
随着AI系统日益融入日常工作中,用户在各种对话场景中与LLM交互,从礼貌且精心构造的提示到情绪激烈、对抗性或恶毒的语言 (Gehman et al. 2020 (https://arxiv.org/html/2605.30913#bib.bib17); Wei et al. 2023 (https://arxiv.org/html/2605.30913#bib.bib63))。近期的公共讨论已关注到用户对话变化可能带来的实际影响,包括计算成本;OpenAI CEO Sam Altman声称,像“请”和“谢谢”这样的礼貌互动每年使公司花费数百万美元的计算资源 (Futurism 2025 (https://arxiv.org/html/2605.30913#bib.bib15))。同时,越来越多的证据表明,看似微小的提示变化可能显著改变模型行为和下游性能 (Zhao et al. 2021 (https://arxiv.org/html/2605.30913#bib.bib70); Lu et al. 2022 (https://arxiv.org/html/2605.30913#bib.bib35); Perez et al. 2023 (https://arxiv.org/html/2605.30913#bib.bib48); Dobariya and Kumar 2025 (https://arxiv.org/html/2605.30913#bib.bib11); Mizrahi et al. 2024 (https://arxiv.org/html/2605.30913#bib.bib43); Sclar et al. 2024 (https://arxiv.org/html/2605.30913#bib.bib51); Yin et al. 2024 (https://arxiv.org/html/2605.30913#bib.bib66))。这引发了关于对话AI中基于提示语气的事实推理鲁棒性和可靠性的重要问题。
已有大量工作研究了LLM的幻觉现象,通常指流畅但事实不支持的生成内容 (Ji et al. 2023 (https://arxiv.org/html/2605.30913#bib.bib26); Maynez et al. 2020a (https://arxiv.org/html/2605.30913#bib.bib40),b (https://arxiv.org/html/2605.30913#bib.bib41))。然而,近期研究认为,在结构化任务(如问答和多选推理)中的事实失败可能源于多种不同的机制,包括推理不稳定、提示敏感性、不确定性以及知识引导失败 (Jang et al. 2026 (https://arxiv.org/html/2605.30913#bib.bib24))。特别是,语义等价的提示尽管保留了底层查询意图,却常常产生不一致的事实答案 (Dobariya and Kumar 2025 (https://arxiv.org/html/2605.30913#bib.bib11); Cai et al. 2025 (https://arxiv.org/html/2605.30913#bib.bib5); Elazar et al. 2021 (https://arxiv.org/html/2605.30913#bib.bib13))。这一区分之所以重要,是因为提示导致的事实不一致性代表了一个更广泛的可靠性挑战,它超出了传统幻觉概念的范畴。
先前的工作集中于风格化提示策略,如校准、角色提示、格式化以及思维链推理 (Zhao et al. 2021 (https://arxiv.org/html/2605.30913#bib.bib70); Lu et al. 2022 (https://arxiv.org/html/2605.30913#bib.bib35); Perez et al. 2023 (https://arxiv.org/html/2605.30913#bib.bib48))。然而,恶毒语言在影响事实可靠性方面的作用仍未得到充分探索。恶毒语言通常指敌意的、辱骂性的、侮辱性的、威胁性的或其他攻击性的沟通形式,可能引发有害、对抗或情绪激烈的互动 (Gehman et al. 2020 (https://arxiv.org/html/2605.30913#bib.bib17); Davidson et al. 2017 (https://arxiv.org/html/2605.30913#bib.bib8))。这一空白尤为重要,因为现实世界中与AI的互动由用户自然选择的提示方式驱动,而这些互动往往包含恶毒、对抗或情绪攻击性的语言 (Barhoum (https://arxiv.org/html/2605.30913#bib.bib2); Gehman et al. 2020 (https://arxiv.org/html/2605.30913#bib.bib17))。因此,理解这种语言如何影响LLM的输出,对于评估已部署LLM系统的鲁棒性和安全性至关重要。
因此,为实证检验这一现象,我们研究插入到语义等价提示中的词汇扰动如何改变LLM的事实回答和推理行为。我们并非将所有错误输出都视为传统幻觉,而是更精确地聚焦于扰动提示——涵盖礼貌和恶毒关键词——如何影响事实可靠性和答案不稳定性。此外,近期在机制可解释性方面的进展强调通过LLM的内部表征来理解它们,这些内部表征通常被概念化为负责特定行为的“归因图”或“电路” (Elhage et al. 2021 (https://arxiv.org/html/2605.30913#bib.bib14); Olah et al. 2020a (https://arxiv.org/html/2605.30913#bib.bib45); Geva et al. 2021 (https://arxiv.org/html/2605.30913#bib.bib18))。基于这一工作脉络,我们研究词汇扰动导致的事实不稳定性如何对应内部计算和归因图行为的可识别变化。我们的工作由以下研究问题(RQs)指导:
RQ1:基于词汇和语气的提示扰动如何影响LLM的事实可靠性?
RQ2:这种事实退化能否通过LLM内部的表征来解释?
我们的工作检验了五个模型:GPT-5-Nano、Gemini-2.5-Flash、Gemma-2-2B、Qwen2.5-1.5B-Instruct 和 LLaMA-3.2-1B,在随机、礼貌和恶毒提示的扰动下进行评估。我们在四个广泛使用的基准上评估这些模型和提示扰动:ARC-Easy (Clark et al. 2018 (https://arxiv.org/html/2605.30913#bib.bib6))、GSM8K (Cobbe et al. 2021 (https://arxiv.org/html/2605.30913#bib.bib7)) 和 MMLU (Hendrycks et al. 2020 (https://arxiv.org/html/2605.30913#bib.bib23))。
对于RQ1,我们进行词汇扰动,并比较模型在基准上的事实准确性。回归建模解释了提示的各个方面如何与模型的准确性、熵和困惑度相关联。我们发现,恶毒词汇扰动一致地降低了各基准和模型家族的事实准确性,同时通过熵和困惑度衡量的预测不确定性也有所增加。随机词汇扰动同样降低了性能,表明即使是非语义的提示变化也能破坏推理行为的稳定性。较小的开源模型在恶毒提示下表现出比大型专有系统更大的退化。
对于RQ2,我们追踪LLM电路,特别是各层激活和影响的归因图。我们发现,恶毒扰动逐渐放大了对扰动敏感的路径,增加了它们的激活和影响,而相对稳定的核心推理节点则保持较大的不变性。这些内部变化与恶毒提示下观察到的事实准确性下降和不确定性增加高度一致,表明词汇恶毒将计算从稳定的语义推理电路转向了对上下文敏感的表征。
综合而言,本工作做出了四个贡献:1)一个计算框架,用于通过受控改写和归因图评估研究基于词汇和语气的提示扰动对事实推理的影响;2)跨模型实证分析,表明恶毒词汇扰动可降低事实可靠性和答案一致性;3)对与事实不稳定性相关的毒害敏感归因子图的机制洞察;4)公开发布数据集、提示扰动框架和代码库,以支持未来在LLM中关于语气敏感鲁棒性和机制分析的研究。
## 2 相关工作
LLM回应中的事实性与幻觉。大语言模型(LLMs)已知会生成流畅但事实不正确的输出,通常称为幻觉 (Ji et al. 2023 (https://arxiv.org/html/2605.30913#bib.bib26); Maynez et al. 2020a (https://arxiv.org/html/2605.30913#bib.bib40),b (https://arxiv.org/html/2605.30913#bib.bib41))。先前的工作已在摘要、问答和对话等任务中描述了幻觉,将其归因于训练数据中的虚假相关性、暴露偏差以及缺乏接地等因素 (Maynez et al. 2020a (https://arxiv.org/html/2605.30913#bib.bib40); Shuster et al. 2021 (https://arxiv.org/html/2605.30913#bib.bib55))。近期工作发现,基于验证模式的AI介导妄想强化 (Shimgekar et al. 2026 (https://arxiv.org/html/2605.30913#bib.bib54))。已有多种方法被提出用于检测或缓解幻觉,包括自一致性方法 (Wang et al. 2022 (https://arxiv.org/html/2605.30913#bib.bib61))、基于采样的检测 (Manakul et al. 2023 (https://arxiv.org/html/2605.30913#bib.bib37)) 以及检索增强生成 (Lewis et al. 2020 (https://arxiv.org/html/2605.30913#bib.bib33))。近期工作强调区分事实准确性、忠实性和校准的评估框架 (Maynez et al. 2020b (https://arxiv.org/html/2605.30913#bib.bib41); Kadavath et al. 2022 (https://arxiv.org/html/2605.30913#bib.bib28))。然而,大多数现有研究假设固定的提示条件,并未检验语言扰动(尤其是与任务语义无关的扰动)如何影响幻觉行为。我们的工作通过对提示变化如何系统性影响事实准确性的研究,延伸了这一脉络。
提示敏感性与对抗性输入。越来越多的研究表明,LLM对提示措辞高度敏感,即使语义内容保持不变 (Zhao et al. 2021 (https://arxiv.org/html/2605.30913#bib.bib70); Lu et al. 2022 (https://arxiv.org/html/2605.30913#bib.bib35); Perez et al. 2023 (https://arxiv.org/html/2605.30913#bib.bib48))。提示校准方法表明,微小的格式或顺序变化可以显著改变模型预测 (Zhao et al. 2021 (https://arxiv.org/html/2605.30913#bib.bib70); Lu et al. 2022 (https://arxiv.org/html/2605.30913#bib.bib35))。同样,关于提示多样性的研究揭示,模型可能对等价查询产生不一致输出 (Perez et al. 2023 (https://arxiv.org/html/2605.30913#bib.bib48))。除了良性的变化,对抗性提示如通用触发器 (Wallace et al. 2019 (https://arxiv.org/html/2605.30913#bib.bib60)) 和越狱攻击 (Xie et al. 2023 (https://arxiv.org/html/2605.30913#bib.bib65); Wei et al. 2023 (https://arxiv.org/html/2605.30913#bib.bib63)) 揭示,精心构造的输入可以诱导有害或不正确的输出。此外,提示敏感性可能随模型规模增大而降低,但不会完全消失 (Zhuo et al. 2024 (https://arxiv.org/html/2605.30913#bib.bib72))。我们的工作将恶毒作为受控扰动进行隔离,并检验其对LLM回应的影响。
LLM中的恶毒、偏见与安全。LLM从其训练数据中继承偏见和恶毒模式,导致对公平性、安全性和有害内容生成的担忧 (Bender et al. 2021 (https://arxiv.org/html/2605.30913#bib.bib4); Weidinger et al. 2022 (https://arxiv.org/html/2605.30913#bib.bib64); Goel et al. 2026 (https://arxiv.org/html/2605.30913#bib.bib19); Kim et al. 2026 (https://arxiv.org/html/2605.30913#bib.bib30))。大量工作集中于使用对齐技术(如基于人类反馈的强化学习RLHF)(Ouyang et al. 2022 (https://arxiv.org/html/2605.30913#bib.bib47))、解码时干预 (Liu et al. 2021 (https://arxiv.org/html/2605.30913#bib.bib34); Zhang and Wan 2023 (https://arxiv.org/html/2605.30913#bib.bib69)) 以及基于可解释性的激活引导和模型编辑 (Uppaal et al. 2025 (https://arxiv.org/html/2605.30913#bib.bib58); Goyal et al. 2025a (https://arxiv.org/html/2605.30913#bib.bib20)) 来检测和缓解恶毒。安全研究也考察了模型如何回应有害或对抗性输入,表明恶毒可以以复杂方式与对齐机制相互作用 (Zhou et al. 2024 (https://arxiv.org/html/2605.30913#bib.bib71); Xie et al. 2023 (https://arxiv.org/html/2605.30913#bib.bib65))。例如,对齐可以通过中间表征运作,在早期层检测有害意图并在后续层细化回应 (Zhou et al. 2024 (https://arxiv.org/html/2605.30913#bib.bib71))。这一工作脉络主要将恶毒视为一个输出关切(即防止有害输出)。同样,先前的工作探索了LLM在内容审核视角下识别和标记恶毒内容 (Kolla et al. 2024 (https://arxiv.org/html/2605.30913#bib.bib31); Kumar et al. 2024 (https://arxiv.org/html/2605.30913#bib.bib32); Goyal et al. 2025b (https://arxiv.org/html/2605.30913#bib.bib21); Zhan et al. 2025 (https://arxiv.org/html/2605.30913#bib.bib67))。我们的工作通过考察恶毒词元作为模型输入的影响,补充了这项研究。
Transformer中的机制可解释性与电路。机制可解释性的近期进展旨在通过识别内部计算结构(通常称为电路)来解释LLM行为 (Olah et al. 2020a (https://arxiv.org/html/2605.30913#bib.bib45); Elhage et al. 2021 (https://arxiv.org/html/2605.30913#bib.bib14))。这些方法分析特定神经元、注意力头或相似文章
内存增强型LLM智能体中的状态污染
本文识别并研究了LLM智能体中的“记忆洗白”现象,即有毒或对抗性上下文被压缩成记忆摘要后,能够逃避标准毒性检测器,同时仍影响后续生成。文章引入了亚阈值传播间隙(SPG)来衡量隐藏的下游影响,并表明在摘要之前对有毒状态进行消毒比事后清理更有效。
LLMs为何在结构化知识上产生幻觉:对线性化表示推理的机制分析
本文对LLMs在推理线性化结构化知识时产生幻觉的原因进行了机制分析,发现幻觉源于系统的内部动态,例如对捷径线索的关注以及前馈层中语义基础的失败,而非随机噪声。
理解LLM中新知识诱导的事实幻觉:分析与解释
本论文探究了在新知识上微调LLM如何诱导事实幻觉,研究表明特定知识类型内的陌生性通过削弱对关键实体的注意力来驱动幻觉。作者提议通过在后期训练阶段重新引入已知知识来缓解这一问题。
大语言模型真的知道自己不知道什么吗?内部状态主要反映知识回忆而非真实性
本文质疑了大语言模型能够通过内部信号可靠区分幻觉输出和事实输出的假设,论证内部状态主要反映知识回忆而非真实性。作者提出了一套幻觉分类法(相关性幻觉与非相关性幻觉),并证明相关性幻觉的隐藏状态几何特性与事实输出重叠,使得标准检测方法失效。
PRISM:探究大语言模型幻觉中的推理、指令与源记忆
研究人员提出了 PRISM 诊断基准,该基准将大语言模型(LLM)的幻觉拆解为四个维度(知识缺失/错误、推理错误、指令遵循错误),涵盖三个生成阶段(记忆、指令、推理),并通过评估 24 款大语言模型,揭示了各类缓解策略之间存在的权衡关系。