LLMs中特征特定错误纠正的证据

arXiv cs.LG 论文

摘要

本文为大型语言模型中的特征特定错误纠正提供了首个实证证据,表明残差流激活对小扰动具有鲁棒性,但在候选特征方向上鲁棒性较弱,支持了叠加计算理论。

arXiv:2606.24964v1 公告类型:新 摘要:理解大型语言模型(LLM)的特征是可解释性的核心目标。通常假设LLM使用叠加来表示比其维度更多的特征。它们不仅可能在叠加中表示特征,还可能在叠加中执行计算。理论预测,叠加计算需要错误纠正,该纠正优先考虑特征方向而非通用方向,但这一预测尚未经过实证检验。我们提出了一种基于激活扰动的LLM错误纠正实证测试。通过扰动残差流激活,我们发现它们对小扰动具有鲁棒性——形成与错误纠正一致的激活平台——但在候选特征方向(从对比提示对构建的“纯”方向)上的鲁棒性低于两个此类方向的混合,表明纯方向是优先的。我们通过将扰动效应建模为其分解为特征分量的$L^p$范数的函数来量化这种优先性。对于$p=2$,响应是一个二次型,其非零特征值最多与残差流维度相同,这无法优先考虑叠加所需的多个特征方向。$p>2$解除了这一约束,并且与特征特定的错误纠正一致。我们发现对比方向、MELBO方向和SAE解码器方向的$p>2$,而随机方向和PCA方向(对照组)的$p≈2$。这些结果在Gemma-2-9B、Qwen3-1.7B、Llama-3.1-8B、Mistral-7B-v0.3、Aya-Expanse-8B和Yi-1.5-9B上重复。我们还在一个已知真实特征的错误纠正玩具模型上进一步验证了我们的方法,恢复了真实特征方向的$p>2$,当我们远离它们旋转时退化到$2$。
查看原文
查看缓存全文

缓存时间: 2026/06/25 05:08

# 大型语言模型中特征特定纠错的证据 来源: https://arxiv.org/html/2606.24964 ###### 摘要 理解大型语言模型 (LLM) 的特征是可解释性的一个核心目标。通常认为 LLM 使用叠加来表征比其维度更多的特征。它们可能不仅在叠加中表征特征,还在叠加中进行计算。理论预测,在叠加中进行计算需要纠错机制,这种机制优先考虑特征方向而非一般方向,但这一预测尚未经过实证检验。我们提出了一种基于激活扰动的 LLM 纠错实证检验方法。通过扰动残差流激活,我们发现它们对小扰动具有鲁棒性——形成了与纠错一致的激活平台——但在候选特征方向(“纯”方向,通过对比提示对构建)上的鲁棒性低于在两个此类方向的混合方向上,这表明纯方向具有优先性。我们通过将扰动效应建模为其分解为特征分量的 L^p 范数的函数来量化这种优先性。对于 p=2,响应是一个二次型,其非零特征值最多与残差流维度相同,这无法优先考虑叠加所需的众多特征方向。p>2 则解除了这一约束,并且与特征特定纠错一致。我们发现,对于对比、MELBO 和 SAE 解码器方向,p>2;而对于随机和 PCA 方向(对照组),p≈2。这些结果在 Gemma-2-9B、Qwen3-1.7B、Llama-3.1-8B、Mistral-7B-v0.3、Aya-Expanse-8B 和 Yi-1.5-9B 上得到复制。我们还在一个具有已知真实特征的纠错玩具模型上验证了我们的方法,发现对于真实特征方向能恢复 p>2,而当我们偏离这些方向旋转时,p 会退化为 2。†††代码: https://github.com/FranciscoHS/fsec-paper 特征几何、纠错、叠加计算 ## 1 引言 大型语言模型中的表征尚未得到很好的理解。通常认为 LLM 利用叠加 (Elhage 等人, 2022) 来表征比其可用维度更多的概念,并可能在叠加中进行计算 (CiS) (Hänni 等人, 2024; Adler & Shavit, 2024; Olah 等人, 2025)。然而,我们只有关于叠加的间接证据,主要是稀疏自编码器 (Cunningham 等人, 2023; Gao 等人, 2024; Templeton 等人, 2026) 在提取可解释方向上的成功,以及仅有关于 CiS 的理论证据 (Hänni 等人, 2024)。CiS 的一个实证预测是,神经网络必须在保留特征信号的同时纠正干扰噪声 (Hänni 等人, 2024)。这要求网络对沿非特征方向的扰动比对沿特征方向的扰动更不敏感。我们将此属性命名为特征特定纠错 (FSEC)。虽然在没有真实特征方向的情况下我们无法排除或确认 FSEC,但我们仍然可以问:对于任何方向是否会出现类似 FSEC 的行为:如果模型的纠错优先考虑某些方向,那么这些方向就是候选特征,我们可以通过测量灵敏度来检测它们,这只需要一个通用输入进行扰动,而不需要特征特定的标注数据。我们提供了 FSEC 的首个实证证据,表明 LLM 激活的鲁棒性在某些候选特征方向上优于其他方向。具体来说,我们在早期层扰动残差流激活,并将下游响应作为扰动方向和幅度的函数进行测量。我们通过多种概念的对比均值构建候选特征方向,包括语言、编程语言、性别、情感、语域和动词时态。在 Gemma-2-9B (Team 等人, 2024)、Qwen3-1.7B (Yang 等人, 2025)、Llama-3.1-8B (Grattafiori 等人, 2024)、Mistral-7B-v0.3 (Jiang 等人, 2023)、Aya-Expanse-8B (Dang 等人, 2024) 和 Yi-1.5-9B (Young 等人, 2024) 中,我们发现对比特征方向引发的下游响应强于其混合方向,这与 FSEC 优先考虑特征方向同时抑制沿非特征方向的干扰是一致的。我们通过将 LLM 对扰动的响应建模为扰动分解为候选特征方向的 L^p 范数来形式化这一点。p=2 的情况简化为一个基不变的二次型,意味着没有基选择是优先的;p>2 打破了这种不变性,表明候选纯特征方向比其混合方向更敏感,正如 FSEC 所预测的那样。我们在不同模型的对比方向上测量到 p≈2.3。MELBO (Mack & Turner, 2024b) 和 SAE 方向(也旨在恢复模型特征)同样产生 p>2,尽管数值较小。PCA 和随机方向则不然,这与 p>2 反映与模型特征对齐的解释一致。我们在一个具有真实特征的纠错玩具模型中验证了这种方法(第 5 节),证实当方向与真实特征未对齐时,p 会退化为 2。我们的贡献是: 1. 我们提出特征特定纠错 (FSEC) 作为叠加计算的一个测试:我们将 LLM 对扰动的响应建模为扰动分解为候选特征方向的 L^p 范数的函数,FSEC 预测 p>2。 2. 我们发现了三种候选特征方向——对比、SAE 解码器和 MELBO——的 FSEC 证据,每种方向都有 p>2,并表明对比结果在来自不同家族的六个 LLM 中得到复制。PCA 和随机方向产生 p≈2,这与它们不被优先考虑一致。 3. 我们还表明 FSEC 发生在一个纠错玩具模型中 (Vaintrob, 2026)。 ## 2 相关工作 **激活平台**。先前的工作已经确定 LLM 的分布内激活对扰动具有抵抗力 (Heimersheim & Mendel, 2024; Janiak 等人, 2024; Shinkle & Heimersheim, 2025),这种现象被称为激活平台。我们引入了一种对激活平台边界几何形状的新测量方法,并确定了其与 FSEC 的联系。 **方向相关的灵敏度用于特征发现**。先前的工作利用 LLM 具有方向相关灵敏度这一事实,进行无监督优化以寻找最大化下游响应的方向,从而得到可解释的转向向量,包括 MELBO (Mack & Turner, 2024b, a)。我们利用相同的现象来实证探测纠错,并将我们的分析应用于以这种方式获得的方向(第 4.3 节)。与这一研究方向不同,我们的分析增加了对灵敏度几何形状及其与纠错联系的新研究。 **用于叠加计算的纠错**。Hänni 等人 (2024) 理论上认为,叠加计算需要优先考虑特征方向的纠错。我们提供了支持 LLM 中存在叠加和纠错的实证证据。 ## 3 方法论 我们通过扰动残差流激活并测量下游响应来探测 LLM 中的纠错。分布内激活对小扰动具有鲁棒性,这种现象称为激活平台 (Heimersheim & Mendel, 2024; Shinkle & Heimersheim, 2025)。这种鲁棒性是方向相关的,即模型对沿某些方向的扰动比其他方向更敏感。两条证据表明特征方向尤其具有优先性:实证上,先前的工作通过优化灵敏度(鲁棒性的逆)恢复了可解释方向 (Mack & Turner, 2024b, a);理论上,FSEC 预测特征方向具有优先性。我们通过将沿候选特征方向的下游响应与沿非特征基线的响应进行比较来测试这一点。 在所有实验中,我们在早期层 ℓ(默认 ℓ=2)扰动残差流,并在倒数第二层测量下游响应,以最大化中间层的数量。这是因为已知扰动与测量之间的距离越大,激活平台越明显 (Shinkle & Heimersheim, 2025)。我们避免使用最后一层残差流,因为已知其行为异常。下游响应通过将扰动后的激活 a(α) 修补回模型 (Meng 等人, 2022; Heimersheim & Nanda, 2024),执行一次前向传播,并取测量层处扰动与未扰动残差流之间的 L2 距离来计算。我们在第 4.3 节中表明,我们的结果对于改变扰动层和测量层都是稳健的,并且在测量 logits 的余弦距离或 KL 散度时也成立。 为了区分方向效应与幅度效应,我们遵循先前对激活平台的扰动分析 (Heimersheim & Mendel, 2024),通过将激活向量 a 朝扰动方向 d 旋转,同时保持激活的范数恒定来进行扰动。我们称此为范数匹配扰动。具体来说,角度为 α 的 a 向 d 的扰动是: a(α) = cos(α) a + sin(α) ‖a‖ (d_⟂ / ‖d_⟂‖),      (1) 其中 d_⟂ 是 d 中与 a 正交的分量。我们通常在最后一个 token 位置进行扰动,但在第 4.3 节中表明,我们的结果对此选择也是稳健的。 我们量化模型沿给定方向的灵敏度为平台断裂角,即下游响应超过阈值 T 的最小扰动角度。我们为每个方向对设置阈值 T,其水平保证两个单轴扫描都会达到。¹¹我们最初尝试了一个来自随机方向的全局阈值——一组各向同性随机单位方向上各自达到的单轴平台高度的中位数的 f 倍——但放弃了。方向灵敏度范围很广(对于 KL 散度响应度量,响应最不敏感和最敏感方向之间的差距可达约 70 倍),因此全局阈值要么被最不敏感的方向永远达不到,要么被最敏感的方向仅在非常小的角度下就达到,使得大多数超椭圆拟合定义不清。从每对自身的单轴最大值设置 T 可以保证两个轴都达到该值,解决了这个问题。我们在此记录以备重现。我们通过对一组固定的 N=30 个输入(锚点)——5 token FineWeb 提示的最后 token 残差流激活 (Penedo 等人, 2024)——取下游响应的中位数来聚合结果。将 L2(x_n, α; d) 写为锚点 x_n 当沿方向 d 以角度 α 扰动时的响应,单轴响应曲线为: L2(α; d) = median_{n=1,...,N} L2(x_n, α; d).      (2) 那么 max_α L2(α; d_i) 是单独沿 d_i 扫描时达到的最大中位数响应。对于一对 (d1, d2),我们设定阈值 T = f · min( max_α L2(α; d1), max_α L2(α; d2) ),      (3) 即两个单轴最大值中较小者的 f 倍。取较小的最大值可确保两个轴都达到 T,因此校准拟合的单轴平台断裂角 α1, α2 总是有定义。在整个过程中我们使用 f=0.5。我们在第 4.3 节中表明,我们的结果对于在标称值的半倍到两倍之间变化 T 是稳健的。 我们沿六种方向类型进行扰动:对比 (Panickssery 等人, 2023; Turner 等人, 2023)、MELBO (Mack & Turner, 2024b)、SAE 潜在变量 (Lieberum 等人, 2024)、PCA 方向、随机方向和随机差方向。前三种都是候选特征方向,而 PCA、随机和随机差方向作为非特征基线发挥作用。PCA 方向通过对从随机选择的 10000 个 5 token 长的 FineWeb 输入 (Penedo 等人, 2024) 中得到的残差流激活进行 PCA 计算得到。随机方向在各向同性单位球面上采样:d̂_rand ~ Unif(S^{d-1})。对比方向构建为两组 P ≥ 30 个匹配提示对 P^+, P^- 之间平均激活的差值,这些提示对在一个单一概念上不同(例如,对于性别,P^+ ∋ “He ran home” 与 P^- ∋ “She ran home” 配对)(Panickssery 等人, 2023; Turner 等人, 2023)。这些提示由 LLM 生成并由人工验证,可在我们的代码发布中获取。令 a(s) ∈ R^d 表示提示 s 在扰动层 ℓ 处的激活,那么: d_contrast = (1/P) Σ_{i=1}^P (a(s_i^+) - a(s_i^-)),

相似文章

大型语言模型有多像人类?一个关注语域的语言评估框架

arXiv cs.CL

本文提出了一种关注语域的语言评估框架,通过使用最大均值差异(MMD)比较人类与LLM生成文本中67个词汇语法特征的分布,来评估大型语言模型(LLM)的人类相似度。在七个经过指令微调的开源模型和五个语域上的实验表明,没有模型能完美匹配人类基线,且与人类语言的接近程度因语域而异,而非模型规模。

当正确信念崩溃时:临床压力下LLMs的认知韧性

arXiv cs.AI

本文研究了大型语言模型在临床环境中面对对抗性压力时如何维持正确信念,提出了R-FT微调方法以在平衡可纠正性的同时提升认知韧性,并在医学基准测试中展示了显著的鲁棒性提升。