当探测精度饱和时,脆弱性解析:LLM预训练分析的补充指标

arXiv cs.CL 论文

摘要

本文引入了'脆弱性'这一探测精度的补充指标,它衡量导致探测精度崩溃的激活噪声水平,从而能够在精度饱和后分析LLM预训练过程中的表示演化。

arXiv:2606.11375v1 公告类型: 新 摘要:标准的线性探测在隐藏状态上的分类器达到高准确率时,就宣称属性被'编码'。这种方法在单个快照上效果良好,但在预训练过程中失效:探测准确率在最初的几千步内就饱和,导致训练的大部分过程对该工具不可见。我们引入了'脆弱性'这一按层划分的补充指标,定义为探测准确率崩溃时的激活噪声水平。脆弱性对可分离边界和表示冗余度都很敏感,而这两者在准确率平台期后仍持续演化。应用于开放检查点语言模型时,脆弱性恢复了仅靠准确率无法看到的结构。道德化表示沿着词汇 $\to$ 组合的梯度出现:先出现词汇层面的道德检测,后出现组合层面的道德编码。由于探测准确率本身仅追踪数据集的词汇可分离性,我们通过证明组合编码能在没有共享对比令牌的构造类型间迁移,直接建立了组合编码的存在。训练过程中,层深度鲁棒性梯度单调增加,而准确率保持不变。此外,匹配的微调语料库即使产生相同的探测准确率,也会留下不同的脆弱性指纹,表明数据策展在不改变探测准确率的情况下重塑了探测鲁棒性。在我们测试的每一个比较中,当探测准确率给出平坦的答案时,脆弱性则提供了有结构的答案。
查看原文
查看缓存全文

缓存时间: 2026/06/11 13:36

# 当探针准确性饱和时,脆弱性揭示真相:大语言模型预训练分析的互补指标 来源:https://arxiv.org/html/2606.11375 \(2026年5月\) ###### 摘要 标准的线性探针在隐藏状态上的分类器达到高准确率时,宣称该属性“被编码”。该协议在单一时刻表现良好,但在预训练过程中失效:探针准确性会在最初几千步内饱和,导致大部分训练过程对该工具不可见。我们引入**脆弱性**,这是一个互补的逐层指标,定义为探针准确性崩溃时的激活噪声水平。脆弱性对可分性间隔和表示冗余度都很敏感,这两者在准确性平台期后仍会持续演化。应用于开放检查点语言模型时,脆弱性揭示了准确性单独无法看到的结构。道德化表示沿着**词汇→组合梯度**出现:首先是词汇性道德检测,然后是组合性道德编码。由于探针准确性本身只追踪数据集在词汇层面的可分性,我们通过证明组合编码能在不共享对比 Token 的构造类型间迁移,直接建立了组合编码的存在。**层深度鲁棒性梯度**在训练过程中单调发展,而准确性保持平稳。匹配的微调语料库产生相同的探针准确性,却留下不同的脆弱性指纹,表明数据整理重塑了探针鲁棒性而不改变探针准确性。在我们测试的每个比较中,探针准确性返回一个平坦的答案,而脆弱性返回一个结构化的答案。 ## 1 引言 标准可解释性协议的操作方式如下:给定来自大语言模型的感兴趣表示,训练一个线性分类器从冻结的隐藏状态预测该属性,报告每层分类器的准确性,并在准确性高的地方宣称该属性“被线性编码”。该协议已得到充分验证(Alain 和 Bengio,2017(https://arxiv.org/html/2606.11375#bib.bib1);Belinkov,2022(https://arxiv.org/html/2606.11375#bib.bib3)),并且在询问模型在特定时刻是否表示某个属性时表现良好。但在询问“表示在预训练过程中如何演化”时,它并不奏效。我们具体演示这种失效模式。在 OLMo-2 1B 早期训练轨迹(Groeneveld 等,2024(https://arxiv.org/html/2606.11375#bib.bib7))中,37 个模型检查点以 1K 步间隔密集采样自步骤 0-36K(约 760 亿 Token),在一个 240 对道德/中性最小对数据集上训练的二元线性探针,到步骤 4K 时在所有 16 个 Transformer 层上达到约 95% 的平均准确率。在剩余的约 33K 训练步骤(我们数据中约 95% 的轨迹)中,标准探针工具返回基本相同的数字;模型在此期间经历的任何持续表示变化对它都是不可见的。 本文的方法论贡献是将饱和问题视为探针准确性的固定特征,并添加一个互补指标来恢复缺失的分辨率:**脆弱性**,定义为探针准确性降至阈值以下的激活噪声水平。正式地,对于层 \(l\) 及训练好的探针 \(f_l\),标准探针报告测试集准确性 \(A(f_l)\)。我们将**临界噪声** \(\sigma_l^*\) 定义为高斯扰动下准确性降至脆弱性阈值 \(\tau\) 以下的最小噪声尺度: \(\sigma_l^* = \min\{\sigma \in \mathcal{S}: A(f_l, h_l + \varepsilon) < \tau, \quad \varepsilon \sim \mathcal{N}(0, \sigma^2 I)\}\) 其中 \(\mathcal{S} = \{0.1, 0.3, 1.0, 3.0, 10.0\}\) 且 \(\tau = 0.6\)(如果 \(\mathcal{S}\) 中没有 \(\sigma\) 使准确性低于 \(\tau\),则 \(\sigma_l^* = \max(\mathcal{S}) = 10.0\))。低的 \(\sigma_l^*\) 意味着层 \(l\) 的表示是**脆弱的**:探针准确性在小噪声下崩溃。高的 \(\sigma_l^*\) 意味着编码是**鲁棒的**:区分是以宽间隔和/或冗余度编码的。脆弱性是一种逐层测量,应用于与准确性曲线相同的训练好的探针,并且它对可分性**间隔**和表示**冗余度**都很敏感,这两者在准确性停滞之后仍会在训练过程中持续演化(它不单独区分两者的贡献;见第 5.2 节(https://arxiv.org/html/2606.11375#S5.SS2))。 我们使用脆弱性来映射仅靠探针准确性无法看到的结构性表示变化,并在 OLMo-2 1B 和 OLMo-3 7B 开放检查点系列上建立三个发现,共同证明了方法论主张的价值: **发现 1:道德化语义区分沿着定量的词汇→组合梯度出现。** 标准道德探针(单个道德负载词素交换)在步骤 1K 出现。**组合性**道德探针(保持动作动词不变,仅改变各自含义温和但在上下文中道德状态翻转的 Token,如“保护”/“羞辱”、“饥饿”/“富有”、“无辜”/“有罪”的对)在 4 个种子平均下于步骤 5K 出现(每个种子范围 4K-7K),介于情感(2K)和句法(6K)之间。标准探针的步骤 1K 出现测量的是道德化词汇变得线性可分的速度,而不是道德效价被组合编码的速度;梯度解读才是诚实的。 **发现 2:层深度鲁棒性梯度在训练过程中单调发展,对探针准确性不可见。** 平均准确性在步骤 4K 停滞,但平均临界噪声持续演化至步骤 36K:后期层保持最大鲁棒性,而早期层临界噪声从步骤 4K 到 36K 从 10.0 降至 1.8。该模式在 OLMo-3 7B 规模上重现,且后期层优势更陡峭,并在组合性探针上跨四个随机种子分割独立重现。 **发现 3:数据整理重塑了探针鲁棒性,而不改变探针准确性。** 在三个匹配语料库(叙事-道德、陈述-道德、一般非道德控制)上的 LoRA 微调在所有条件下产生相同的探针准确性(最终峰值 0.740 / 0.750 / 0.750),但产生不同的脆弱性分布。陈述性道德训练(重复“偷窃是错误的”)在 16 层中的 10 层出现脆弱性下降(平均临界噪声 5.63),而自然文本条件为 6-7 层脆弱层(平均 6.94 / 7.38)。准确性说“无信号”;脆弱性说“陈述性训练产生广泛脆弱的表示”。 所有实验在单台 MacBook Pro M4 Pro(MPS)上运行;总 MPS 时间约 6 小时。代码、数据集(包括 200 对组合性道德最小对数据集,其本身也是一项方法论贡献)、每个检查点的输出以及 4 个种子的脆弱性复现均随论文发布。统一的主张是方法论的,而非特定于道德领域:**在我们测试的每个比较中,探针准确性返回一个平坦的答案,而脆弱性返回一个结构化的答案。** 第 2 节(https://arxiv.org/html/2606.11375#S2)将本工作置于相关文献背景下;第 3 节(https://arxiv.org/html/2606.11375#S3)详述四个最小对数据集、线性探针和脆弱性测试;第 4 节(https://arxiv.org/html/2606.11375#S4)报告结果;第 5 节(https://arxiv.org/html/2606.11375#S5)讨论发现 1 隐含的相变与逐渐出现分类法、脆弱性在准确性饱和时成功的原因的几何学解释,以及局限性;第 6 节(https://arxiv.org/html/2606.11375#S6)总结。 ## 2 相关工作 **线性探针。** Alain 和 Bengio(2017(https://arxiv.org/html/2606.11375#bib.bib1))确立了线性探针作为逐层诊断中间表示内容的方法;Belinkov(2022(https://arxiv.org/html/2606.11375#bib.bib3))综述了该方法论的潜力和已知局限性。后续工作通过控制任务(Hewitt 和 Liang,2019(https://arxiv.org/html/2606.11375#bib.bib9))、信息论探针(Pimentel 等,2020(https://arxiv.org/html/2606.11375#bib.bib15))和最小描述长度分析(Voita 和 Titov,2020(https://arxiv.org/html/2606.11375#bib.bib19))形式化了基于准确性的探针的结构性缺陷。我们的方法论贡献扩展了饱和问题:探针文献中将天花板效应视为有效性的威胁,而我们将其视为工具的固定特征,并添加一个互补指标(脆弱性),在准确性停滞之后继续解析表示变化。 **激活扰动。** Borras 等(2022(https://arxiv.org/html/2606.11375#bib.bib5))提出了“游走噪声”,在单个层注入加性高斯噪声并定义逐层中点噪声水平,这是与我们的逐层临界噪声最接近的先前概念。然而,游走噪声测量的是端到端**任务准确性**的退化,而非特定概念的探针准确性,并且评估单个训练好的模型而非跨训练检查点追踪。APEX(Ren 等,2026(https://arxiv.org/html/2606.11375#bib.bib18))向隐藏激活注入高斯噪声并定义“逃逸噪声”(输出变得与输入无关时的噪声尺度),类似于我们的临界噪声;但 APEX 测量模型输出分布变化,而非概念特定的探针准确性。我们的方法将逐层噪声鲁棒性与跨训练检查点的概念特定探针相结合,这两种方法都未尝试过。 **跨训练探针。** Qian 等(2024(https://arxiv.org/html/2606.11375#bib.bib17))将线性探针应用于 360 个预训练检查点(LLM360 Amber 7B),针对五个可信度维度,观察到拟合与压缩模式。他们的工作确立了“跨检查点探针”方法,但只追踪探针**准确性**,而这正是我们证明会早期饱和并停止返回信息的内容。我们的脆弱性指标恢复了他们方法失去分辨率之后的动态。 **因果追踪。** Meng 等(2022(https://arxiv.org/html/2606.11375#bib.bib11))引入了 ROME 和因果追踪方法论,区分了**编码**信息的层与**因果使用**信息的层。我们在 7B 上的因果探针分析(附录 B)发现道德信息的探针峰值与因果峰值之间存在约 10 层的差异,复现了道德领域的存储与使用区分,作为正文方法论论点的支持证据。 **相变。** Power 等(2022(https://arxiv.org/html/2606.11375#bib.bib16))记录了“顿悟”,从记忆到泛化的突然相变,后续机理工作将此类转变归因于离散电路形成(Olsson 等,2022(https://arxiv.org/html/2606.11375#bib.bib14);Nanda 等,2023(https://arxiv.org/html/2606.11375#bib.bib12))。我们第 4.1 节(https://arxiv.org/html/2606.11375#S4.SS1)的发现——语义最小对任务(标准道德、情感)表现为尖锐相变,而组合性和结构性任务逐渐出现——在**单个训练运行**中将顿悟现象映射到词汇与组合的二元对立上,据我们所知这是一个新颖的框架。 **道德基础理论。** 标准道德数据集按照 Haidt(2012(https://arxiv.org/html/2606.11375#bib.bib8))和 Graham 等(2013(https://arxiv.org/html/2606.11375#bib.bib6))的六个 MFT 基础(关爱/伤害、公平/欺骗、忠诚/背叛、权威/颠覆、纯洁/堕落、自由/压迫)组织内容。MFT 被用作平衡覆盖的**构建**启发式,而非关于语言模型如何表示道德的认知主张。组合性数据集(第 3.2 节(https://arxiv.org/html/2606.11375#S3.SS2))按构造模式(动机/目标/后果/角色)分类。 **OLMo。** Groeneveld 等(2024(https://arxiv.org/html/2606.11375#bib.bib7))发布了 OLMo 系列,包含完整的中间检查点发布(使得密集采样轨迹分析成为可能的基础设施),并在 OLMo-2 发布(OLMo 团队,2025(https://arxiv.org/html/2606.11375#bib.bib13))中扩展到更长的训练计划。我们的 37 检查点 1B 早期训练和 20 检查点 7B 阶段 1 轨迹依赖于这些开放发布;该方法论适用于任何具有足够密集采样的开放检查点系列。Pythia(Biderman 等,2023(https://arxiv.org/html/2606.11375#bib.bib4))提供了一个补充的开放检查点测试平台。 **单向电路。** Arditi 等(2024(https://arxiv.org/html/2606.11375#bib.bib2))证明了指令微调模型中的拒绝行为由一个单一表示方向中介。脆弱性指标是预训练时间上的类比:单向拒绝询问的是**训练后**的安全属性是否集中在最终检查点的狭窄电路中,而我们的问题是道德化表示在**训练期间**是否经历了更脆弱或更鲁棒的状态。两个文献都涉及安全相关表示的集中与分散程度,但处于模型生命周期的不同阶段。更广泛的表示工程(Zou 等,2023(https://arxiv.org/html/2606.11375#bib.bib20))将可解释性视为学习表示的直接读出。 **范围。** 我们使用道德化词汇作为演示领域。组合性探针(第 3.2 节(https://arxiv.org/html/2606.11375#S3.SS2))是明确的词汇可及性消融;更深入的问题(反事实道德推理、对保留道德结构的泛化)需要更难的探针,并在第 5.3 节(https://arxiv.org/html/2606.11375#S5.SS3)中作为未来工作讨论。 ## 3 方法论 我们将线性探针分类器应用于四个匹配的最小对数据集,涵盖所有 37 个 OLMo-2 1B 早期训练检查点、20 个 OLMo-3 7B 阶段 1 检查点以及 OLMo-2 1B 最终检查点。两个探针系列:`LayerWiseMoralProbe`(逐层准确性)和 `MoralFragilityTest`(逐层噪声鲁棒性)。所有实验在单台 MacBook Pro M4 Pro / MPS 上运行;代码、数据集和每个检查点的输出随论文发布。 ### 3.1 标准最小对数据集 三个单 Token 交换数据集反映了已建立的最小对探针实践(Belinkov,2022(https://arxiv.org/html/2606.11375#bib.bib3)),即保持句法骨架不变并交换单个 Token: - **道德/中性**(240 对,每个道德基础理论类别 40 对:关爱/伤害、公平/欺骗、忠诚/背叛、权威/颠覆、纯洁/堕落、自由/压迫;Haidt,2012;Graham 等,2013;例如“她背叛了那个女人”/“她问候了那个女人”)。道德对来自一个 1200 对的数据集,该数据集按照已发布的质量指南构建,并经过 LLM 辅助过滤以确保自然性和中性句的道德中性(见 `DATASET_GUIDELINES.md`);240 对(每个基础 40 对)使用确定性种子进行子采样。 - **情感**(210 对,跨十个领域;积极/消极形容词交换,例如“……极好的食物……”/“……糟糕的食物……”); - **句法**(210 对,针对局部语法违规(词序交换、一致关系、助词错位),例如“她递上了完成的报告……”/“她递上了完成的报告……”)。

相似文章

对齐但脆弱:通过零阶优化增强LLM安全鲁棒性

arXiv cs.AI

本文提出了一个混合框架,结合一阶安全对齐与零阶微调,以增强LLM安全对齐在受到对齐后扰动时的鲁棒性。理论和实验结果表明,仅需少量微调步骤即可在保持安全性的同时提升鲁棒性。