Geometry-Lite: 通过逐层边际几何实现可解释的安全探测

arXiv cs.LG 2026/05/21 04:00 论文

摘要

介绍Geometry-Lite，一种紧凑型探针，通过分析逐层边际几何来解读大语言模型各层中安全证据的形成方式，在保持可解释性的同时优于单层探针。

arXiv:2605.20241v1 公告类型：新摘要：针对大语言模型的提示级安全探针利用隐藏状态表示来区分安全与不安全的提示，但强大的平均检测性能并不能解释这种区分的几何特性。特别是，尚不清楚安全证据如何在各层之间形成，逐层几何的哪些方面支持低假阳性决策，以及哪些几何偏差在基准偏移下保持稳定。我们将此作为实证分解问题进行研究，并引入 Geometry-Lite，这是一种紧凑的提示级探针，它将每一层的最终提示令牌表示映射为在质心、局部邻域和监督线性边界读出下的有符号边际，然后通过边界位置、逐层变化和粗略形状总结所得的边际分布。在九个指令微调骨干模型（$1.2$B--$70$B）和七个安全基准测试中，Geometry-Lite 优于单层探针，同时接近原始多层得分叠加，使其成为分析多层安全信号的有用工具。分解表明，安全证据主要通过持续的边界位置几何表达：最终或极值边际以及不安全侧层占用主导了总体检测性能。相比之下，有限差分漂移和结构总结对汇总的 AUROC 贡献甚微，尽管漂移在偏移的低 FPR 阈值下可以提供小的面向召回的修正。在基准偏移下，优化的线性边界在训练混合上很尖锐，而类条件均值几何在预定义的困难保留子集上更可靠地保持分离。总体而言，提示级安全证据主要不是逐层运动信号，而是一种持续的逐层边际几何，其有用组件和读出级偏差在决策关键区域中变得可见。

查看原文

查看缓存全文

缓存时间: 2026/05/21 06:20

# Geometry-Lite: 通过逐层边距几何实现可解释的安全探针
来源: https://arxiv.org/html/2605.20241
Woo Seob Sim 延世大学 dogu86@yuhs\.ac & Yu Rang Park11footnotemark:1 延世大学 yurangpark@yuhs\.ac 生物医学系统信息学系 延世大学医学院, 首尔, 韩国通讯作者\. yurangpark@yuhs\.ac

###### 摘要

用于大型语言模型的提示级安全探针利用隐藏状态表示来区分安全和不安全提示，但强大的平均检测性能并不能解释这种分离的几何结构。特别是，安全证据是如何在各层中形成的，逐层几何的哪些方面支持低假阳性决策，以及哪些几何偏差在基准偏移下保持稳定，这些问题仍不清楚。我们将此作为一个经验性分解问题来研究，并引入了Geometry-Lite，一个紧凑的提示级探针，它将每一层的最终提示令牌表示映射到质心、局部邻域和监督线性边界读取下的有符号边距，然后通过边界位置、层间变化和粗粒度形状来总结得到的边距剖面。在九个指令微调骨干模型（1.2B–70B）和七个安全基准上，Geometry-Lite优于单层探针，同时保持接近原始的多层分数堆叠，使其成为分析多层安全信号的有用工具。分解表明，安全证据主要通过持久的边界位置几何来表达：最终或极值边距和危险侧层占用主导了整体检测性能。相比之下，有限差分漂移和结构摘要对合并的AUROC贡献很小，尽管在转移的低FPR阈值下，漂移可以提供小的面向召回的修正。在基准偏移下，优化的线性边界在训练混合上表现尖锐，而类条件均值几何在预定义的困难保留子集上更可靠地保持分离。总体而言，提示级安全证据主要不是一个层间运动信号，而是一个持久的逐层边距几何，其有用组件和读取级偏差在决策关键区域变得可见。

## 1 引言

随着大型语言模型的大规模部署，提示级有害性检测已成为安全护栏的一个实用组成部分\[10 (https://arxiv.org/html/2605.20241#bib.bib10),17 (https://arxiv.org/html/2605.20241#bib.bib1)\]。隐藏状态探针在这种情况下很有吸引力，因为它们可以在生成之前对提示进行分类，同时揭示模型中安全相关信息出现的位置。一种常见的实现是在单个隐藏状态快照上训练一个轻量级线性分类器，通常是选定的中间层或最后一层的最终提示令牌表示\[18 (https://arxiv.org/html/2605.20241#bib.bib11),1 (https://arxiv.org/html/2605.20241#bib.bib8)\]。这种快照探针拟合成本低，在标准基准上表现强劲，且易于检查，因此已成为提示级安全分类的标准基线。

快照探针操作化了一个假设：单一选定的层提供了安全相关信号的充分摘要。两个观察使这一假设值得重新审视。第一，标准基准上的整体性能可能会掩盖在不太明显或模糊提示上的表现。在部署中，这些边界情况尤为重要，因为它们决定了安全系统使用的低假阳性工作点的行为\[20 (https://arxiv.org/html/2605.20241#bib.bib23),21 (https://arxiv.org/html/2605.20241#bib.bib22)\]。第二，分布外（OOD）泛化是机器学习中的一个长期关注点，因为在基准分割上表现良好的模型可能依赖于无法迁移的捷径特征\[6 (https://arxiv.org/html/2605.20241#bib.bib4),19 (https://arxiv.org/html/2605.20241#bib.bib5),14 (https://arxiv.org/html/2605.20241#bib.bib6)\]。最近的工作表明，基于激活的安全探针继承了这一困难，在跨数据集评估中表现出显著退化\[5 (https://arxiv.org/html/2605.20241#bib.bib3)\]。这些观察共同激发了一个更细粒度的问题：不仅多层是否有帮助，而且哪种形式的多层证据在低FPR和偏移场景下仍然有用。

几项工作激发了超越单一隐藏状态快照的探索。调谐透镜和可解释性分析将transformer推理视为逐层细化或预测构建过程\[8 (https://arxiv.org/html/2605.20241#bib.bib15),2 (https://arxiv.org/html/2605.20241#bib.bib14)\]，表示工程方法从隐藏状态中提取任务相关方向\[24 (https://arxiv.org/html/2605.20241#bib.bib9)\]，最近的轨迹方法建模逐层位移而非静态激活\[4 (https://arxiv.org/html/2605.20241#bib.bib18)\]。在安全领域，先前工作已识别出内部激活中的拒绝或安全方向，并将安全相关行为定位到选定的中间或深层\[1 (https://arxiv.org/html/2605.20241#bib.bib8),15 (https://arxiv.org/html/2605.20241#bib.bib2)\]。这些结果支持使用多层证据，但并未决定使用了哪种逐层信号，或者哪些部分能在低FPR阈值和基准偏移下存活。如果原始的逐层分数堆叠是充分的，那么信号分布在多个有信息量的深度上。如果位移模型在静态读取之外增加了信号，那么层间运动携带了每层位置所不具备的信息。如果边界相对摘要足够，那么信号更好地理解为边距剖面相对于安全边界的位置和持久性。区分这些替代方案很重要，因为它们可能产生相似的整体性能，但暗示不同的鲁棒性、复杂性和可解释性权衡；在偏移下，甚至用于定义逐层边距的几何结构也可能很重要。

为了使这些替代方案在经验上可分，我们引入了Geometry-Lite，一个提示级安全探针，它将多层信号沿标记的几何轴进行分解。对于每个transformer层，我们将最终提示令牌表示降维为三个几何读取下的标量边距：类质心距离、\(k\)近邻局部邻域结构，以及监督线性安全边界。这产生了三个按深度索引的标量边距剖面。我们沿三个命名轴（*边距水平*、*层间变化*和*结构形状*）总结每个剖面，并通过L2正则化逻辑回归对得到的39维特征进行分类。

我们将Geometry-Lite与原始多层分数堆叠变体和轨迹基线一起评估，将这些方法视为多层安全信号不同解释之间的受控对比。在来自Llama、Gemma和Qwen系列的九个指令微调骨干模型（1.2B–70B）以及七个安全基准上，Geometry-Lite与最强的原始堆叠变体保持竞争力，同时揭示了逐层信号中哪些组件负责性能。这让我们能够区分原始聚合指标所混淆的两个问题：边距剖面的哪些摘要携带有用信号，以及哪种边距几何在基准偏移下保持稳定。

我们的贡献如下。

- • **Geometry-Lite**。我们引入了一个紧凑的提示级探针，它将逐层隐藏状态转换为质心、局部邻域和监督线性边界读取下的有符号边距剖面，然后沿边界位置、层间变化和剖面形状等命名轴进行总结。
- • **多层安全证据的分解**。我们使用Geometry-Lite以及原始分数堆叠和轨迹基线来分离多层信号的三种解释：跨有信息层聚合、边界相对边距位置，以及显式层间运动。
- • **低FPR和偏移场景下的发现**。在九个骨干和七个基准上，边界位置摘要解释了大部分整体性能。漂移是稀疏的，但可以在转移的低FPR阈值下提供小的召回修正。在基准偏移下，优化的线性边界在训练混合上更尖锐，而类均值几何在预定义的困难保留基准上更可靠地保持分离。

## 2 相关工作

#### 用于安全的隐藏状态探针。

越来越多的研究在transformer隐藏状态上训练线性或浅层分类器以检测有害提示或安全属性。Arditi等人\[1 (https://arxiv.org/html/2605.20241#bib.bib8)\]识别出一个单一的拒绝中介方向，通过类均值差获得，Zou等人\[24 (https://arxiv.org/html/2605.20241#bib.bib9)\]引入了表示工程以跨层提取任务特定的读取方向。相同的均值差（DIM）构造已被研究为一种独立的探针方向\[18 (https://arxiv.org/html/2605.20241#bib.bib11)\]，我们包含一个多层扩展（MultiLayer-DIM）作为基线。Li等人\[15 (https://arxiv.org/html/2605.20241#bib.bib2)\]进一步将安全行为定位到一小组连续的中间层。这些工作激发了我们两种读取家族：类均值方向，如均值差和表示工程探针中使用的，以及优化的线性边界，如标准隐藏状态探针中使用的。

#### 逐层和轨迹视角。

并行的一条工作线将transformer推理视为逐步构建预测的逐层过程\[8 (https://arxiv.org/html/2605.20241#bib.bib15),2 (https://arxiv.org/html/2605.20241#bib.bib14)\]。与我们工作同期，Damirchi等人\[4 (https://arxiv.org/html/2605.20241#bib.bib18)\]提出了Truth as a Trajectory (TaT)，用LSTM建模逐层位移\(\delta_\ell = h_\ell - h_{\ell-1}\)，并在推理、QA和毒性基准上进行评估。我们包含了一个匹配的最终令牌适配，作为Truth-as-a-Trajectory位移LSTM (TaT-Disp-LSTM)基线。我们将TaT-Disp-LSTM作为基于位移的匹配基线，而Geometry-Lite沿可独立消融的标记几何轴总结逐层信号。这对比了一个学习到的序列模型（将位置和运动折叠到单个隐藏状态）与命名的边距剖面摘要。

#### 跨基准评估。

分布外（OOD）泛化是机器学习中的一个长期关注点，模型常常依赖于无法迁移的捷径特征\[6 (https://arxiv.org/html/2605.20241#bib.bib4),14 (https://arxiv.org/html/2605.20241#bib.bib6)\]。在安全探针中，Fomin等人\[5 (https://arxiv.org/html/2605.20241#bib.bib3)\]采用了留一数据集（LODO）协议，保留整个安全数据集并报告显著的跨数据集退化。我们的留一基准（LOBO）协议在单个安全领域内以更细粒度操作，保留七个安全基准中的一个，并在其余六个上训练。这两种协议是互补的，LODO测量跨可能领域不同的数据集迁移，而LOBO测量跨共享提示级安全任务但覆盖范围和危害分类不同的基准迁移。

## 3 方法

### 3.1 问题定义

给定一个因果聊天语言模型\(f\)和用户提示\(x\)，我们应用模型聊天模板，仅对提示令牌进行前向传播。对于每一层\(\ell\)，令\(h^{(\ell)}(x) \in \mathbb{R}^{D}\)为最终提示令牌位置的隐藏状态，在生成任何回复令牌之前。我们收集

\[
H(x) = \big[ h^{(1)}(x), h^{(2)}(x), \ldots, h^{(L)}(x) \big] \in \mathbb{R}^{L \times D}.
\]

给定带标签的提示\(\{(x_i, y_i)\}_{i=1}^N\)，其中\(y_i \in \{0,1\}\)且\(y=1\)表示不安全，我们的目标是一个提示级分类器\(g: \mathbb{R}^{L \times D} \to [0,1]\)，根据生成前的隐藏状态估计\(p(y=1|x)\)。

### 3.2 从隐藏状态到边界相对边距

对于每一层\(\ell\)，我们使用在训练分割上拟合的参考几何将一个\(D\)维隐藏状态降维为标量*边距*。我们使用三种互补几何来覆盖一小组读取偏差：类条件均值几何（构成均值差和表示工程探针的基础\[18, 1, 24\]）；局部邻域结构；以及优化的监督边界（对应标准线性隐藏状态探针\[10, 15\]）。

#### 质心距离。

令\(\mu^+_\ell\)和\(\mu^-_\ell\)分别表示训练集中安全(\(y=0\))和不安全(\(y=1\))类在第\(\ell\)层的类均值。质心边距是到两个类均值的距离之差：

\[
m^\text{cent}_\ell(h) = \|h - \mu^-_\ell\|_2 - \|h - \mu^+_\ell\|_2.
\]

一个偏向安全的表示更接近\(\mu^+_\ell\)而非\(\mu^-_\ell\)，产生正边距。

#### \(k\)近邻局部邻域。

对于隐藏向量\(h\)，令\(\mathcal{N}_k^+(h)\)和\(\mathcal{N}_k^-(h)\)分别表示其在第\(\ell\)层安全和不安全训练池中按余弦距离最近的\(k\)个邻居。定义\(\bar{c}^c_k(h) = \frac{1}{k} \sum_{h' \in \mathcal{N}_k^c(h)} d_{\cos}(h, h')\)，其中\(c \in \{+,-\}\)。\(k\)近邻边距是平均余弦距离之差：

\[
m^\text{knn}_\ell(h) = \bar{c}^-_k(h) - \bar{c}^+_k(h).
\]

这是我们设计中唯一的非线性读取。一个偏向安全的提示与安全邻居的余弦距离更小（\(\bar{c}^+_k\)小），产生正边距。

#### 监督线性边界。

对于每一层\(\ell\)，我们计算训练统计量\(\bar{h}_\ell, s_\ell \in \mathbb{R}^D\)并标准化\(z = (h - \bar{h}_\ell) / s_\ell\)。我们在标准化特征上拟合一个L2正则化逻辑回归，得到权重\(w_\ell\)和偏置\(b_\ell\)；线性边距是其有符号分数：

\[
m^\text{lin}_\ell(h) = w_\ell^\top z + b_\ell.
\]

正边距表示在每层监督边界下偏向安全的表示。

#### 跨深度的边距剖面。

三种几何提供了每层表示的互补视角。应用于所有\(L\)层，它们将\(H(x) \in \mathbb{R}^{L \times D}\)转换为三个标量边距轨迹

\[
m^G(x) = \big[ m^G_1(x), \ldots, m^G_L(x) \big] \in \mathbb{R}^L, \quad G \in \{\text{cent}, \te

相似文章

大语言模型几何表示鲁棒性评测

arXiv cs.CL

# 大语言模型几何表示鲁棒性评测来源：[https://arxiv.org/html/2604.16421](https://arxiv.org/html/2604.16421) Vedant Jawandhia 计算机科学与信息系统系，BITS Pilani \{f20220627, dhruv\.kumar, yash\.sinha\}@pilani\.bits\-pilani\.ac\.in Yash Sinha 计算机科学与信息系统系，BITS Pilani \{f20220627, dhruv\.kumar, yash\.sinha\}@pilani\.bits\-pilani\.ac\.in Ankan Pal 数学系，BITS Pilani

Geometry-Lite: 通过逐层边际几何实现可解释的安全探测

相似文章

大语言模型几何表示鲁棒性评测

大语言模型中欺骗探测探头的压力测试：可伸缩性、鲁棒性与欺骗表征的几何特性

LGMT：基于逻辑的变形测试用于评估LLM推理可靠性

几何潜在推理促使LLM生成更短文本

LinAlg-Bench：揭示大语言模型数学推理中结构性失败模式的诊断性基准

提交意见反馈