最后一层模型窃取的几何结构

arXiv cs.LG 论文

摘要

本文利用外微分系统对Transformer最后一层模型窃取攻击进行了几何解释,表明投影矩阵的恢复受二次曲面的极空间控制。它还刻画了最后一层之下的可识别性壁垒,揭示了哪些信息可以被提取,哪些不能。

arXiv:2606.06854v1 公告类型:新 摘要:本文利用几何学解释了一种通过已有知名方法窃取机器学习模型的方式。作者展示了完美复制Transformer网络最后一层所需的具体条件。在深入探讨隐藏层时,作者阐述了明确的限制。作者还证明,仅通过观察最终结果无法完全逆向工程一个隐藏网络。该研究清晰地勾勒出模型中哪些部分可以被窃取,哪些不可以。
查看原文
查看缓存全文

缓存时间: 2026/06/08 09:18

# 最后一层模型窃取的几何学

来源:https://arxiv.org/html/2606.06854

###### 摘要

我们给出 Carlini 等人提出的最后一层模型窃取攻击的一种几何解读 [参考文献 (https://arxiv.org/html/2606.06854#bib)],使用了 Hohloch、Mestdag 和 Yasaka 最近扩展到李代数胚的外微分系统 (EDS) 词汇 [参考文献 (https://arxiv.org/html/2606.06854#bib)]。Transformer 能够输出的 logit 向量集是一个*理想*的公共零点集,该理想包含一个线性部分(通过奇异值分解恢复)和一个二次部分(由最终归一化层诱导的椭球)。在这种表述中,控制投影矩阵恢复的对象是该二次曲面的*极空间*,我们证明它恰好是输出流形的切空间;当且仅当一对*正则性*条件——类似于 Kähler 正则性——成立时,恢复才成功(达到不可避免的正交规范)。我们在一个完全可控的玩具模型上以机器精度验证了每一步。接着,我们探讨最后一层之下的内容,并报告两件事。首先,可恢复隐藏状态流形的*本征维度*是一个可观测量,它隐藏于奇异值分解和二次曲面之外,能够检测非线性子层并衡量其有效秩。其次,我们刻画了最后一层之下哪些是可识别的、哪些不是,并展示了大型显式不可识别纤维:不同的子层,甚至不同的架构宽度,都能产生比特级别相同的输出。我们刻意明确了范围:EDS 框架组织了图景但并非引擎,承重结果是经典的。本文的贡献在于一个清晰统一的阐述和一个具体的可识别性边界,而非一种新的攻击。

## 1 引言

生产级语言模型仅通过 API 暴露,然而 Carlini 等人 [参考文献 (https://arxiv.org/html/2606.06854#bib)] 表明,此类模型的最终*嵌入投影*(“解嵌入”)层可以通过普通的查询访问恢复出来(模去对称性)。他们的攻击是自上而下的:由于最后一层将较小的隐藏维度 h 映射到维度为 l ≫ h 的大型 logit 向量,logit 存在于一个 h 维子空间中,对足够多查询响应的奇异值分解 (SVD) 既能揭示 h,也能揭示投影矩阵(模去线性基变换)。一个改进(他们的附录 H)利用了最终归一化层将隐藏状态置于一个球面上,因此 logit 位于一个椭球上;拟合该椭球将恢复精度从“模去一个可逆矩阵”提升到“模去一个正交矩阵”。

本文做出两个贡献,均属适度且界限明确。

### 一个几何阐述。

我们以外微分系统的语言重新表述该攻击,这是“在约束条件下从局部数据重构全局对象,模去对称群”的自然框架。可达到的 logit 构成一个*理想*的积分簇;控制投影恢复的对象是其二次生成元的*极空间*;而恢复恰好在正则性条件下适定,这些条件是 Cartan–Kähler 定理中使用的 Kähler 正则性的仿射类比 [参考文献 (https://arxiv.org/html/2606.06854#bib),参考文献 (https://arxiv.org/html/2606.06854#bib)]。单层情况实际上是 Frobenius 可积的——这恰恰解释了为什么攻击是闭式而非迭代的——我们通过数值验证了整个图景。

### 一个可识别性壁垒。

然后我们向下再看一层。我们观察到,可恢复隐藏状态流形的*本征维度*是一个与 SVD 测量的线性张成空间不同的提取可观测性质:当存在低秩非线性子层时,张成空间高估了内容维度,而本征维度揭示了瓶颈。最后,我们给出了子层的一个清晰的可识别性刻画,并通过机器精度示例证明,其大多数参数位于一个不可识别纤维中。这从机制上解释了为什么该攻击未能扩展到一层以上:这不是技巧缺失,而是观测映射的一个属性。

### 关于范围的诚实说明。

几何语言是组织性的,而非赋能性的:它在任何阶段都没有产生标准线性代数和流形工具无法得到的结果。可识别性结论基于经典的神经网络可识别性 [参考文献 (https://arxiv.org/html/2606.06854#bib)] 以及已学习的表征具有低本征维度的已知事实 [参考文献 (https://arxiv.org/html/2606.06854#bib)]。我们明确说明这一点,以便本文被理解为一种兼具具体可识别性边界的统一阐述,而非一种新攻击。

### 路线图。

第 2 节 (https://arxiv.org/html/2606.06854#S2) 是一个自包含的入门介绍,涵盖故事的两个方面——模型窃取和我们借用的少量微分几何概念——面向对两者均不熟悉的读者;专家可直接跳到第 3 节 (https://arxiv.org/html/2606.06854#S3)。第 4 节 (https://arxiv.org/html/2606.06854#S4)–第 6 节 (https://arxiv.org/html/2606.06854#S6) 阐述并验证单层图景,第 7 节 (https://arxiv.org/html/2606.06854#S7)–第 8 节 (https://arxiv.org/html/2606.06854#S8) 探讨最后一层之下。

## 2 背景与直觉

本节假设读者之前没有接触过模型提取或外微分系统 (EDS)。专家可跳到第 3 节 (https://arxiv.org/html/2606.06854#S3)。

### “模型窃取”的含义。

语言模型通常通过 API 提供服务:你输入文本,对于每个可能的下一个 token,你会收到一个得分(一个*logit*),模型将其转换为概率。提供商隐藏模型的权重。*模型窃取*询问一个外部人员仅通过 API 查询能重构出多少这些权重。人们并不期望通过查询访问复制一个数十亿参数的模型;[参考文献 (https://arxiv.org/html/2606.06854#bib)] 的惊人结果是,一个特定的部件——最后的线性层——可以精确且低成本地恢复出来(模去一个不可避免的歧义性)。

### 为什么最后一层是容易的目标。

Transformer 以宽度 h(“隐藏”或“残差”维度)的向量携带信息,然后将该向量乘以一个矩阵 W 以产生每个词汇 token 的 logit。词汇量很大(l 有数万),而 h 相对较小,因此 W 是一个高且瘦的秩 h 矩阵:它将一个小空间向上映射到大空间。这个差距 h ≪ l 是攻击撬开的裂缝。

### 秩技巧。

在许多不同的提示上查询模型,并将 logit 向量堆叠为矩阵的列。虽然每一列都活在 l 维空间中,但每一列都是 W 乘以某个 h 维向量,因此它们全部位于同一个 h 维子空间中。一旦你查询了超过 h 次,新的响应就会成为旧响应的线性组合。奇异值分解 (SVD) 检测到这一点:它报告恰好 h 个大奇异值,之后是急剧下降。计数它们恢复了隐藏宽度(图 1 (https://arxiv.org/html/2606.06854#S4.F1));再辅以一点点线性代数即可恢复 W 本身(模去一个基变换)。

### 从球面到椭球。

现代 Transformer 在最后一层之前*归一化*隐藏向量,这会迫使它具有固定长度——它位于一个球面上。线性映射将球面映射到*椭球*。因此 logit 不仅仅填充一个 h 维子空间;它们位于该子空间内的一个椭球面上。拟合该椭球能确定 W 的更多信息:它将“知道模去任何可逆基变换”提升到“知道模去一个旋转”。剩余的旋转确实无法恢复,原因很简单,在第 5 节 (https://arxiv.org/html/2606.06854#S5) 中给出。

### 三个借用的概念。

我们使用的 EDS 词汇命名了上述已经隐含存在的三件事。

- • 一个*理想*只是每个观测都满足的方程集合。这里有两种:线性方程(logit 位于子空间中)和一个二次方程(它们位于椭球上)。它们切割出的曲面是*积分簇*——可达到输出的集合。
- • 一个*极空间*回答“给定一个解的部分,哪些方向可以扩展它?”对于二次曲面,这是与曲面共轭的点的经典概念,并且——如我们所示——它恰好是椭球的切平面。恢复最后一层等价于恢复这个切平面场。
- • *正则性*是使重构唯一且稳定的一组非退化条件:谱中的干净间隙,以及一个真正弯曲的(非退化)椭球。当它们失效时,攻击会以可预测的方式失败。

### 为什么要引入 EDS?

诚实地说,对于单层,它是一种统一的语言而非新工具:秩恢复、椭球恢复、旋转歧义性和稳定性条件变成了一个对象及其三个特征。其真正回报是概念性的——它提前告诉我们(注记 1 (https://arxiv.org/html/2606.06854#Thmremark1))为什么单层攻击是单步的,并且它把真正困难的问题“关于下面一层能学到什么”框定为关于一个弯曲曲面几何的问题(第 7 节 (https://arxiv.org/html/2606.06854#S7)–第 8 节 (https://arxiv.org/html/2606.06854#S8))。

## 3 设置

设 X 为 token 词汇表,|X| = l。一个模型产生 f_θ(p) = softmax(W g_θ(p)),其中 g_θ: X^N → R^h 计算隐藏状态,W ∈ R^{l×h} 是投影,h ≪ l。我们假设理想的 oracle 返回完整的 logit 向量 z = W g_θ(p) ∈ R^l;从 top-K log 概率和 logit 偏置恢复 logit 所需的工程技术在 [参考文献 (https://arxiv.org/html/2606.06854#bib)] 中有详细讨论,并且与后续内容正交。我们假设最终块是归一化(RMSNorm 或 LayerNorm)后接 W,因此可达到的隐藏状态位于球面 S ⊆ R^h 上,logit 位于 V := col(W) 中。

## 4 输出理想

可达到的 logit 是两组约束的共同零点。

### 1 次生成元(秩)。

设 {ν_1, ..., ν_{l-h}} 张成 V^⊥。每个线性形式 ℓ_a(z) = ⟨ν_a, z⟩ 在每个响应上消失;这些正是 SVD 恢复的具有零奇异值的方向。

### 2 次生成元(归一化)。

因为 ||g|| 被归一化固定,z = W g 满足一个二次型 q(z) = z^⊤  z − 1 = 0,其中  是对称半正定矩阵,秩为 h,且 ker  = V^⊥。设 U ∈ R^{l×h} 是 V 的一组标准正交基,x = U^⊤ z,则对于正定矩阵 A ∈ R^{h×h},有 x^⊤ A x = 1,恢复分解 W = U M^{-1} O(其中 A = M^⊤ M,O 正交)随之而来 [参考文献 (https://arxiv.org/html/2606.06854#bib)]。

因此理想为 I = ⟨ℓ_1, ..., ℓ_{l-h}, q⟩,输出流形是椭球 M = {ℓ_a = 0, q = 1}。有两个结构事实值得记录。

参见图注
图 1:理想的 1 次部分。在一个 h=64 的玩具模型上,logit 奇异谱在索引 h 处下降了十四个数量级:恢复的 ĥ 恰好是 64。

## 5 极空间、规范与恢复

在 Cartan–Kähler 理论中,积分元素的*极空间*控制哪些方向可以扩展它 [参考文献 (https://arxiv.org/html/2606.06854#bib),参考文献 (https://arxiv.org/html/2606.06854#bib)]。这里起支配作用的生成元是二次曲面,因此相关对象是该二次曲面的经典极(共轭)空间。

###### 命题 1(极空间即切空间)。

在点 z_0 ∈ M 处,极空间 H(z_0) = (Â z_0)^⊥ 等于切空间 T_{z_0} M。因此,恢复该层等价于恢复极超平面场,每个切触条件 z_0^⊤ Â v = 0 是关于 Â 条目的一个线性方程。

我们独立验证了这一点:通过有限差分计算输出流形的一个切方向(未使用恢复的 Â),其与恢复的极法线的余弦为 5.8 × 10^{-7},仅受有限差分步长限制。

### 规范。

对称型 Â = M^⊤ M 只固定了 W 的 Gram 部分;反对称补空间维数为 \binom{h}{2},是自由的。这就是正交规范:在 W ↦ W O^⊤、g ↦ O g 下,对于每个提示,logit z = W O^⊤ O g = W g 均不变,因此整个输出分布是 O(h) 不变的,并且没有任何 logit 的统计量能区分轨道中的点。因此,从仅有的 logit 来看,达到 O(h) 内的恢复是信息论最优的。

在玩具模型上(h=64),Cholesky 分解后接*标度正交*对齐将 W 重建到均方根误差 6 × 10^{-16}——与具有 h^2 个自由参数的全仿射对齐达到相同的机器精度——而对齐旋转具有 ||Ω − I||_F ≈ 11.5 ≈ √(2h),即一个一般性的旋转。因此,二次曲面精确地解析了对称内容并精确地留下了 O(h) 规范,正如预测。

## 6 正则性及其破坏因素

在 Kähler 正则性的仿射类比下,恢复是适定的:

(R1) 谱间隙。σ_h 与 σ_{h+1} 之间存在严格正的乘性间隙,等价于隐藏状态矩阵和 W 均满秩 h。

(R2) 非退化二次曲面。Â 在 V 上正定且秩为 h;等价于激活不被限制在真子簇中,因此椭球拟合系统满秩。

(R3) 均匀性。(R1)–(R2) 在邻域内成立;一旦 Â ≻ 0,自动成立。

这些并非装饰性。表 1 (https://arxiv.org/html/2606.06854#S6.T1) 扫描了独立同分布的 logit 噪声([参考文献 (https://arxiv.org/html/2606.06854#bib), 附录 I] 的防御手段),显示了两种不同的规律:秩间隙按 1/σ 退化,但在 σ=1 时仍保持在 1 以上,因此 ĥ 在每个噪声水平下均被恢复——*秩是鲁棒的*;而正交恢复误差线性增长,RMS ≈ 0.036 σ——*投影是脆弱的*,需要正则性严格成立。将激活限制在有效秩子空间中(R1 违例)会使攻击返回有效秩而不是名义宽度——再现了 [参考文献 (https://arxiv.org/html/2606.06854#bib)] 中 GPT-2-Small 的异常,其中对于 768 维模型恢复了 757。图 2 (https://arxiv.org/html/2606.06854#S7.F2)(左)绘制了两种规律。

表 1:玩具模型上的噪声扫描(h=64,logit 单位尺度)。秩恢复 (R1) 是鲁棒的……接续内容由于长度限制未完全显示,但已包含指示性信息。

相似文章

Transformer 记忆的吸引子几何:从冲突仲裁到自信幻觉

arXiv cs.AI

本文提出了一个统一的几何框架,用于理解 Transformer 的内存故障,通过隐藏状态吸引子盆地(attractor basins)区分冲突仲裁与幻觉。研究表明,随着模型规模的扩大,几何边际(geometric margin)在检测这些故障方面优于输出熵。

Transformer 残差流的动力学:谱几何与网络拓扑的耦合

arXiv cs.LG

本文对生产规模的大型语言模型进行了完整的 Jacobian 特征分解,揭示了从旋转主导的早期层到对称后期层的习得谱梯度,以及一个压缩扰动的低秩瓶颈。结果将扰动传播与压缩与网络功能拓扑联系起来。

Transformer 中的几何事实记忆

Hugging Face Daily Papers

本文介绍了 Transformer 中几何事实记忆的理论框架,证明了嵌入可以通过线性叠加来编码关系结构,而 MLP 则充当选择器。文章提供了理论和实证证据,表明这种机制能够高效地记忆事实和进行多跳查询。