隐藏状态隐私存在空中间

arXiv cs.LG 2026/05/26 04:00 论文

摘要

本文证明，Transformer隐藏状态的高斯发布无法同时实现适度的隐私和效用，证实了'空中间'现象，并提出了一种分裂记忆架构来克服这一局限。

arXiv:2605.24042v1 公告类型：新摘要：在我们测试的用于单层隐藏状态隐私的1,536个高斯发布协方差中，没有一个能同时实现对自适应检索攻击者的适度效用和适度隐私。我们证明了一个互补的费雪球下界：每个在O(1)费雪效用下的满秩高斯发布都存在一个方向，其马氏距离信号随隐藏宽度线性增长，排除了该类中的均匀高斯安全性，并与经验上的空中间现象一致。对角逆费雪发布$\Sigma^\star_{\mathrm{diag}}(\mathcal{K}) = (2\mathcal{K}/d)\,\mathrm{diag}(1/F_{ii})$是在一阶KL预算$\mathcal{K}$下唯一的最小最大最优对角机制，也是唯一在32个模型层网格的每个点上使最坏攻击者top-1准确率≤0.001的发布，但它处于隐私/效用边缘而非填满中间区域。在欧几里得检索下实现13倍帕累托改进的广义特征机制，在面对自适应马氏距离攻击者时崩溃到100%的top-1准确率；全轨迹序列逆变器能恢复干净GPT-2前缀的94%，但在$\Sigma_{\mathrm{diag}}$下恢复率为0%。从头训练的分裂记忆Transformer在90M参数时达到$G_{\mathrm{Mah}} \in [20, 33]$，并在固定token的语言建模损失惩罚下，从30M到1B参数范围内保持比同等预算GPT基线6-24倍的优势；预训练模型最高达到9.3。这些结果将隐藏状态发布从高斯类内的机制设计重新定义为架构或发布协同设计。

查看原文

查看缓存全文

缓存时间: 2026/05/26 08:59

# 隐藏状态隐私存在空心的中部 来源：https://arxiv.org/html/2605.24042 Alexander Okezue Bell 斯坦福大学 450 Jane Stanford Way, Stanford, CA 94305 okezue@stanford\.edu ###### 摘要 在针对单层隐藏状态隐私测试的1,536个高斯释放协方差中，没有一个能同时达到针对自适应检索攻击者的中等效用和中等隐私。我们证明了一个互补的Fisher球下界：每个在O(1)Fisher效用下的满秩高斯释放都存在一个方向，其马氏(Mahalanobis)信号随隐藏宽度线性增长，从而排除了该类中的均匀高斯安全性，并与经验上的空心中部现象一致。对角逆Fisher释放Σdiag⋆(K)=(2K/d) diag(1/Fii)是在一阶KL预算K下的唯一极小极大最优对角机制，也是唯一在每个32模型层网格点上最坏情况攻击者top-1准确率≤0.001的释放机制，但它位于隐私/效用边界上，而不是填充中部。在欧几里得检索下达到13倍Pareto缩减的广义特征机制，在自适应马氏攻击者下崩溃为100%的top-1准确率，而全轨迹序列逆映射器可以恢复94%的干净GPT-2前缀，但在Σdiag下为0%。从头训练的分割记忆变换器在90M参数时达到GMah∈[20,33]，并且在固定token的语言建模损失惩罚下，从30M到1B参数范围内，对同等预算的GPT基线保持66–24倍的优。预训练模型最高达到9.3。这些结果将隐藏状态释放问题从高斯类内的机制设计重新定义为架构或释放的协同设计。 ## 1 引言 仅有解码器的变换器(decoder-only transformer)的隐藏状态几乎必然在输入提示上是单射的(Nikolaou等人，2026 (https://arxiv.org/html/2605.24042#bib.bib1))，因此任何缓存的、记录的或向量索引的激活(Tang 和 others，2025 (https://arxiv.org/html/2605.24042#bib.bib10); Liu 等人，2024 (https://arxiv.org/html/2605.24042#bib.bib11); Morris 等人，2023 (https://arxiv.org/html/2605.24042#bib.bib9))都是用户输入的功能上无损的记录。自然的防御是高斯释放，即在存储激活之前添加噪声。本文针对我们评估的具体释放对象（单层残差流激活，将完整的键-值(KV)缓存释放留作部署动机的扩展）回答的问题是：高斯释放类是否足够？答案是否定的。在我们测试的1,536个高斯协方差中，没有一个能同时达到针对自适应检索攻击者的中等效用和中等隐私，并且我们证明了在Fisher球对手类上的一个互补最坏情况阻碍，这与该空心中部一致，并排除了任何在O(1)Fisher效用下的满秩高斯释放的均匀安全性。解决方案是重新设计模型。我们引入了一种从头训练的分割记忆架构，该架构干净地位于高斯类无法达到的中等-两者区域内，伴随着一个固定token的语言建模损失惩罚。证明依赖于隐藏状态的梯度-协方差分解。将对每个例子的损失-梯度协方差对角化，得到由前k个特征向量张成的Fisher子空间PB (Amari, 1998 (https://arxiv.org/html/2605.24042#bib.bib7); Martens, 2020 (https://arxiv.org/html/2605.24042#bib.bib8))及其补空间PI。在现代7-14B模型上，用PIh替换h，当k=128时，以较小的KL保留输出分布，而用PBh替换h则会以几个nats的代价破坏预测。这种不对称性与谱集中性相关。在Mistral-7B (Jiang 等人，2023 (https://arxiv.org/html/2605.24042#bib.bib18))、Qwen3-14B (Qwen Team，2025 (https://arxiv.org/html/2605.24042#bib.bib19))和DeepSeek-R1-14B (DeepSeek-AI，2025 (https://arxiv.org/html/2605.24042#bib.bib20))上，ncal=200的经验梯度协方差的前128个特征向量捕获了超过99%的校准样本能量，尽管分裂半验证显示该子空间本身在此校准规模下并不稳定。在GPT-2系列(Radford 等人，2019 (https://arxiv.org/html/2605.24042#bib.bib12))上，谱是分散的，不对称性减弱或逆转。我们将效用-隐私权衡形式化为高斯释放与贝叶斯最优检索攻击者之间的极小极大问题，推导出协方差感知的最优解ΣMah⋆的闭式表达式，并证明在Fisher球对手类上的一个最坏情况上界，表明每个满秩高斯释放都存在一个在d中指数可辨别的方向，从而在恒定效用下排除了均匀高斯安全性，同时与在已实现的提示-差异分布上的经验空心中部保持一致。对角逆Fisher机制Σdiag=σ2 diag(1/Fii)是针对该类的最优对角释放的唯一极小极大最优解，并且是经验上在32模型层扫描的每个点上最坏情况攻击者top-1准确率≤0.001的唯一高斯机制。预测标量GMah等于迹归一化Fisher与边际协方差之间的平方矩阵保真度的倒数，其投影分离下界指明了哪些架构允许较大的防御。广义特征机制在Mistral-7B上达到了测量的13倍欧几里得Pareto增益，但在自适应攻击下崩溃为100% top-1准确率，并且在1,536个高斯单元中没有一个同时满足中等效用和中等隐私。在从124M到14.8B的十个模型上缩放，给出了经验定律 mB/mfull ≈ √(k/d) 且 R²=0.93；固定投影器各向同性定理（附录Q.5 (https://arxiv.org/html/2605.24042#A17.SS5)）给出了将此解读为任意秩k投影几何的充分条件。两个建设性结果完成了图景。(1) 全轨迹序列逆映射器在精确匹配下恢复了94%的干净GPT-2前缀，但在Σdiag下为0%；(2) 从头训练的分割记忆变换器(SMT)，其logits从低维骨干读取，在探测层上相对于同等预算的GPT基线在1.1–1.3的固定token语言建模损失惩罚下达到GMah∈[20,33]。计算使用、代码、数据和SMT检查点见附录AC (https://arxiv.org/html/2605.24042#A29)和AD (https://arxiv.org/html/2605.24042#A30)。 ## 2 背景 我们的分析适用于仅有解码器的变换器语言模型。对于一个具有词汇表V、上下文长度K和隐藏宽度d的模型，以及一个输入 x ∈ V^{≤K}，我们用 hl(x) ∈ R^d 表示在层 l 处的最后一个token的残差流状态。下一个token的分布是 pθ(·|x) = softmax(Wu · norm(hL(x)))。对于前缀 x 和真实的下一个token y，L(x,y) = -log pθ(y|x) 是每个token的交叉熵损失。我们始终在单个内部层 l 上工作，通常选择在比例深度 l=L/2，并且当上下文明确时，记 h=hl(x)。Nikolaou 等人 (2026 (https://arxiv.org/html/2605.24042#bib.bib1)) 证明了映射 x ↦ hl(x) 在标准权重初始化下对于仅有解码器的变换器几乎必然是单射的，并且在梯度训练过程中从未引入碰撞。他们用定理补充了SipIt算法，该算法在正比于前缀长度的时间内从 hl(x) 重建 x，并在六个生产规模变换器上的数十亿次成对比较中观察到零碰撞。任何缓存、记录、量化或传输隐藏状态（KV缓存压缩 (Tang 和 others，2025 (https://arxiv.org/html/2605.24042#bib.bib10); Liu 等人，2024 (https://arxiv.org/html/2605.24042#bib.bib11))、基于嵌入的检索 (Morris 等人，2023 (https://arxiv.org/html/2605.24042#bib.bib9))）的系统因此都在处理用户输入的功能上无损的副本。控制 h 如何参与预测的几何对象是隐藏状态的Fisher信息 Fx = E_{y~pθ(·|h)} [∇_h log pθ(y|h) ∇_h log pθ(y|h)^⊤]，其总体版本为 F = E_x[Fx]。其特征向量是沿着该方向对 h 的微小扰动会产生最大的预测token分布变化的方向 (Amari, 1998 (https://arxiv.org/html/2605.24042#bib.bib7); Martens, 2020 (https://arxiv.org/html/2605.24042#bib.bib8))。在实践中，我们计算经验梯度协方差 Σg = (1/n) Σ_{i=1}^n ∇_h L(x_i, y_i) ∇_h L(x_i, y_i)^⊤，并使用其前 k 个特征向量作为 Fisher 子空间基 PB = UB UB^⊤。在总体极限下，两者在交叉熵最优处相差一个缩放因子 (Kunstner 等人，2019 (https://arxiv.org/html/2605.24042#bib.bib30))；我们并不声称在有限校准规模下等式成立。所有定理都是针对 F 陈述的；所有测量都用 Σg 替代。先前的工作已经表明隐藏激活会泄露关于其输入的大量信息 (Morris 等人，2023 (https://arxiv.org/html/2605.24042#bib.bib9); Song 和 Raghunathan, 2020 (https://arxiv.org/html/2605.24042#bib.bib32); Pan 等人，2020 (https://arxiv.org/html/2605.24042#bib.bib33); Li 和 others，2025 (https://arxiv.org/html/2605.24042#bib.bib37))，因此仍然开放的问题是可恢复信号的几何结构及其与模型用于预测的方向的关系。 ## 3 几何设置 我们通过三个半正定矩阵来刻画固定层处隐藏状态的几何。状态协方差 Σh = E_x[h(x) h(x)^⊤] 描述了隐藏状态在 R^d 中的位置。第2节 (https://arxiv.org/html/2605.24042#S2) 中定义的 Fisher F 描述了损失对 h 扰动的敏感位置。边际方向协方差 Σδ = E_{x,x'} [δ̂_{x,x'} δ̂_{x,x'}^⊤]，其中 δ̂_{x,x'} = (h(x) - h(x'))/||h(x) - h(x')||，描述了不同提示沿其区分的方向。前 Fisher 子空间 PB 在理论上是由 F 的前 k 个特征向量张成的正交投影器，在实践中是由 Σg 的前 k 个特征向量张成；其补空间 PI = I - PB 是低 Fisher 补。三个标量总结了模型的几何。Fisher 集中度 Ek = Σ_{i=1}^k λ_i^F / Σ_{i=1}^d λ_i^F 测量了梯度方差中位于前 k 子空间的比例。通道耦合 κ = tr(PB Σδ) / ((k/d) tr(Σδ)) 是 PB 捕获的 Σδ 质量与随机投影基线的比率。最后，有效秩分数 ρ = r95/d，其中 r95 = min{k: Ek ≥ 0.95}，是一个尺度归一化的谱摘要。对于 7-14B 模型，其中 ncal=200，ρ 是样本有效秩估计，而不是稳定的投影器估计（附录 A (https://arxiv.org/html/2605.24042#A1)）。经验上，Ek 和累积谱与训练规模和架构选择相关，而 κ 测量与边际协方差的对齐。KL 和 l2 度量看到不同的对象。在小扰动 δh 下，干净和扰动后下一个 token 分布之间的期望 KL 具有二阶展开 Ex[KL(pθ(·|h) || pθ(·|h+δh))] = (1/2) δh^⊤ F δh + O(||δh||^3)，(1) 所以 KL 看到 F。中位最近邻 l2 边际由 Σδ 控制，因为 ||P(h_x - h_{x'})||^2 = ||h_x - h_{x'}||^2 · δ̂_{x,x'}^⊤ P δ̂_{x,x'}。局部展开控制加性噪声效用 ( (1/2) tr(F Σ) )；确定性投影如 h ↦ PI h 的扰动 δh = -PB h 在 Fisher 度量下并不小，因此我们将其 KL 视为经验诊断而非二次预测。 ###### 命题1 (随机投影边际律)。令 P 为 R^d 中任意固定秩 k 的正交投影器，令 u 为从 S^{d-1} 均匀抽取的随机单位向量。则 ||Pu||^2 ~ Beta(k/2, (d-k)/2)，均值为 k/d，并且当 d→∞ 时 E[||Pu||] → √(k/d)。一个有限样本的固定投影器集中版本（附录 Q.5 (https://arxiv.org/html/2605.24042#A17.SS5)）将此作为任意秩 k 投影的预测，只要前缀间差异分布近似各向同性。因此，PB 是任何固定秩 k 投影器，而非特指 Fisher 特征空间，与数据是一致的，并且分解的结构内容存在于 KL 而非 l2 边际中。 ##### 测量协议和范围。我们使用十个在 124M–14.8B 参数之间的开放权重仅有解码器的变换器：GPT-2 Small/Large/XL (Radford 等人，2019 (https://arxiv.org/html/2605.24042#bib.bib12))、TinyLlama-1.1B (Touvron 等人，2023 (https://arxiv.org/html/2605.24042#bib.bib31))、Phi-2、Qwen2.5-3B、Qwen3-14B (Qwen Team，2025 (https://arxiv.org/html/2605.24042#bib.bib19))、Mistral-7B (Jiang 等人，2023 (https://arxiv.org/html/2605.24042#bib.bib18))、DeepSeek-R1-Distill-Qwen-14B (DeepSeek-AI，2025 (https://arxiv.org/html/2605.24042#bib.bib20)) 和 OLMoE-1B-7B (Muennighoff 等人，2025 (https://arxiv.org/html/2605.24042#bib.bib21))，在比例深度 l=L/2 处，每个前缀释放一个单一的最后一个token残差流隐藏状态，前缀长度为 32 或 64，WikiText 风格的数据，针对 50,000 个干扰库（完整的 KV 缓存释放是动机性的，但超出范围）。我们对 ≤3B 模型使用 ncal=2000，对 7-14B 模型使用 ncal=200 计算 Σg（样本协方差注意事项见附录 A (https://arxiv.org/html/2605.24042#A1)）。对于 KL，我们通过前向钩子将中层 h 替换为 PB h 或 PI h。对于检索，攻击者看到 h̃ = h + ξ，并在隐藏空间中对干扰项进行排序。

隐藏状态隐私存在空中间

相似文章

MemPrivacy：面向边缘-云智能体的隐私保护个性化记忆管理

Transformer 记忆的吸引子几何：从冲突仲裁到自信幻觉

VaultGemma：全球最强大的差分隐私大型语言模型

利用非对称数据进行遗忘：通过公共数据改善遗忘-效用权衡

Siri的未来，或者说：为什么私有推理还不够隐私

提交意见反馈