从隐藏状态恢复输入文本:基于梯度的仅解码器语言模型反演研究
摘要
本文研究了利用连续嵌入空间优化从仅解码器语言模型的最后一层隐藏状态恢复输入令牌序列的问题,揭示了高频功能词是主要失败点,而内容词几乎完美恢复,实现了高达97.5%的精确匹配率。
arXiv:2607.00852v1 Announce Type: new
本工作研究隐藏状态反演问题:从仅解码器语言模型的最后一层隐藏状态恢复原始输入令牌序列。我们不将反演视为一次性重建,而是将其研究为连续嵌入空间优化,其中软代理在搜索过程中被驱动向泄露的目标,而无需任何硬令牌投影,并且仅在内部循环结束时提交一次令牌。这一设计选择有两个后果,是本文的主要关注点。首先,将优化完全保持在连续空间中暴露了丰富的内部信号:真实令牌的排名轨迹、每个位置的损失曲线以及提交时测量的离散损失。其次,离散损失允许通过累积离散损失评估恢复的正确性。我们进一步分析了哪些令牌破坏了重建,并发现了尖锐的类别不对称性:嵌入矩阵密集区域中带空格前缀的高频功能词主导了失败,而承载内容的令牌几乎完美恢复。在10令牌的C4提示上,随着候选窗口的扩大,精确匹配率从66.9%上升到97.5%(平均相似度0.994),证实大多数错误是可恢复的接近命中而非真正的歧义。与已发布的SIPIT参考进行比较,将这些发现定位:逐步硬投影更快,但连续公式使得优化可观察且其失败可检测。结果表明,GPT-2的最后一层隐藏状态与原始文本一样敏感。
查看缓存全文
缓存时间: 2026/07/02 05:38
# 从隐藏状态恢复输入文本:仅解码器语言模型基于梯度反转的研究
来源:https://arxiv.org/html/2607.00852
11institutetext:克拉科夫AGH科技大学,物理与应用计算机科学学院,
al\. Mickiewicza 30, 30-059 Krakow, Poland
11email:mmajewski@agh\.edu\.pl, mikslo@student\.agh\.edu\.pl###### 摘要
本文研究*隐藏状态反转问题*:从仅解码器语言模型的最后一层隐藏状态中恢复原始输入词元序列。我们不将反转视为一次性重建,而是研究其为一种*连续嵌入空间优化*过程,其中软代理在搜索过程中被驱动向泄露的目标移动,而不进行任何硬词元投影,且仅在内部循环结束时一次性提交词元。这一设计选择产生了两个后果,这也是本文的主要关注点。首先,完全在连续空间中进行优化,暴露了丰富的内部信号——真实词元的排名轨迹、每个位置的损失曲线以及提交时测量的离散损失。其次,离散损失通过累积离散损失使我们能够评估恢复的正确性。我们进一步分析了*哪些*词元破坏了重建,并发现了一个尖锐的分类不对称性:嵌入矩阵密集区域中以空格开头的高频功能词主导了失败,而承载内容的词元几乎被完美恢复。在10个词元的C4提示上,随着候选窗口扩大,精确匹配率从66.9%上升到97.5%(平均相似度0.994),证实大多数错误是可恢复的近失而非真正的模糊性。与已发布的SIPIT[1 (https://arxiv.org/html/2607.00852#bib.bib1)]参考的对比定位了这些发现:每步硬投影更快,但连续公式化使得优化可观察且其失败可检测。结果表明,GPT-2的最后一层隐藏状态与原始文本一样敏感。
## 1 引言
大型语言模型(LLMs)已成为越来越多应用的核心基础设施,其部署已不再局限于单机环境。客户端设备可能本地运行模型的早期层,仅将生成的激活发送到远程服务器完成计算;联邦学习管道中的参与者交换携带其私有输入信息的梯度更新;检索系统预先计算并缓存敏感文档的隐藏状态表示以供后续重用。在这些场景中,原始文本从未离开可信边界——只有浮点数张量被传输。
文本与其神经表示之间的这种分离通常被视为隐私边界,其假设是隐藏状态向量是一种不透明的高维编码,原始单词无法从中恢复。这一假设支撑着分割推理协议[12 (https://arxiv.org/html/2607.00852#bib.bib12)]、返回密集向量而不返回原始查询的嵌入API[10 (https://arxiv.org/html/2607.00852#bib.bib10)],以及传输带有训练示例隐式信息的梯度张量的联邦微调[13 (https://arxiv.org/html/2607.00852#bib.bib13),16 (https://arxiv.org/html/2607.00852#bib.bib16)]。如果不可逆性的假设成立,拦截张量的对手将无法了解文本;如果假设不成立,则整个隐私论证将崩溃。
最近的理论工作表明,在温和条件下,该假设对于仅解码器变压器模型实际上是不正确的。SIPIT结果[1 (https://arxiv.org/html/2607.00852#bib.bib1)]确立了从词元序列到其最后一层隐藏状态的映射是*单射的*:没有两个不同的输入序列会产生相同的隐藏状态向量序列。单射性意味着隐藏状态携带的信息与原始词元完全相同,并且原则上,一个足够强大的算法可以精确恢复输入。因此,实际问题不在于反转*是否*理论可行,而在于*如何高效*执行以及在何种条件下成功。
本文通过基于梯度的方法直接解决这一实际问题:在嵌入空间中,一个连续代理向量被逐位置优化,使得模型预测的隐藏状态与泄露的目标匹配;一旦代理收敛,就被投影到最近的离散词元嵌入上,并提交恢复的词元。该方法需要模型的白盒访问权限——其权重、分词器和嵌入矩阵——并且除了隐藏状态张量的形状之外,不需要了解原始文本的任何信息。
### 1.1 问题陈述
设V\\mathcal\{V\}为固定预训练仅解码器语言模型M\\mathcal\{M\}的词汇表,该模型具有LL个变压器层和隐藏维度nembn\_\{\\mathrm\{emb\}\}。取一个TT个词元的输入序列x=\(x1,...,xT\)∈VTx=\(x\_\{1\},\\dots,x\_\{T\}\)\\in\\mathcal\{V\}^\{T\}。一次前向传播在每个位置tt产生一个最后一层隐藏状态向量ht\(x\)∈Rnembh\_\{t\}\(x\)\\in\\mathbb\{R\}^\{n\_\{\\mathrm\{emb\}\}\}\)。我们将这TT个向量收集为矩阵H\(x\)∈RT×nembH\(x\)\\in\\mathbb\{R\}^\{T\\times n\_\{\\mathrm\{emb\}\}\}\)的行,因此第tt行为ht\(x\)h\_\{t\}\(x\)。由于M\\mathcal\{M\}完全使用因果(从左到右)自注意力[6 (https://arxiv.org/html/2607.00852#bib.bib6)],ht\(x\)h\_\{t\}\(x\)仅依赖于前缀\(x1,...,xt\)\(x\_\{1\},\\dots,x\_\{t\}\);因此,这些行可以从单次前向传播中明确定义。映射x↦H\(x\)x\\mapsto H\(x\)是*前向*方向;本文研究其*逆*——仅从矩阵H\(x\)H\(x\)恢复输入序列xx。
### 1.2 单射性与可解性
该问题仅当x↦H\(x\)x\\mapsto H\(x\)是单射时才有良好定义,即没有两个不同的序列产生相同的隐藏状态矩阵。Nikolaou等人[1 (https://arxiv.org/html/2607.00852#bib.bib1)]证明,在特定条件下(GPT-2均满足),变压器语言模型的前向映射是单射的。单射性意味着隐藏状态固定了输入:每个矩阵H\(x\)H\(x\)恰好来自一个序列xx。因此,恢复只有一个正确答案;困难在于如何高效计算。
### 1.3 相关工作
##### 嵌入反转。
Song和Raghunathan表明,嵌入模型会暴露底层文本的敏感属性[9 (https://arxiv.org/html/2607.00852#bib.bib9)]。Morris等人(vec2text)通过训练一个校正器模型迭代优化假设以匹配目标嵌入,从而从句子嵌入中恢复输入[10 (https://arxiv.org/html/2607.00852#bib.bib10)];Li等人(geia)直接从单个池化嵌入中解码连贯文本[15 (https://arxiv.org/html/2607.00852#bib.bib15)];更广泛的分析证实这种泄露是普遍的[11 (https://arxiv.org/html/2607.00852#bib.bib11)]。与这些方法不同,它们操作于单个池化向量并通常训练专用的反转模型,我们针对的是每个词元的最后一层隐藏状态序列——一个更丰富、具有因果结构的信号——这使得问题可以逐位置分解,并通过精确的词元级别重建而非语义相似度来评估。
##### 对分割推理和联邦推理的隐私攻击。
在交换中间表示的分布式架构中,风险最高:分割推理通过网络边界传递激活张量[12 (https://arxiv.org/html/2607.00852#bib.bib12)],联邦学习共享梯度更新而非原始样本[13 (https://arxiv.org/html/2607.00852#bib.bib13)]。一条密切相关的路线攻击交换的*梯度*:Zhu等人从梯度中重建训练示例(*Deep Leakage from Gradients*)[16 (https://arxiv.org/html/2607.00852#bib.bib16)],tagrecovers从梯度中恢复输入文本[17 (https://arxiv.org/html/2607.00852#bib.bib17)],lamp将梯度匹配与语言模型先验相结合[18 (https://arxiv.org/html/2607.00852#bib.bib18)]。隐藏状态反转是互补的:它针对的是跨越分割推理边界的前向激活而非反向梯度,但共享相同的信息:中间张量会泄露其输入。
## 2 方法
该算法包含三层:一个遍历词元位置的外循环,一个针对当前位置优化连续代理的内基于梯度的循环,以及一个将优化后的代理转换为提交词元的离散验证阶段。算法1 (https://arxiv.org/html/2607.00852#alg1)描述了该过程。与逐步投影方案区分的关键设计原则是严格的*连续搜索与离散决策分离*:在优化过程中,代理从不被快照到真实词元上,并且词元ID仅在内部循环收敛后生成一次。这种分离不仅是风格上的选择——它使得优化可观察(第4节 (https://arxiv.org/html/2607.00852#S4)),因为收敛的连续代理与提交的离散词元之间的差距可以直接测量并用作误差信号。
算法1 逐词元隐藏状态反转0:目标隐藏状态 H=\(h1,...,hT\)H=\(h\_\{1\},\\dots,h\_\{T\}\),模型 ff,嵌入矩阵 EE,阈值
1:recovered←\[\]\\texttt\{recovered\}\\leftarrow\[\\,\]
2:for t=1t=1 to TT do
3:初始化代理嵌入 ete\_\{t\}(随机词元ID的嵌入)
4:for 优化步 k=1,...,Kk=1,\\dots,K do
5:预测 h^t=f\(et∣recovered\)\\hat\{h\}\_\{t\}=f\(e\_\{t\}\\mid\\texttt\{recovered\}\),条件于已提交的前缀
6:计算损失 Lt=MSE\(h^t,ht\)\\mathcal\{L\}\_\{t\}=\\mathrm\{MSE\}\(\\hat\{h\}\_\{t\},h\_\{t\}\)
7:使用Adam更新 ete\_\{t\}(余弦退火学习率,梯度裁剪)
8:if Lt<loss\_th\\mathcal\{L\}\_\{t\}<\\texttt\{loss\\\_th\} then
9:break
10:endif
11:endfor
12:检索 EE 中与 ete\_\{t\} 最近的顶部 CC 个候选
13:通过前向传播验证候选;选择第一个离散误差低于阈值的
14:if 无候选通过,回退到最近邻候选
15:提交词元ID并追加到 recovered
16:endfor
17:return 恢复的词元ID
##### 内部优化。
在每个位置,代理et∈Rnembe\_\{t\}\\in\\mathbb\{R\}^\{n\_\{\\mathrm\{emb\}\}\}通过Adam[5 (https://arxiv.org/html/2607.00852#bib.bib5)]优化以最小化预测隐藏状态与目标隐藏状态之间的MSE。学习率采用余弦退火调度,Tmax=KT\_\{\\mathrm\{max\}\}=K,梯度被裁剪至最大范数1.01.0[8 (https://arxiv.org/html/2607.00852#bib.bib8)];二者共同抑制了Adam在此强非凸目标上的早期步骤不稳定性。当Lt\\mathcal\{L\}\_\{t\}降至loss\_th以下时循环提前退出,否则运行完整预算KK。大多数词元在远小于KK步时就被解决;完整预算仅在难词元上消耗,例如罕见子词片段或嵌入邻域密集的词元。
##### 代理初始化。
代理初始化为均匀随机词元ID的嵌入,因此优化从离散嵌入流形开始而非任意点;这持续减少了达到损失阈值所需的步数。在第4节 (https://arxiv.org/html/2607.00852#S4)中,评估了零向量和随机高斯向量作为替代方案。
##### 离散验证与提交。
内部循环退出后,检索与ete\_\{t\}(在l1\\ell\_\{1\}度量下)最近的顶部CC个词元,并按距离顺序进行单次离散前向传播测试;第一个能在容差内再现hth\_\{t\}的候选被提交。如果无候选通过,则无条件提交最近邻候选作为回退,但不保证能再现目标。这种回退在实践中很少发生,但在没有全局搜索的情况下无法避免。关键的是,该流水线在每个位置只执行*一次*离散搜索——仅在内部循环结束时——与逐步投影策略相反(第4.5节 (https://arxiv.org/html/2607.00852#S4.SS5))。一次性提交意味着离散损失Ltdisc\\mathcal\{L\}\_\{t\}^\{\\mathrm\{disc\}\}(提交词元ID前向传播得到的MSE)在每个位置都是一个干净、定义明确的量:它衡量*离散*决策忠实再现目标的程度,与连续代理收敛的程度无关。第4.3节 (https://arxiv.org/html/2607.00852#S4.SS3)将此量转化为反转是否出现错误的在线指示器。
## 3 实验设置
使用了两个英语语料库。allenai/c4 语料库[14 (https://arxiv.org/html/2607.00852#bib.bib14)]是一个覆盖多个领域的大规模网络爬取数据集,是主要的批量基准:对于每个采样文档,前10个字节对(BPE)[3 (https://arxiv.org/html/2607.00852#bib.bib3)]词元(无特殊词元)构成反转目标。wikimedia/wikipedia 快照(20231101.en)用于损失曲线和排名轨迹分析;提取长度为25–70个字符的句子,进行分词并截断至最多10个词元。
开发和大多数实验在一台配备NVIDIA RTX A6000 GPU(48 GB,CUDA 12.5)的工作站上运行;GPT-2 small适合单个GPU,因此每次运行使用一个GPU。更大批次通过SLURM提交到Athena集群(ACK Cyfronet AGH),使用与工作站相同的全精度推理。
我们报告*精确匹配*(EM),即在*每个*位置都正确恢复的提示比例;*词元准确率*,即正确位置的比例;以及字符级别的*SequenceMatcher相似度*(difflib),它为接近正确的重建提供部分分数。对于诊断,我们还记录每步连续损失、*离散损失*Ltdisc\\mathcal\{L\}\_\{t\}^\{\\mathrm\{disc\}\}(提交词元ID前向传播时的MSE),以及词元v⋆v^\{\\star\}相对于代理uu的*排名*,rank\(v⋆;u\)=\|\{v:‖E\[v\]−u‖<‖E\[v⋆\]−u‖\}\|\\mathrm\{rank\}\(v^\{\star\};u\)=\|\\\{v:\\\|E\[v\]\-u\\\|<\\\|E\[v^\{\star\}\]\-u\\\|\\\}\|,即严格比v⋆v^\{\star\}更接近uu的词汇词元数量(排名0 = 最近邻)。每词元耗时是从代理初始化到提交词元ID的单个位置恢复时间。
基线方法使用Adam,初始学习率α0=0.05\\alpha\_\{0\}=0.05,余弦退火(Tmax=KT\_\{\\mathrm\{max\}\}=K),权重衰减10−510^\{\-5\},梯度裁剪范数1.01.0,步数预算K=1000K=1000,停止阈值loss\_th=10−4\\texttt\{loss\\\_th\}=10^\{\-4\},l1\\ell\_\{1\}候选度量,最大候选数C=2000C=2000,10词元提示,固定种子42。每次消融实验仅改变一个参数,其余保持固定。
## 4 结果
在研究过程中,我们进行了多次超参数优化,因为该方法高度依赖梯度优化。
在此目标上使用普通Adam不稳定:如图1 (https://arxiv.org/html/2607.00852#S4.F1)所示的原始损失曲线,早期损失峰值可能在轨迹稳定前使其偏离。添加余弦退火和梯度裁剪可消除峰值,产生平滑单调下降,并提高精确匹配和相似度(图2 (https://arxiv.org/html/2607.00852#S4.F2));下文各处均使用此稳定配置。
对α0∈\{0.01,...,0.5\}\\alpha\_\{0\}\\in\\\{0\.01,\\dots,0\.5\\\}进行学习率扫描,确定α0=0.05。相似文章
为什么少步文本隐变量在图像隐变量有效时失败?尖锐类别读出中的非承诺性
论文指出了为何确定性少步生成在文本上失败而在图像上成功:文本解码器中尖锐的类别读出放大了微小误差,导致词元翻转,而连续图像解码器是平滑的。论文提出了诊断指标(DABI, CCI)以及逃逸机制,如类别承诺和随机重注入。
扩散应进入语言模型的何处?几何引导的隐藏状态替换
本文提出DiHAL,一种扩散-变换器混合模型,利用基于几何的代理选择预训练语言模型中的某个层,通过扩散桥进行隐藏状态替换,通过避免直接的词元恢复来改进连续扩散语言建模。
交错式语音语言模型在文本空间中隐式工作
本文揭示了交错式语音-文本语言模型在中间层隐式地将语音转录为文本,然后在文本空间中进行预测,再转换回语音,揭示了内部模态交互机制。
RankE:面向离散文本到图像生成的端到端后训练与解码器协同进化
RankE 提出了一种用于离散文本到图像生成的端到端后训练框架,通过联合优化生成器和解码器来解决潜在协变量偏移问题,同时提升对齐度与保真度。
中间层知道什么:从熵动力学检测越狱攻击
本文通过使用logit lens分析跨层的标记级预测熵轨迹,研究了越狱尝试如何被编码在大语言模型的内部表示中。研究发现,中间层的熵动力学比聚合统计更具区分性,提供了一种无需训练且跨多个模型一致的检测方法。