论共享嵌入序列模型中指令与数据的不可分离性

arXiv cs.AI 2026/06/29 04:00 论文

摘要

本文形式化了在共享嵌入序列模型中完美防范提示注入的不可能性，证明没有管内机制能够保证语义忠实控制，原因是指令与数据的表示不可分离，类似于冯·诺依曼架构中的代码-数据混淆。

arXiv:2606.27567v1 公告类型：cross 摘要：提示注入是LLM集成应用的头号安全风险，但迄今为止提出的所有防御措施均已被攻破。我们证明这并非巧合：在缺乏强制控制-数据分离的共享嵌入架构中，完美的提示注入防范在数学上是不可能的。我们将提示系统形式化为Prompted Action Models，其输出包括控制授权动作：拒绝决策、工具授权、策略路由和内存写入。我们定义Semantic-Faithful Control (SFC)，即这种行为仅取决于不可信输入的含义，而非其编码方式。然后，我们通过三个结果证明SFC在共享管道内无法实现：来源恢复不可能性（共享表示使可信与不可信内容在统计上不可分离，受总变差距离限制）；控制路径暴露（不可信令牌通过决定输出的同一注意力值聚合进入控制相关计算）；以及有限覆盖不变性差距（有限训练无法在无限语义等价类上认证不变性）。我们在生产分词器和模型上对每个量进行了测量。该结果是结构性的，而非当前防御的漏洞。它类似于冯·诺依曼机器中导致缓冲区溢出的代码-数据混淆，这类漏洞耗费了数十年分层防御（DEP、Write-XOR-Execute、ASLR、栈金丝雀，最终是内存安全语言）才得以控制，因为没有任何单一机制足够。启示相同：提示注入无法通过更好的管道内分类或对齐来消除。它需要指令和数据通道的架构分离。我们指出了根本原因及其所需的解决方案类别。

查看原文

查看缓存全文

缓存时间: 2026/06/29 05:29

# 关于共享嵌入序列模型中指令与数据不可分离性的探讨

来源：https://arxiv.org/html/2606.27567

Shruti Lohani 独立研究者 shrutilohani9@gmail\.com  
Avijit Kumar 独立研究者 avijitkumar2002@gmail\.com  
（2026 年 6 月）

###### 摘要

提示注入通常被视为一种可以通过更好的训练、过滤或护栏来修补的缺陷。我们证明，对于一大类基于提示的神经架构，在共享表示管道本身内无法保证完美的提示注入预防。我们将基于提示的系统形式化为*提示动作模型*，其输出不仅包括令牌生成，还包括控制性动作，如拒绝决策、工具授权、策略路由和内存写入操作。然后，我们定义了一个安全属性，称为*语义忠实控制* (SFC)，要求控制性行为仅依赖于不可信输入的语义内容，而不依赖于其表示编码中语义无关的变化。我们的分析分为三个部分。首先，我们推导出一个来源恢复的不可能性结果：当可信指令和不可信内容通过共享表示处理时，来源恢复的贝叶斯最优误差由相应表示分布之间的总变差距离决定，并且当这些分布不互斥时，该误差非零。其次，我们证明，在标准的共享注意力架构中，不可信内容通过与用于确定控制性输出的相同的值聚合路径进入控制相关计算。第三，将这些事实与有限覆盖不变性论证相结合，我们证明，没有仅作用于共享表示管道内的机制能保证完美的语义忠实控制。我们的结果并不意味着有用的系统必须忽略用户输入，也不意味着所有防御在实践中都是同等无效的。相反，它建立了一个明确的限制：在缺乏强制分离可信控制和不可信内容的共享嵌入架构内，完美的提示注入预防是不可能的。这一结果在结构上类似于冯·诺依曼机器中导致缓冲区溢出漏洞的代码-数据混淆。该问题需要长达数十年的分层防御，结合架构缓解措施 (DEP, W⊕X)、运行时保护 (ASLR, 栈金丝雀) 以及最终的内存安全语言，因为没有任何单一机制是足够的。其意义在于架构层面：完全的保护需要强制执行控制分离的机制，而不仅仅是改进管道内的分类或对齐。

关键词：提示注入，不可能性定理，语义忠实控制，无干扰，AI 安全，冯·诺依曼架构

## 1 引言

将大型语言模型 (LLM) 集成到处理不可信用户输入的应用中，产生了一类统称为**提示注入**的漏洞 (Greshake et al.,2023 (https://arxiv.org/html/2606.27567#bib.bib11); Liu et al.,2024 (https://arxiv.org/html/2606.27567#bib.bib15))。在提示注入攻击中，对手制作用户数据，当模型将其与系统指令一起处理时，会导致模型偏离其预期行为，执行攻击者的指令而非（或除了）系统的指令。研究界已产生大量防御措施：指令微调、RLHF、护栏分类器、困惑度过滤、三明治防御、XML 标记、表示工程和断路器 (Zou et al.,2024 (https://arxiv.org/html/2606.27567#bib.bib23))。然而，没有一种提出的防御被证明是稳健的；许多在发表后数周内就被攻破。将在多轮对话中分解有害查询的多轮攻击在开源模型上的成功率高达 90-99% (Hakim et al.,2026 (https://arxiv.org/html/2606.27567#bib.bib12))。即使是目前最先进的表示级防御——断路器，在 Crescendo 攻击下也会降至 54.2% 的攻击成功率 (Bullwinkel et al.,2025 (https://arxiv.org/html/2606.27567#bib.bib6))。通用对抗后缀 (Zou et al.,2023 (https://arxiv.org/html/2606.27567#bib.bib22)) 证明，附加到有害请求上的语义可忽略的令牌字符串可以系统地翻转多个对齐模型的拒绝行为。

本文提出一个更基本的问题：**在当前架构下，完美的提示注入预防在理论上是否可能？** 我们证明答案是否定的。具体来说，我们证明，在缺乏强制控制-数据分离的共享嵌入架构中，transformer 处理指令和数据的共享表示空间使得提示注入的完美预防在数学上是不可能的。这不是对当前防御不足的陈述。这是关于架构本身的陈述。

#### 历史先例：冯·诺依曼类比。我们的结果有一个精确的历史平行。冯·诺依曼架构将代码和数据存储在共享内存中。这种设计选择优雅而强大，也是缓冲区溢出漏洞的根本原因：攻击者可以制作数据，当写入内存时，它被**解释为代码**。这一类漏洞于 1970 年代被发现 (Anderson,1972 (https://arxiv.org/html/2606.27567#bib.bib2))，并需要大约三十年的分层防御才能有意义地加以控制：源代码级边界检查和更安全的库函数、栈金丝雀 (StackGuard, 1998)、地址空间布局随机化 (ASLR)、硬件 No-Execute 位 (NX/DEP, AMD 2003) 强制执行 Write-XOR-Execute 策略、控制流完整性，以及最终采用内存安全语言 (Rust, Go, Java)，这些语言在语言层面消除了该漏洞类别。每个机制都关闭了特定的利用模式，但完整的防御姿态需要架构、运行时和语言层面的干预相结合。

我们证明 transformer 架构具有类似的结构性漏洞。嵌入函数将指令和数据都映射到同一向量空间。一旦嵌入，它们的类型就被擦除了。正如冯·诺依曼机器在没有外部强制的情况下无法区分共享内存中的代码和数据一样，在没有架构分离的情况下，transformer 无法保证控制性行为仅依赖于语义内容，而不是依赖于对抗性的表示操作。

#### 贡献。我们做出以下贡献：
1. 1.我们形式化了**语义忠实控制** (SFC)，一个要求控制性行为依赖于不可信输入的语义内容，而不是编码中语义无关变化的安全属性。我们证明 SFC 是用于工具使用、内存和策略路由的智能体系统的最小安全属性。
2. 2.我们证明了**不可分离性定理**：在任何具有暴露控制路径且没有不可变来源强制执行的共享嵌入架构中，无法在共享表示管道内保证完美的 SFC。该证明结合了来源恢复的不可能性（通过总变差距离）、控制路径暴露结果（不可信值通过注意力进入控制计算）以及有限覆盖不变性论证（有限训练无法认证无限编码等价类上的不变性）。
3. 3.我们形式化了提示注入和缓冲区溢出之间的结构同构，基于架构属性之间的精确对应关系来支撑这一类比。

## 2 形式化框架

### 2.1 提示动作模型

###### 定义 1 (提示动作模型)。一个**提示动作模型**是一个元组 M=(Σ,d,E,f,A)，其中：
- • Σ 是一个有限令牌词汇表，|Σ|=V。
- • d∈N 是嵌入维度。
- • E:Σ→R^d 是一个**共享嵌入函数**，扩展至序列 E:Σ^*→(R^d)^*。
- • A 是一个有限或可数的**动作空间**，包含所有外部可观察的模型动作，包括令牌生成、工具调用、策略路由和内存写入操作。
- • f:(R^d)^*→Δ(A) 是模型函数，将嵌入序列映射到 A 上的概率分布。

###### 定义 2 (带来源的提示输入)。一个**提示输入**是连接 x=(s∥u)，其中：
- • s∈Σ^* 是**可信指令前缀**（由应用开发者指定）。
- • u∈Σ^* 是**不可信用户内容**（由用户或对手指定）。
- • ∥ 表示令牌序列中的连接。
x 中的每个位置都有一个来源变量 R_j∈{trusted, untrusted}。模型处理组合嵌入序列 E(s∥u)=(E(x_1),...,E(x_{|x|}))。

### 2.2 安全属性：语义忠实控制

###### 定义 3 (语义忠实控制)。令 Y(x)∈Δ(A) 表示模型在提示输入 x=(s∥u) 上的动作分布，并令 Π_ctrl:Δ(A)→Δ(A_ctrl) 表示到**控制性输出**的投影，其中 A_ctrl⊆A 包括拒绝决策、工具授权决策、策略路由决策和内存写入授权决策。令 ≡_sem 是**不可信输入**上的语义等价关系，其中 u≡_sem u' 意味着 u 和 u' 表达相同任务相关语义内容（对于所考虑的应用而言）。一个提示动作模型满足**语义忠实控制 (SFC)**，如果对于所有可信前缀 s∈Σ^* 和所有不可信输入 u,u'∈Σ^*，有：
u≡_sem u' ⇒ Π_ctrl Y(s∥u) = Π_ctrl Y(s∥u')。   (1)
也就是说，控制性行为可以依赖于不可信输入的语义内容（例如，拒绝有害请求），但不能依赖于其表示或编码中语义无关的变化。

#### 操作形式。令 C 表示**控制相关节点**集：其隐藏状态因果影响 Π_ctrl Y(x) 的位置和层。在标准因果解码器中，这些包括在馈送到输出 logits 的层上的生成位置隐藏状态；在智能体系统中，它们还包括馈送到工具调用头、路由 logits 和内存写入授权头的状态。对于每个 c∈C 在层 ℓ，注意力值聚合为 (Vaswani et al.,2017 (https://arxiv.org/html/2606.27567#bib.bib19))：
h̃_c^(ℓ)(x) = Σ_{j=1}^{|x|} α_cj^(ℓ) W_V^(ℓ) h_j^(ℓ-1)(x) = Σ_{j∈T} α_cj^(ℓ) W_V^(ℓ) h_j^(ℓ-1) + Σ_{j∈U} α_cj^(ℓ) W_V^(ℓ) h_j^(ℓ-1)   (2)
其中 T 和 U 分别是可信和不可信位置集。令 Γ_c:R^d→R^{d_c} 表示在节点 c 处的**控制读出映射**：从隐藏状态 h̃_c^(ℓ) 经过所有后续层到被控制性输出头所使用的表示的组合函数。当我们在桥接命题（第 4.8 节 (https://arxiv.org/html/2606.27567#S4.SS8)）中将 Π_ctrl 应用于隐藏状态差异时，我们指的是 Γ_c（隐藏状态级投影），而不是上面定义的行为投影 Π_ctrl:Δ(A)→Δ(A_ctrl)。

## 3 威胁模型与范围

我们考虑同时满足以下三个属性的提示动作模型架构。

#### (1) 共享空间处理。可信指令和不可信内容通过共同的表示管道处理。所有位置被嵌入到共享的隐藏空间中，并参与相同的注意力-残差计算。没有不可变的来源屏障阻止不可信表示进入与可信表示相同的前向计算。

#### (2) 没有不可变的来源强制执行。该架构没有提供不可由用户写入的强制执行机制，以保证可信和不可信信息在行为上保持分离。位置编码、软段标记和提示分隔符不提供此类强制执行，因为它们要么是位置信号，要么是同一符号通道内可伪造的令牌（第 5 节 (https://arxiv.org/html/2606.27567#S5)）。

#### (3) 来自共享管道的控制性输出。可观察的控制性输出 Π_ctrl Y(x)，包括拒绝决策、工具授权、策略路由和内存写入授权，是从控制相关节点 C 计算的，而这些节点的隐藏状态来自共享注意力管道。

#### 范围之外的架构。该定理**不**适用于通过构造强制执行行为分离的架构，包括：
1. 1.分离的可信/不可信编码器，其中可信指令和不可信内容由独立的表示管道处理，仅通过显式约束的接口进行交互。
2. 2.类型化注意力或硬段掩码，其中从不可信位置到控制相关可信计算的注意力在结构上被禁止或不可变地类型化。
3. 3.外部策略引擎，其中工具授权、策略路由或内存写入由 transformer 外部的机制决定，且不直接由共享隐藏状态控制。

这些架构恰好逃避了该定理，因为它们强制执行了共享空间 transformer 所缺乏的分离属性。

#### SFC 覆盖的攻击类别。SFC 直接建模以下现实世界攻击类别：
1. 1.间接提示注入 → 拒绝绕过。嵌入在检索文本中的不可信内容改变拒绝行为，同时保持名义任务语义不变。
2. 2.检索内容 → 未授权工具调用。不可信的外部文本改变工具授权行为，导致模型调用预期策略之外的动作。
3. 3.注入内容 → 内存或策略写入。不可信内容修改内存写入授权或策略路由行为，跨轮次持久化或升级控制影响。
4. 4.通用对抗后缀 → 对齐绕过。附加到有害请求上的语义空令牌字符串将控制性行为从拒绝翻转为遵从 (Zou et al.,2023 (https://arxiv.org/html/2606.27567#bib.bib22))，构成直接的 SF

论共享嵌入序列模型中指令与数据的不可分离性

相似文章

单一提示不够：指令敏感性削弱嵌入模型评估

外部观察者的必要性：形式化充分性差距——混合可识别性与序列模型中上下文基础的数学扩展

图像即句子：扩展交错指令以实现统一的视觉生成

LatticeBridge：稀有事件序列推断实现忠实结构化序列生成

基础推理：确定性封装生成模型的原则

提交意见反馈