Mistletoe：针对推测解码的隐蔽加速崩溃攻击

arXiv cs.CL 2026/05/15 04:00 论文

摘要

本文识别了基于模型的推测解码在大语言模型中的新漏洞：微小扰动可以在不影响输出质量的情况下降低草稿令牌接受率，从而使加速效果崩溃。作者提出了Mistletoe攻击，该攻击联合优化退化与语义保持，展示了在各种系统上显著的加速降低效果。

arXiv:2605.14005v1 公告类型：新摘要：推测解码已成为加速大语言模型（LLM）推理的广泛采用技术，通过草拟多个候选令牌并并行使用目标模型验证它们。然而，其效率关键取决于平均接受长度 $\tau$，即每步验证中存活的草稿令牌数量。在这项工作中，我们识别了基于模型的推测解码中的一个新机制级漏洞：草稿模型被训练以逼近目标模型分布，但这种逼近不可避免地存在不完美。这种草稿-目标不匹配创建了一个隐藏的攻击面，其中微小扰动可以保持目标模型的可见行为，同时大幅降低草稿令牌的可接受性。我们提出了Mistletoe，一种针对推测解码的隐蔽加速崩溃攻击。Mistletoe直接针对推测解码的接受机制。它联合优化一个降低草稿-目标一致性的退化目标和一个约束目标模型输出分布的语义保持目标。为了解决这些目标之间的冲突，我们引入了一个零空间投影机制，其中退化梯度被投影偏离局部语义保持方向，从而抑制草稿接受同时最小化语义漂移。在各种推测解码系统上的实验表明，Mistletoe显著降低了平均接受长度 $\tau$，使加速崩溃，降低了平均令牌吞吐量，同时保持了输出质量和困惑度。我们的工作强调，推测解码引入了一个超越现有输出鲁棒性的机制级攻击面，呼唤更稳健的LLM加速系统设计。

查看原文

查看缓存全文

缓存时间: 2026/05/15 06:18

# 隐蔽加速坍塌攻击：针对投机性解码的研究

来源：https://arxiv.org/html/2605.14005

舒扬 孙1†, 常 戴2†, 浩 方3, 库峰 高3, 新浩 钟1, 毅 孙1, 范 莫4, 舒涛 夏3, 斌 陈1∗

1哈尔滨工业大学（深圳）
2华南理工大学
3清华大学深圳国际研究生院
4华为技术有限公司

###### 摘要

投机性解码已成为一种广泛应用的技术，通过草拟多个候选令牌并用目标模型并行验证来加速大型语言模型（LLM）推理。然而，其效率关键取决于平均接受长度τ，即每次验证步骤中保留的草拟令牌数量。在这项工作中，我们识别出基于模型的投机性解码中一个新的机制级漏洞：草稿模型被训练来逼近目标模型分布，但这种逼近不可避免地不完美。这种草稿-目标不匹配创造了一个隐藏的攻击面，其中小的扰动可以保留目标模型的可见行为，同时大幅降低草拟令牌的可接受性。我们提出Mistletoe，一种针对投机性解码的隐蔽加速坍塌攻击。Mistletoe直接针对投机性解码的接受机制。它联合优化一个降低草稿-目标一致性的退化目标和一个约束目标模型输出分布的语义保持目标。为了解决这些目标之间的冲突，我们引入了一个零空间投影机制，其中退化梯度被投影远离局部语义保持方向，抑制草稿接受同时最小化语义漂移。在各种投机性解码系统上的实验表明，Mistletoe显著降低了平均接受长度τ，导致加速坍塌，降低了平均令牌吞吐量，同时保持了输出质量和困惑度。我们的工作强调，投机性解码引入了一个超出已有输出鲁棒性的机制级攻击面，呼吁更稳健的LLM加速系统设计。

††footnotetext:†同等贡献。
††footnotetext:∗通讯作者。

## 1 引言

大型语言模型（LLMs）在开放式生成、推理和交互辅助方面展现了卓越的能力（Grattafiori et al., 2024; Liu et al., 2024; Yang et al., 2025）。然而，自回归解码本质上是顺序的，因为每个生成的令牌都需要单独的目标模型调用，以前面上下文为条件。投机性解码通过草稿-然后-验证范式来缓解这一瓶颈：轻量级草稿模型提出候选续写，目标模型并行验证（Leviathan et al., 2023; Chen et al., 2023）。通过在单个目标模型前向传递中接受多个草拟令牌，投机性解码可以在标准验证规则下保持目标模型输出分布的同时加速生成。因此，投机性解码的实际效率不仅取决于草拟了多少令牌，还取决于目标验证器接受了多少。平均接受长度τ因此成为投机加速核心机制的关键指标。

最近的投机性解码系统通过提高草稿-目标一致性来显式优化这一机制。他们引入辅助预测头、目标模型特征、动态草稿树、融合中间表示或共享计算，使草稿提议更能被目标验证器接受（Cai et al., 2024; Li et al., 2024a, b; Ankner et al., 2024; Li et al., 2025）。对齐导向的工作进一步表明，缓解令牌和特征不对齐能提高草拟令牌接受度、接受长度和加速（Hu et al., 2025a）。这些进展表明，接受不是次要的实现细节，而是支撑投机性解码效率的关键基础。

虽然残留的草稿-目标不匹配通常被视为需要减少的效率瓶颈，但我们表明它也可以成为攻击面。现有的关于投机性解码的安全性研究主要检查隐私泄露或生成内容的安全性。输入依赖的投机模式可能创建侧信道泄露私人信息（Wei et al., 2024），而安全感知的解码方法使用辅助或小型专家模型来提高输出安全性（Wang et al., 2025b, a）。在本文中，我们提出了一个很大程度上未被探索的机制级安全问题：**草稿-验证路径本身能否被对抗性退化，而最终响应仍然保持可见正常？** 如果一个小扰动保持了目标模型的响应分布，但导致草稿提议偏离目标验证器，那么草拟令牌将在验证过程中被重复拒绝。因此，τ坍塌，加速消失，平均令牌吞吐量降低。我们将这种故障模式定义为**加速坍塌攻击**，它使生成加速的机制失效，同时保持生成内容质量。

![参见说明文字](图1：Mistletoe下接受坍塌的说明。在正常投机性解码中，目标模型接受每个验证步骤中的许多草拟令牌，产生高接受和高加速。当投机性解码受到Mistletoe攻击时，最终响应语义保持，但不对齐的草拟令牌被目标验证器拒绝，强制从目标logits回退生成，导致平均接受长度τ和加速坍塌。)

基于这些洞察，我们提出Mistletoe，一种针对投机性解码的隐蔽加速坍塌攻击。如图1所示，正常投机性解码在每个验证步骤中提交多个接受的草拟令牌，而Mistletoe下的解码频繁回退到目标生成的令牌。这个定义反映了攻击的寄生性质：它在输出层面保持不引人注目，同时耗尽宿主解码管道的效率优势。与旨在改变生成响应的内容级攻击不同，Mistletoe针对的是使投机性解码快速的核实验证和接受机制。它增加草稿提议令牌在目标侧的惊讶度以降低其接受性，同时约束目标模型的输出分布以保持响应质量。为了实现攻击目标，一个关键挑战是草稿-目标对齐的优化冲突。草拟令牌旨在逼近目标模型的高概率续写；因此，降低草拟令牌接受性的扰动也可能干扰目标模型自身的输出分布。为了解决这个冲突，Mistletoe将拒绝方向限制在语义保持约束的局部零空间中（Fang et al., 2024）。这个投影鼓励增加拒绝压力的更新，同时限制语义漂移。一个KL阈值过滤器进一步否决目标分布漂移超过预设界限的离散后缀候选。在代表性投机性解码系统上的实验表明，Mistletoe显著降低了τ、加速和平均令牌吞吐量，同时保持了输出质量和困惑度。这些结果说明，即使面向用户的文本输出看起来正常，投机性解码也可能脆弱，强调了需要稳健且安全感知的加速机制。总结来说，我们的贡献有三点：

- • 我们识别出**接受坍塌**作为投机性解码的一个机制级威胁，其中对抗性放大的草稿-目标不匹配降低了平均接受长度τ，同时很大程度上保留了面向用户的输出。
- • 我们提出Mistletoe，一种隐蔽的加速坍塌攻击，其退化验证和接受路径，而不是直接破坏生成内容。
- • 我们开发了一种带KL阈值过滤的零空间投影优化方法，以降低草拟令牌可接受性同时抑制语义漂移，并经验性地展示了在代表性系统上投机性解码效率的显著退化。

## 2 相关工作

### 2.1 高效推理的投机性解码

投机性解码通过草稿-然后-验证范式加速自回归生成，其中轻量级草稿模型提出候选续写，目标模型并行验证（Leviathan et al., 2023; Chen et al., 2023）。其效率取决于在每个目标模型前向传递中接受多个草拟令牌，使得平均接受长度成为实际加速的核心。现有工作主要通过提高草稿质量或验证效率来改进这一机制，方法包括多解码头、目标模型特征、动态草稿树、顺序依赖的草稿头以及多层特征融合（Cai et al., 2024; Li et al., 2024a, b; Ankner et al., 2024; Li et al., 2025）。最近的综述进一步涵盖了独立草稿、检索或n-gram基于、无模型、自投机和草稿头变体（Hu et al., 2025b）。尽管架构不同，这些方法共享一个共同目标：增加草稿-目标一致性，使得每个验证步骤中有更多候选令牌被接受。GRIFFIN进一步强调了这种依赖，通过识别令牌和特征不对齐是草拟令牌接受的瓶颈，并通过缓解不对齐来改善接受长度（Hu et al., 2025a）。这些研究共同确立了草稿-目标一致性作为投机性解码效率的中心决定因素。

### 2.2 投机性解码的安全性与鲁棒性

随着投机性解码在高效LLM部署中日益重要，近期研究检查了其安全性影响。一条研究线关注通过输入依赖的投机模式造成的隐私泄露，其中可观察的解码行为可能创建侧信道（Wei et al., 2024）。另一条利用投机或辅助模型解码来提高输出安全性，例如检测越狱风险或构建令牌级安全信号以实现更安全的生成（Wang et al., 2025b, a）。这些工作提供了有价值的见解，但它们聚焦于隐私泄露或生成内容的安全性，而加速机制本身的鲁棒性在很大程度上仍未探索。相比之下，我们采取机制级视角：使加速成为可能的草稿-目标一致性也定义了投机性解码的一个脆弱边界。Mistletoe表明对抗性扰动可以放大草稿-目标不匹配，使草拟令牌接受坍塌，同时保持最终响应行为大致不变。这暴露了投机性解码的一个性能鲁棒性威胁，补充了先前关于隐私和输出级安全性的研究。

## 3 预备知识

### 3.1 投机性解码

我们形式化投机性解码的草稿-然后-验证过程。令 \(M\_\theta\) 表示目标语言模型，或验证器，\(D\_\phi\) 表示草稿模型。给定提示 \(x\)，\(D\_\phi\) 提出草拟令牌，\(M\_\theta\) 并行验证它们。令 \(t\) 索引草稿-然后-验证周期，\(Y^{(t)}\) 表示第 \(t\) 个周期前已接受的输出前缀。在该周期内，草稿模型提出 \(\hat{y}^{(t)}_1, \ldots, \hat{y}^{(t)}_K\)，其中 \(K\) 是草稿预算，\(i\) 索引当前草稿中的位置。我们将第 \(i\) 个草拟令牌的草稿分布表示为 \(\rho_\phi(\cdot | x, Y^{(t)}, \hat{y}^{(t)}_1, \ldots, \hat{y}^{(t)}_{i-1})\)，目标模型分布表示为 \(\pi_\theta(\cdot | x, Y^{(t)})\)。验证遵循幻影注意力机制，其中草稿前缀和输入连接形成单个前向传递。验证规则如下：以概率 \(1\) 接受第一个草拟令牌；对于 \(i \ge 2\)，以概率 \(\min(1, \pi_\theta(\hat{y}^{(t)}_i | x, Y^{(t)}) / \rho_\phi(\hat{y}^{(t)}_i | \ldots))\) 接受。如果所有 \(K\) 个令牌都被接受，则额外从目标分布中采样一个令牌；否则，从第一个被拒绝位置开始采样。

平均接受长度 \(\tau\) 定义为每个目标前向传递中实际接受的令牌数。对于理想一致的草稿-目标模型，\(\tau \approx K+1\)；对于完全独立的模型，\(\tau \approx 1\)。加速效果与 \(\tau\) 成正比，因此 \(\tau\) 是评估投机性解码效率的主要指标。

### 3.2 攻击设置

我们考虑一个对手，其目标是在用户可能观察到正常输出的同时，使投机性解码效率降低。形式上，对手向用户提示 \(x\) 附加一个短的可优化后缀 \(\delta \in \mathcal{V}^L\)，其中 \(\mathcal{V}\) 是词表，\(L\) 是后缀长度。后缀在保留上下文的同时引导优化过程。攻击只有黑盒访问权：对手可以获得目标和草稿模型的logits，但不能修改任何模型参数或权重。这种设置反映了现实场景，其中部署的模型是固定的，但输入可能被对抗性后缀污染。

攻击目标是最大化验证-接受失败，同时最小化生成文本分布的偏差。设 \(\mathcal{L}_{\text{rej}}\) 为降低草拟令牌可接受性的拒绝目标函数，\(\mathcal{L}_{\text{sem}}\) 为测量目标模型输出分布漂移的语义保持目标函数。攻击产生一个后缀 \(\delta\)，使 \(\mathcal{L}_{\text{rej}}(x, \delta)\) 较大而 \(\mathcal{L}_{\text{sem}}(x, \delta)\) 较小，从而保持内容质量同时迫使接受坍塌。

## 4 方法：Mistletoe

Mistletoe的核心是直接攻击投机性解码的验证步骤。我们通过优化离散后缀 \(\delta\) 来增加草拟令牌被目标验证器拒绝的概率，同时保持目标模型的输出分布。优化过程解决两个目标之间的冲突：降低草拟令牌接受性的扰动也可能改变目标分布，从而改变生成内容。我们在5.4节中经验性地展示了这种冲突。为了处理它，我们引入了一个零空间投影机制，将拒绝梯度投影到语义保持约束的零空间上，抑制语义漂移同时保留拒绝趋势。优化通过组合基于梯度的连续搜索与离散采样进行，并配合KL阈值过滤以拒绝语义漂移过大的候选。

### 4.1 目标函数

**拒绝目标。** 我们的拒绝目标减少草拟令牌与目标分布对齐的先验。给定提示 \(x\) 和后缀 \(\delta\)，设第一轮草稿中的草拟令牌为 \(\hat{y}_1, \ldots, \hat{y}_K\)。拒绝目标定义为累积对数接受概率的负值：

\[
\mathcal{L}_{\text{rej}}(x, \delta) = -\sum_{i=1}^{K} \log \left[ \min\left(1, \frac{\pi_\theta(\hat{y}_i | x, \delta)}{\rho_\phi(\hat{y}_i | \ldots)}\right) \right]
\]

最小化 \(\mathcal{L}_{\text{rej}}\) 直接增加草拟令牌被拒绝的概率，无论是否应用截断。如果草稿分布与目标分布显著不同，\(\min(1, \cdot)\) 项意味着负对数项会放大，施加更大的梯度。然而，\(\min\) 操作的非平滑性意味着梯度可能需要越过跃点。在实践中，当可微近似的截断不是问题，因为优化过程自然由强拒绝梯度主导，这些梯度占据主导。

**语义保持目标。** 为了确保生成内容保持正常，我们约束目标模型输出分布。设 \(\textbf{p}(x, \delta) = \pi_\theta(\cdot | x, \delta)\) 为给定对抗后缀时目标模型在第一个生成位置的概率向量。语义保持目标是最小化与干净输出分布 \( \textbf{p}(x, \cdot)\) 的KL散度，其中后缀被视为空字符串：

\[
\mathcal{L}_{\text{sem}}(x, \delta) = \text{KL}(\textbf{p}(x, \cdot) \parallel \textbf{p}(x, \delta))
\]

当 \(\mathcal{L}_{\text{sem}}\) 较小时，关于下一个令牌的条件分布变化很小，因此生成文本看似正常。

### 4.2 零空间约束优化

一个关键挑战是这两个目标冲突。扰动后缀以降低草拟令牌可接受性可能同时改变目标分布，从而改变生成内容。为了处理这种冲突，我们使用零空间投影（Fang et al., 2024）：在优化后缀 \(\delta\) 的嵌入表示时，我们将拒绝梯度投影到语义保持梯度的零空间上，从而允许在语义保持方向不变的情况下增加拒绝压力。

给定逐令牌嵌入 \(\mathbf{e}_1, \ldots, \mathbf{e}_L\) 表示后缀 \(\delta\)，我们计算拒绝梯度 \(\mathbf{g}_{\text{rej}} = \nabla_{\mathbf{e}} \mathcal{L}_{\text{rej}}\) 和语义梯度 \(\mathbf{g}_{\text{sem}} = \nabla_{\mathbf{e}} \mathcal{L}_{\text{sem}}\)。投影的拒绝更新为：

\[
\mathbf{d} = \mathbf{g}_{\text{rej}} - \frac{\mathbf{g}_{\text{rej}} \cdot \mathbf{g}_{\text{sem}}}{\|\mathbf{g}_{\text{sem}}\|^2} \mathbf{g}_{\text{sem}}
\]

这种更新在保持语义分布的同时降低了草拟令牌接受性，因为 \(\mathbf{d}\) 与 \(\mathbf{g}_{\text{sem}}\) 正交。

### 4.3 离散令牌搜索

经过上述连续优化后，我们获得了下一轮迭代中后缀 \(\delta\) 的嵌入表示候选。然而，最终后缀必须由离散令牌组成。因此，我们采用贪婪搜索来找到最接近投影嵌入的离散令牌序列。对于后缀长度 \(L\)，我们通过 argmax 选择每个位置的令牌：

\[
\hat{\mathbf{e}}_i = \arg\max_{j \in \mathcal{V}} \text{sim}(\mathbf{e}_i^{\text{(new)}}, \mathbf{E}[j])
\]

其中 \(\mathbf{E}[j]\) 是令牌 \(j\) 的嵌入。

### 4.4 KL阈值过滤

离散化可能引入语义漂移，使输出内容异常。为了在离散域执行语义约束，我们计算离散化后缀 \(\delta'\) 的KL散度 \(\mathcal{L}_{\text{sem}}(x, \delta')\) 并应用阈值。如果 \(\mathcal{L}_{\text{sem}}(x, \delta') > \epsilon\)，则新的后缀被拒绝。我们将 \(\epsilon\) 设为1.5。在可行候选集合中，选择具有最大拒绝目标 \(\mathcal{L}_{\text{rej}}\) 的那个。这个离散搜索完全使用令牌ID进行，确保最终后缀仅由普通文本组成。

**优化过程总结。** 在每一步，我们根据输入提示 \(x\)、后缀 \(\delta\) 和草拟令牌计算拒绝对抗性目标 \(\mathcal{L}_{\text{rej}}(x, \delta)\) 和语义保持目标 \(\mathcal{L}_{\text{sem}}(x, \delta)\)。零空间投影产生更新方向。然后我们采样一组离散后缀候选，测量它们的语义漂移，丢弃那些 \(\mathcal{L}_{\text{sem}}(x, \delta') > \epsilon\) 的，并在剩余可行候选中选择具有最大拒绝目标的一个。然后后缀更新为 \(\delta \leftarrow \delta^\star\)。总体上，零空间投影引导局部搜索方向，而KL约束否决在离散候选上施加语义约束，连接了连续优化和离散后缀更新。完整优化过程总结在附录B中。

表1：Mistletoe在不同模型、解码方法和数据集上的攻击结果。每个条目格式为干净/被攻击，被攻击值以红色突出显示。最后一行报告平均绝对减少量，用↓标记，括号中为平均相对减少量。较低的被攻击加速和接受令牌长度τ表示更强的加速坍塌。

## 5 实验

### 5.1 实验设置

#### 模型与投机性解码系统。
我们在Vicuna-7B和Vicuna-13B目标模型上评估Mistletoe（Chiang et al., 2023）。对于投机性解码，我们考虑Medusa（Cai et al., 2024）、Hydra（Ankner et al., 2024）、EAGLE（Li et al., 2024a）、EAGLE-2（Li et al., 2024b）和EAGLE-3（Li et al., 2025）。EAGLE-3仅包含在Vicuna-13B中，因为其Vicuna-7B检查点不可用。对于每个设置，目标模型 \(M\_\theta\) 和草稿模型 \(D\_\phi\) 保持固定；对手仅优化附加到输入提示的短离散后缀。

#### 数据集。
我们在三个代表性基准上评估，涵盖开放式对话、代码生成和数学推理。具体来说，我们使用MT-Bench（Zheng et al., 2023）的所有80个问题，从HumanEval（Chen et al., 2021）随机采样100个样本，从GSM8K（Cobbe et al., 2021）随机采样100个样本。这些数据集允许我们在不同生成场景下测试Mistletoe，包括指令遵循、函数式程序合成和多步数学推理。

#### 评估指标。
我们报告平均接受长度τ和相对于普通自回归解码的加速作为主要效率指标。较低的τ表示每个目标模型前向传递中提交的草拟令牌更少。

Mistletoe：针对推测解码的隐蔽加速崩溃攻击

相似文章

注意力漂移：自回归投机解码模型学到了什么

通过序列蒙特卡洛加速LLM推理

SlimSpec: 用于加速推测解码的低秩 Draft LM-Head

@_avichawla: 研究人员发现了一种让大语言模型（LLM）提速 8.5 倍的方法！（且不影响准确度）投机解码相当有效……

SpecBlock：具有动态树草拟的块迭代投机解码

提交意见反馈