跨语言的推测解码
摘要
本文比较了三种策略以提高非英语语言的推测解码效率,发现任务特定蒸馏能提高接受率但泛化性差,而n-gram草稿模型尽管接受率较低,却能提供持续的加速。
arXiv:2605.30580v1 公告类型:新提交
摘要:推测解码已成为大型语言模型(LLM)推理的关键组成部分,通过草拟多个令牌并并行验证来实现更快的生成。然而,小型草稿模型的多语言能力往往不成比例地薄弱。因此,当生成非英语文本时,推测解码的效果要差得多。
我们比较了三种策略以提高十一种语言的推测解码效率:在任务特定数据(翻译)上微调草稿模型;在无标签单语语料库上微调草稿模型;以及在相同单语语料库上训练简单的n-gram草稿模型。我们评估了翻译(从英语到目标语言)和留出的故事生成任务上的效率。我们发现,虽然任务特定蒸馏可以显著提高效率,但蒸馏后的模型在新任务上泛化性差。与此同时,n-gram草稿模型尽管接受率较低,但由于草稿生成速度快得多,持续地提供大的加速。
查看缓存全文
缓存时间: 2026/06/01 09:25
# 跨语言推测解码
来源:https://arxiv.org/html/2605.30580
Michael Ginn、Luc De Nardi、Alexis Palmer
科罗拉多大学
*同等贡献*
###### 摘要
推测解码(Leviathan 等人,2023 (https://arxiv.org/html/2605.30580#bib.bib14);Chen 等人,2023 (https://arxiv.org/html/2605.30580#bib.bib5))已成为大语言模型(LLM)推理中的关键组件,通过草拟多个令牌并并行验证它们来实现更快的生成。然而,小的草稿模型往往在多语言能力上存在不成比例的重大缺陷(Conneau 等人,2020 (https://arxiv.org/html/2605.30580#bib.bib6))。因此,当生成非英语语言文本时,推测解码的效率远低于英语(Yi 等人,2024 (https://arxiv.org/html/2605.30580#bib.bib26);Sandler 等人,2025 (https://arxiv.org/html/2605.30580#bib.bib19))。
我们比较了三种策略来提高十一种语言的推测解码效率:在任务特定数据(翻译)上微调草稿模型;在未标注的单语语料库上微调草稿模型;以及在相同单语语料库上训练简单的 n-gram 草稿模型。我们在翻译任务(从英语到目标语言)和保留任务(故事生成)上评估效率。我们发现,虽然任务特定的知识蒸馏可以显著提高效率,但蒸馏后的模型在新任务上泛化能力差。与此同时,n-gram 草稿模型尽管接受率较低,但由于草稿生成速度快得多,始终能提供较大的加速效果。
# 跨语言推测解码
Nirajan Paudel\*、Michael Ginn\*、Luc De Nardi、Alexis Palmer
科罗拉多大学
同等贡献
## 1 引言
从 LLM 进行自回归解码需要 K 次串行前向传播(每次将模型权重重新加载到内存中)才能生成 K 个令牌的序列。推测解码是一种流行的加速推理技术,它通过轻量级的草稿模型草拟一系列令牌,然后并行验证草拟的令牌(Leviathan 等人,2023 (https://arxiv.org/html/2605.30580#bib.bib14);Chen 等人,2023 (https://arxiv.org/html/2605.30580#bib.bib5)),这可以大幅减少与目标模型(也称为验证器)的总前向传播次数。
图 1:实验的总体结构。我们测试了四种不同的草稿模型创建方法,这些模型生成的令牌随后由更大的模型验证。我们在两个任务上测试:翻译和故事生成。
然而,推测解码的有效性取决于验证器模型和草稿模型的下一个令牌概率分布之间的相似性,通常通过接受率来衡量:草拟的令牌被验证器模型接受的概率。接受率低会导致加速效果极小,甚至如果草拟令牌的成本超过收益,生成速度会更慢。
这引发了对非英语语言的担忧。众所周知,模型容量与多语言能力相关(Conneau 等人,2020 (https://arxiv.org/html/2605.30580#bib.bib6);Chang 等人,2024 (https://arxiv.org/html/2605.30580#bib.bib4)),这表明较小的草稿模型在生成不太常见的语言文本时,可能与验证器模型有显著差异。Yi 等人 (2024 (https://arxiv.org/html/2605.30580#bib.bib26)) 和 Sandler 等人 (2025 (https://arxiv.org/html/2605.30580#bib.bib19)) 为此说法提供了实证支持,观察到非英语语言的接受率明显更差。令牌化偏差进一步加剧了这个问题,较不常见的语言平均可能需要更多的令牌(Petrov 等人,2023 (https://arxiv.org/html/2605.30580#bib.bib17))。因此,LLM 的非英语用户可能会遭遇更慢的生成速度,这是语言技术中又一个不平等的例子(Blasi 等人,2022 (https://arxiv.org/html/2605.30580#bib.bib2))。
我们使用多语言验证器和草稿模型(Qwen 3.5)测试了一个标准的推测解码设置,用于从英语到十一种不同语言的翻译,观察到接受率较低。我们比较了三种为特定语言训练草稿模型的方法:(1) 任务特定蒸馏,(2) 在通用领域单语语料库上的蒸馏,以及 (3) n-gram 建模。我们测试了这些方法是否能泛化到新领域——故事生成,而无需针对该领域进行专门训练。我们发现强有力的证据支持 n-gram 模型,由于其廉价的前向传播实现了大幅加速。与此同时,蒸馏在领域内有效,但泛化到新任务的能力较差。我们将在 GitHub(匿名化)上发布我们的代码。
## 2 背景与相关工作
Leviathan 等人 (2023 (https://arxiv.org/html/2605.30580#bib.bib14))、Chen 等人 (2023 (https://arxiv.org/html/2605.30580#bib.bib5)) 和 Xia 等人 (2023 (https://arxiv.org/html/2605.30580#bib.bib25)) 提出了推测解码作为加速生成的技术。具体来说,草稿模型自回归地生成 γ 个新令牌,其条件概率为 \(p(x_1) \dots p(x_\gamma)\),验证器模型对草拟的整个序列执行一次前向传播,分配不同的概率 \(q(x_1) \dots q(x_\gamma)\)。对于每个令牌 \(i\),如果 \(p_i \leq q_i\),则接受该令牌。如果 \(p_i > q_i\),我们随机选择:(a) 以概率 \(\frac{q_i}{p_i}\) 接受该令牌;或 (b) 拒绝该令牌及所有后续草拟令牌,然后从调整后的分布 \(p' = q(x) - p(x)\) 中采样一个新令牌。这产生的采样分布等同于验证器模型的分布。
为了提高接受草拟令牌的概率,一种流行技术是从验证器模型到草稿模型进行知识蒸馏(Zhou 等人,2024 (https://arxiv.org/html/2605.30580#bib.bib31)),其中草稿模型被微调以最小化其与教师分布的 KL 散度。Yi 等人 (2024 (https://arxiv.org/html/2605.30580#bib.bib26)) 将此技术应用于多语言环境,为从其他语言到英语的翻译蒸馏模型,但他们没有研究在目标语言中生成文本这一更困难的情况。¹
¹ 仅在附录中有简要评估。
我们的工作与 Sandler 等人 (2025 (https://arxiv.org/html/2605.30580#bib.bib19)) 最为相似,该工作观察了跨任务和语言的接受率差异。他们提出了通过平衡训练数据集或在蒸馏过程中缩放每任务梯度来缓解这些问题的方法。然而,他们的方法需要每个所需任务的代表性数据集,这对于许多语言来说是不可行的。相反,我们专注于测试方法是否能在没有任务特定训练数据的情况下泛化到新任务。
## 3 方法
我们在两个任务上进行评估:机器翻译(MT)和开放式故事生成。MT 是我们的领域内任务,因为我们在任务特定的翻译样例上执行蒸馏(见 §3.3 (https://arxiv.org/html/2605.30580#S3.SS3))。故事生成作为领域外任务(草稿模型未在故事生成数据上训练),用于衡量我们的方法对不同类型任务的鲁棒性。
### 3.1 数据集
对于机器翻译,我们使用来自多种来源的平行数据——每种语言限制为 5,200 个样例——数据集数量在表 1 (https://arxiv.org/html/2605.30580#S3.T1) 中描述,来源在附录 C (https://arxiv.org/html/2605.30580#A3) 中。我们对推测解码效率的主要评估仅使用测试集拆分,训练集拆分保留用于蒸馏。我们还收集用于蒸馏和训练的单语未标注数据,也列在表 1 (https://arxiv.org/html/2605.30580#S3.T1) 中。我们使用涵盖十一种不同语言的数据集,涵盖不同的资源丰富度、类型学属性和地理区域。
表 1:每种语言的单语文本令牌数和平行句子的句子数。来源在表 4 (https://arxiv.org/html/2605.30580#A4.T4) 和表 5 (https://arxiv.org/html/2605.30580#A4.T5) 中描述。
| 语言 | 单语(训练/测试) | 平行(训练/测试) |
|------|------------------|------------------|
| 阿姆哈拉语 [amh] | 130万 / 32.1万 | 4800 / 400 |
| 柏柏尔语 [ber] | 30.63万 / 7.69万 | 4800 / 400 |
| 切罗基语 [chr] | 130万 / 31.58万 | 4800 / 400 |
| 瓜拉尼语 [grn] | 31.93万 / 7.92万 | 788 / 198 |
| 夏威夷语 [haw] | 8.21万 / 2.05万 | 96 / 25 |
| 伊博语 [ibo] | 67.75万 / 16.40万 | 1398 / 350 |
| 尼泊尔语 [npi] | 1300万 / 320万 | 3133 / 400 |
| 奥克语 [oci] | 4.60万 / 1.15万 | 3631 / 400 |
| 克丘亚语 [que] | 51.02万 / 13.18万 | 4800 / 400 |
| 约鲁巴语 [yor] | 100万 / 25.69万 | 4800 / 400 |
| 塔马齐格特语 [zgh] | 480万 / 33.66万 | 4800 / 400 |
对于故事生成,我们通过将 Brysbaert 等人 (2014 (https://arxiv.org/html/2605.30580#bib.bib3)) 中的名词和 Brown 语料库 (Francis, 1979 (https://arxiv.org/html/2605.30580#bib.bib10)) 中的形容词根据 Glove 词嵌入 (Pennington 等人, 2014 (https://arxiv.org/html/2605.30580#bib.bib16)) 的相似度配对来创建主题。在评估过程中,我们提示模型用目标语言生成关于每个主题的故事。图 11 (https://arxiv.org/html/2605.30580#A5.F11) 中展示了一些生成故事的例子。我们不对这些故事计算任何指标,但我们验证它们始终以正确的语言生成,并且不会陷入无尽的重复循环。由于生成的故事通常比翻译长,我们只使用 200 个测试样例。
### 3.2 模型
我们使用 Qwen 3.5 系列模型 (Team, 2026 (https://arxiv.org/html/2605.30580#bib.bib21))。我们的主要结果使用 9b 参数模型作为验证器,0.8b 参数模型作为草稿模型;然而,我们在 §D.3 (https://arxiv.org/html/2605.30580#A4.SS3) 中包含了使用 2b 和 4b 参数草稿模型的结果。我们使用基于采样的推理,top-k 为 100,top-p 为 0.9,最大生成令牌数为 128。我们对草稿模型和验证器模型都使用 KV 缓存 (Pope 等人, 2022 (https://arxiv.org/html/2605.30580#bib.bib18))。对于每种设置,我们扫描 γ 值在 [2, 4] 之间,并报告最佳结果。
### 3.3 实验设置
我们的基线设置是同一系列未修改的较小模型(0.8b Qwen)。然后,我们在两种语料库上从验证器模型到 0.8b 模型执行软目标蒸馏(细节见 §B (https://arxiv.org/html/2605.30580#A2))。首先,对于我们的蒸馏(任务)设置,我们使用平行数据进行翻译提示的蒸馏。其次,我们在单语通用领域文本上执行蒸馏,用于蒸馏(通用)设置。
最后,我们在相同的单语语料库上训练简单的 n-gram 草稿模型,使用 Qwen 分词器对令牌进行分割。我们测试了不同的 n 值,发现对于所有语言,二元语法(2-grams)产生最高的接受率。在推理过程中,我们从训练期间观察到的条件分布中计算一个给定 (n-1) 长度前缀的简单 logit 分布。
### 3.4 指标
#### 接受率(\(\alpha\))
根据 Leviathan 等人 (2023 (https://arxiv.org/html/2605.30580#bib.bib14)) 定义 3.1,我们测量一个草拟令牌被目标模型接受的概率,假设所有先前的令牌已被确认。我们使用蒙特卡洛估计器 \(\hat{\alpha_i} = \frac{m_i}{d_i}\) 估计单个样例 \(i\) 的概率,其中 \(m_i\) 是接受的令牌数,\(d_i\) 是提议的令牌数,我们取所有样例的平均值。
#### 加速因子(\(f\))
使用 \(\alpha\),我们计算加速因子,量化推测解码下的预期改进:
\[
f = \frac{1 - \alpha^{\gamma+1}}{(1 - \alpha)(\gamma c + 1)}
\]
其中 \(c = t_{\text{draft}} / t_{\text{target}}\) 是单个草稿前向传播与单个目标前向传播的成本比(通过 CUDA 计时测量)。加速值报告为乘法因子(例如,\(1.2\times\))。
图 2:每个 LLM 和我们的 n-gram 模型的平均前向传播时间分布。左上角的小线表示 n-gram 的时间 0.001 秒。
图 3:翻译提示的接受率(上)和加速因子(下),涵盖四个实验设置和十一种语言。误差条为标准差。
图 4:故事生成提示的加速因子,涵盖四个实验设置和十一种语言。误差条为标准差。
## 4 发现
### 4.1 翻译
图 3 (https://arxiv.org/html/2605.30580#S3.F3) 报告了翻译任务下每个设置的平均接受率和加速因子。
#### 由于接受率低,标准推测解码效率低下。
在使用未经专门化训练的草稿模型的基线设置中,接受率相当低,范围从 0.30(ber)到 0.54(amh),所有语言的平均接受率 \(\bar{\alpha} = 0.40\)。这导致大多数语言的加速因子接近 1(\(\bar{f} = 1.02\times\)),此时推测解码没有益处。我们没有发现翻译质量(chrF 分数)与接受率之间存在相关性,详见 §8 (https://arxiv.org/html/2605.30580#A0.F8)。
#### 任务特定蒸馏提高了接受率,而通用领域蒸馏效果较差。
正如预期,针对翻译提示的蒸馏明显提高了接受率(\(\bar{\alpha} = 0.60\)),从而也提高了加速因子(\(\bar{f} = 1.28\times\))。与此同时,通用领域蒸馏设置(\(\bar{\alpha} = 0.39, \bar{f} = 1.03\times\))仅在十一种语言中的五种上优于基线。因此,蒸馏仅对特定的、预定义的领域是一个有效选项。在这种情况下,蒸馏损失为接受率提供了一个下限(见 §D.5 (https://arxiv.org/html/2605.30580#A4.SS5))。
### 4.2 故事生成
图 4 (https://arxiv.org/html/2605.30580#S3.F4) 和图 6 (https://arxiv.org/html/2605.30580#A0.F6) 分别报告了故事生成提示的加速因子和接受率。我们看到与先前设置类似的趋势,基线(\(\bar{\alpha} = 0.46, \bar{f} = 1.09\times\))、n-gram 模型(\(\bar{\alpha} = 0.30, \bar{f} = 1.39\times\))和通用领域蒸馏模型(\(\bar{\alpha} = 0.47, \bar{f} = 1.10\times\))。
#### 任务特定蒸馏不能很好地泛化到新领域。
任务特定蒸馏模型在新任务上表现出大幅下降(\(\bar{\alpha} = 0.43, \bar{f} = 1.03\times\)),性能低于基线和通用蒸馏方法。图 5 (https://arxiv.org/html/2605.30580#S4.F5) 展示了这种权衡:蒸馏提高了训练任务上的接受率,但牺牲了另一个未见过的任务。
#### N-gram 模型由于有利的草稿对验证器成本比而非常有效。
虽然 n-gram 模型往往具有较差的接受率(\(\bar{\alpha} = 0.24\)),但它们运行速度更快,平均前向传播时间为 0.001 秒,而 0.8b 草稿模型为 0.033 秒(图 2 (https://arxiv.org/html/2605.30580#S3.F2))。这带来了非常有竞争力的加速因子(\(\bar{f} = 1.30\times\)),击败了 t...相似文章
减少草稿,增加检索:用于推测解码的混合树构建
Graft 是一个无需训练的框架,通过结合剪枝与检索来增强推测解码,从而提高接受率和推理速度。在短上下文基准测试中,其加速比最高可达5.41倍,在Qwen3-235B上相比EAGLE-3的提升最高可达21.8%。
Mistletoe:针对推测解码的隐蔽加速崩溃攻击
本文识别了基于模型的推测解码在大语言模型中的新漏洞:微小扰动可以在不影响输出质量的情况下降低草稿令牌接受率,从而使加速效果崩溃。作者提出了Mistletoe攻击,该攻击联合优化退化与语义保持,展示了在各种系统上显著的加速降低效果。
注意力漂移:自回归投机解码模型学到了什么
本文指出了自回归投机解码模型中的“注意力漂移”现象,即草稿模型的注意力从提示词转移到了其自身生成的令牌上。作者提出了架构上的改进,例如后归一化(Post-norm)和 RMSNorm,这些改进在各种基准测试中提高了接受率和鲁棒性。
MicroSpec: 通过轻量级上下文词汇表加速推测解码
MicroSpec 是一种无需训练的技术,它能即时构建紧凑的上下文感知词汇表,以加速大型语言模型中的推测解码,将平均词汇表大小减少40倍以上,并相比EAGLE-2实现了高达1.32倍的端到端加速。
AdaPLD:自适应检索与复用的高效无模型推测解码方法
AdaPLD是一种无需训练的方法,通过自适应检索结合词汇与语义相似度,并构建分支复用假设来处理续写不确定性,从而提升无模型推测解码的效率,最高可实现3.10倍解码加速。