MicroSpec: 通过轻量级上下文词汇表加速推测解码

arXiv cs.CL 2026/05/27 04:00 论文

摘要

MicroSpec 是一种无需训练的技术，它能即时构建紧凑的上下文感知词汇表，以加速大型语言模型中的推测解码，将平均词汇表大小减少40倍以上，并相比EAGLE-2实现了高达1.32倍的端到端加速。

arXiv:2605.26444v1 公告类型: 新摘要：大型语言模型通常使用超过10万个token的词汇表，这在进行推测解码时，在最后的线性投影层造成了严重的计算瓶颈。当前的词汇表剪枝方法依赖于固定或粗粒度的子词汇表，需要大约3万个活跃token才能保持草稿模型的质量。我们提出了MicroSpec，一种无需训练的技术，它通过在每一步解码时即时构建紧凑的上下文感知活跃词汇表来克服这一限制。利用语言生成中自然存在的时间局部性，MicroSpec在将平均词汇表大小减少40倍以上（降至不到3千个token）的同时，实现了高token覆盖率，且无需任何额外的训练参数。为了将这种高稀疏性转化为当代硬件上的实际加速，我们提出了一种协同设计的系统和算法，通过异步收集和GPU驻留状态管理来减轻稀疏内存访问的开销。作为即插即用的增强模块，MicroSpec平均减少了51.6%的草稿推理延迟，在各种基准测试中相比领先的推测解码方法EAGLE-2实现了1.12-1.32倍的端到端加速，同时还超越了更复杂的基于训练的剪枝基线。

查看原文

查看缓存全文

缓存时间: 2026/05/27 09:05

# 利用轻量级上下文词汇表加速推测解码
来源: https://arxiv.org/html/2605.26444
###### 摘要

大型语言模型通常采用超过10万个token的词汇表，这在执行推测解码时，会在最后的线性投影层造成重大计算瓶颈。当前的词汇表剪枝方法依赖于固定或粗粒度的子词汇表，需要大约3万个活跃token来保持草稿模型的质量。我们提出MicroSpec，一种无需训练的技术，通过在每个解码步骤动态构建紧凑的、上下文敏感的活跃词汇表来克服这一限制。利用语言生成中固有的时间局部性，MicroSpec在减少平均词汇表大小超过40倍（降至低于3000个token）的同时，实现了高token覆盖率，且无需任何额外训练参数。为了将这种高稀疏性转化为当代硬件上的实际加速，我们提出了一种协同设计的系统与算法，通过异步收集和GPU驻留状态管理来减轻稀疏内存访问的开销。作为即插即用的增强方案，MicroSpec平均将草稿推理延迟降低了51.6%，在各种基准测试中，相对于领先的推测解码方法EAGLE-2实现了1.12至1.32倍的端到端加速，同时也超越了更复杂的基于训练的剪枝基线。

大型语言模型，推测解码，词汇表剪枝

## 1 引言

大型语言模型（LLM）在 diverse 任务中展现出前所未有的能力（Han等人，2021；Zhou等人，2025；Naveed等人，2025）。为了捕捉多语言和领域特定的语义（Tao等人，2024；Takase等人，2025），其词汇表大小经常超过10万个token（例如Llama-3为128k，Qwen-2和Qwen-3为152k）。虽然这对生成质量有益，但这些庞大的词汇表给高效推理带来了重大挑战。

推测解码（SD）（Miao等人，2024；Chen等人，2023；Leviathan等人，2023）已成为一种在不牺牲质量的前提下加速推理的首要技术，它采用快速草稿机制生成暂定序列，由目标LLM进行并行验证。SD的有效性从根本上依赖于草稿机制比目标机制快得多。然而，最近的研究揭示了在将SD扩展到大型词汇表模型时的一个关键瓶颈：草稿模型最终线性投影层（LM头）的计算成本变得高昂（Zhao等人，2025；Weng等人，2025；Zhang等人，2025）。关键的是，这个瓶颈影响了各种草稿架构，包括独立的 小模型 和集成头（如EAGLE或Medusa）（Li等人，2024；Cai等人，2024），因为它们都依赖LM头将隐藏状态映射到巨大的词汇空间。例如，在Llama-3-8B和Qwen-2.5-7B上，这个单一步骤可能消耗超过60%的总草稿推理时间（Weng等人，2025），严重限制了可实现的速度提升。

表1：使用Llama-3-8B-Instruct在SpecBench和HumanEval上，不同词汇表剪枝策略在推测解码中的特征和初步性能指标比较。
| 方法 | 剪枝策略 | 额外训练 | 活跃词汇表大小 | 速度（tokens/s） | 平均接受长度 |
|------|----------|----------|----------------|------------------|--------------|
| EAGLE-2 (Li等人, 2024) | 无（完整词汇表） | 无 | 128k | 336.9 | 3.80 |
| FR-Spec (Zhao等人, 2025) | 高频token | 无 | 32k | 369.7 | 3.62 |
| CORAL (Weng等人, 2025) | 路由到固定簇 | 1层FFN | 32k | 359.9 | 3.92 |
| DynaSpec (Zhang等人, 2025) | 路由到固定簇 | 1 MLP | 27k | 378.1 | 3.78 |
| MicroSpec (Ours) | 根据上下文变化 | 无 | <3k | 392.7 | 3.59 |

直接的补救措施是剪枝草稿模型的输出词汇表。由于草稿token由目标模型验证，而目标模型的词汇表保持不变，因此剪枝不会损害最终输出质量。现有方法通常采用上下文无关或粗粒度的策略。诸如FR-Spec（Zhao等人，2025）和VocabTrim（Goel等人，2025）等方法基于语料库统计静态选择高频token作为剪枝词汇表，而CORAL（Weng等人，2025）和DynaSpec（Zhang等人，2025）等其他方法则使用训练好的辅助路由器从预定义的子词汇表簇中选择（Weng等人，2025；Zhang等人，2025）。然而，这些方法的一个根本局限性在于它们无法对即时上下文进行细粒度适应。为了保持合理的草稿质量并捕捉必要的长尾token，它们被迫使用相对较大的活跃词汇表（例如，如表1所示约3万个token），从而错失了实质加速的机会。

在这项工作中，我们挑战了这种范式，寻求每个特定生成步骤所需的最小充分词汇表。我们的核心见解是，语言生成表现出强烈的时间局部性（Saxena, 2023；Wang等人，2025；Chen等人，2025）：下一个token极有可能出现在即时上下文中，或者是其紧密的扩展。受此驱动，我们提出MicroSpec，一种无需训练的方法，仅从token历史记录和近期高概率候选中动态构建每个步骤的最小活跃词汇表（例如2k-3k token），完全避免使用学习到的路由器。虽然在理论上引人注目，但实现高度动态、超小词汇表的好处也带来了系统层面的挑战：由此产生的用于收集LM头权重的稀疏内存访问模式在现代GPU上效率极低，可能抵消计算节省。为了克服这一点，MicroSpec通过异步收集和GPU驻留状态管理实现了系统-算法协同设计，有效缓解了动态稀疏计算的延迟开销。

如表1所总结，MicroSpec使用平均动态词汇表少于3k token（比现有方法的27k-32k小一个数量级），在Llama-3-8B上实现了最先进的生成速度（392.7 tokens/s），且无需任何额外训练或辅助参数。通过利用语言固有的上下文特性，并辅以优化的系统设计，我们打破了词汇表大小与草稿接受率之间长期存在的权衡，开启了高效推测解码的新模式。

总之，我们的工作做出了以下贡献：

- • 我们提供了实证分析，量化了动态词汇表剪枝的未开发潜力以及LLM生成中强时间局部性的表现。
- • 我们提出了一种简单、无需训练的动态剪枝方法，以最小的词汇表大小（<3k）实现高覆盖率，并与系统级技术协同设计，以解决稀疏内存访问的开销问题。
- • 我们证明了我们的方法作为一个即插即用模块，相对于最先进的EAGLE-2实现了1.12至1.32倍的互补加速，并在各种基准测试中超越了复杂的训练基线。

## 2 动机

在本节中，我们首先量化现有推测解码系统中因词汇表使用不当而浪费的性能潜力。然后，我们验证我们的核心见解“时间局部性”，证明一个动态构建的小词汇表可以释放这种潜力。

附图说明(a) 端到端速度与词汇表大小
附图说明(b) 真实覆盖率实证分析

图1：使用Llama-3-8B的动机分析。(a) 静态词汇表剪枝中未开发的潜力。虽然理论上小词汇表存在加速（预言速度），但由于草稿接受率下降，实际速度迅速下降。我们的目标是弥合这一差距。(b) 跨不同领域的词汇表覆盖率分析。静态方法（虚线）需要大词汇表才能达到高覆盖率。我们的方法（MicroSpec，星号）以最小的动态词汇表（最大3k token）实现了优越的覆盖率。

### 2.1 重新思考草稿词汇表剪枝：超越精度-效率权衡

最近的研究（Zhao等人，2025；Weng等人，2025；Zhang等人，2025）已验证，草稿模型的输出投影（LM头）已成为推测解码中的主要瓶颈，特别是当模型词汇表膨胀到超过10万个文本token时（例如Llama-3的128k，Qwen-2的152k）（Tao等人，2024）。为了缓解这一问题，剪枝草稿词汇表是一种有吸引力的策略。

然而，现有的最先进方法在静态范式下运行：要么选择固定的高频token子集（例如FR-Spec（Zhao等人，2025），VocabTrim（Goel等人，2025）），要么训练一个路由器从一组固定的预聚类词汇表中选择（例如CORAL（Weng等人，2025），DynaSpec（Zhang等人，2025））。这些方法似乎陷入了不可避免的困境：较小的词汇表大小对于计算节省是必要的，但盲目限制它严重降低了草稿的接受率，因为无法召回长尾token，常常抵消任何速度增益。我们认为，这种感知到的权衡源于其静态或粗粒度性质的内在局限性，这迫使它们忽略细粒度的、实例特定的上下文。为了量化这种权衡以及由此产生的未开发潜力，我们定义了两种情况：

- • 预言场景（理论极限）：我们假设一种理想状态，其中草稿模型的接受率不受词汇表缩减的影响。这隔离并突出了通过缩小LM头计算所能实现的纯计算增益。
- • 实际场景：我们使用FR-Spec（Zhao等人，2025）作为代表性静态剪枝方法来评估真实世界性能，在该方法中，接受率随着剪枝词汇表的缩小而下降。

我们将剪枝词汇表大小从32k变化到0.5k，以探索潜在的加速，其中32k是FR-Spec中经验报告的最佳设置。图1(a)以多轮对话任务为例说明了在Llama-3-8B-Instruct上的这一分析。

预言线（灰色）显示，从理论上讲，将词汇表从32k缩小到大约2k应该会产生持续的速度增益。然而，实际线（绿色）揭示了一个严峻的现实：静态剪枝在低于临界阈值（约16k）时产生迅速递减的收益，并且在更小的尺寸（<2k）时遭受灾难性的性能下降。这种急剧下降的发生是因为过于激进的、上下文无关的剪枝无法捕捉对当前特定上下文至关重要的长尾token，从而显著降低了草稿接受率，如图1(a)中的蓝色条形所示。实际曲线与理论曲线之间的大片阴影区域代表了一个巨大的性能差距，即目前因低效、静态的词汇表管理而掩盖的推测解码未开发潜力。这一差距正是我们工作的直接目标。

### 2.2 桥梁：利用强时间局部性

我们的方法植根于旨在弥合这一差距的关键见解：LLM生成的行为受强时间局部性支配（Saxena, 2023；Wang等人，2025；Chen等人，2025）。我们假设LLM生成的下一个token绝大多数情况下存在于最近的上下文历史中，或者是其紧密相关的扩展。基于这一假设，我们认为草稿模型的活跃词汇表可以每步动态剪枝为一个更小、上下文感知的子集，同时捕捉足够的正确语义。

为了实证验证这一点，我们分析了真实覆盖率：在每个步骤t，目标LLM选择的正确token y_t* 出现在剪枝词汇表中的概率。我们比较了两种策略：

- • FR-Spec（Zhao等人，2025）：基于语料库统计的高频token的静态词汇表。
- • MicroSpec：基于当前上下文和生成轨迹的动态词汇表（详见第3节）。

图1(b)使用Llama-3-8B-Instruct比较了跨不同领域（详见第4.1节）的这些覆盖率。静态方法（虚线）需要过大的词汇表（通常大于16k甚至大于32k）才能达到可接受的覆盖率（>85%）。这完美地解释了在图1(a)中观察到的性能急剧下降：低于一定大小，静态词汇表根本无法涵盖太多正确的token。相比之下，MicroSpec（星号）在保持极小平均词汇表大小（最大3k token）的同时，始终实现高覆盖率（73%至97%，取决于任务）。

这一分析提供了强有力的动机证据：基于显式上下文的最小动态构建词汇表足以捕捉生成token的绝大多数。这一关键见解使我们能够运行在以前静态方法无法达到的高速（<3k大小）区域，从而有效地恢复图1(a)中确定的未开发潜力。

## 3 方法

附图说明图2：MicroSpec概览。给定上下文“The old wooden ship had”，长尾token“weathered, barnacle, hull”位于固定边界之外，尽管在特定上下文中概率很高。因此，草稿模型被迫选择通用的、次优的高频替代词（“broken, surface”）。MicroSpec通过动态构建草稿模型的词汇表来恢复。

在本节中，我们将f

MicroSpec: 通过轻量级上下文词汇表加速推测解码

相似文章

SlimSpec: 用于加速推测解码的低秩 Draft LM-Head

跨语言的推测解码

Mistletoe：针对推测解码的隐蔽加速崩溃攻击

减少草稿，增加检索：用于推测解码的混合树构建

BudgetDraft：面向稀疏KV投机解码的接受感知多视图训练

提交意见反馈