SlimSpec: 用于加速推测解码的低秩 Draft LM-Head
摘要
SlimSpec 为 drafter LM-head 引入了低秩参数化方法,以加速 LLMs 中的推测解码,在保持完整词表支持的同时实现了 4-5 倍加速。
查看缓存全文
缓存时间: 2026/05/12 10:52
论文页面 - SlimSpec:用于加速推测解码的低秩草稿 LM-Head
来源:https://huggingface.co/papers/2605.10453
摘要
SlimSpec 通过使用低秩参数化压缩草稿模型的语言模型头,在保持完整词表支持的同时提升了推测解码的效率,并以极小的流水线改动实现了显著的加速效果。
推测解码 通过两步流程加速大语言模型 (LLMs) 的自回归生成:首先由轻量级的草稿模型 提议 token,随后目标模型 在一次前向传播中对其进行验证。尽管在现代架构中草稿网络规模较小,但其 LM-Head 仍需向庞大的词表进行投影,这已成为主要的计算瓶颈之一。在以往的研究中,该问题主要通过静态或动态词表截断 来解决。然而,这些方法在缓解瓶颈的同时也引入了额外的复杂性,例如特殊的词表筛选、复杂的推理时逻辑或对训练设置的修改。在本文中,我们提出了 SlimSpec,这是一种针对草稿模型 LM-Head 的低秩参数化 方法。它压缩的是内部表示 而非输出,从而保留了完整的词表支持。我们在延迟受限和吞吐量受限的推理场景下,使用 EAGLE-3 草稿模型在三个目标模型 和多种基准测试上评估了我们的方法。与标准 LM-Head 架构相比,SlimSpec 实现了 4-5 倍的加速,同时保持了具有竞争力的接受长度,其端到端加速比 比现有方法高出 8-9%。我们的方法仅需对训练和推理流水线进行极小的调整。结合上述加速改进,这使得 SlimSpec 成为各种草稿 LM-Head 架构的有力替代方案。
在您的 agent 中获取此论文:
hf papers read 2605.10453
还没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
暂无模型链接此论文
在模型的 README.md 中引用 arxiv.org/abs/2605.10453 即可在此页面显示链接。
引用此论文的数据集0
暂无数据集链接此论文
在数据集的 README.md 中引用 arxiv.org/abs/2605.10453 即可在此页面显示链接。
引用此论文的 Spaces0
暂无 Space 链接此论文
在 Space 的 README.md 中引用 arxiv.org/abs/2605.10453 即可在此页面显示链接。
包含此论文的收藏集0
暂无收藏集包含此论文
将此论文添加到收藏集 即可在此页面显示链接。
相似文章
MicroSpec: 通过轻量级上下文词汇表加速推测解码
MicroSpec 是一种无需训练的技术,它能即时构建紧凑的上下文感知词汇表,以加速大型语言模型中的推测解码,将平均词汇表大小减少40倍以上,并相比EAGLE-2实现了高达1.32倍的端到端加速。
[研究] JetSpec:通过并行树草案实现推测解码,最高可达9.64倍无损LLM推理加速,超过1000TPS
JetSpec引入了并行树草案技术用于推测解码,在保持无损准确性的同时,实现了LLM推理高达9.64倍的端到端加速,单块B200 GPU上吞吐量达到约1000 TPS。
什么是推测性解码?(在paperswithco.de上热门)[R]
推测性解码是一种推理优化技术,它使用快速草稿模型提出未来 token,并由较大模型并行验证,从而提高 LLM 的生成速度。文章强调了它在 Papers with Code 上的热门状态,以及最近的 SGLang 博客文章,该文章介绍了使用 DFlash 模型实现的最先进延迟。
@_avichawla: 研究人员发现了一种让大语言模型(LLM)提速 8.5 倍的方法!(且不影响准确度)投机解码相当有效……
研究人员提出了 DFlash 技术,这是一种利用块扩散模型(block diffusion models)进行投机解码的方法,可在不损失准确度的情况下,将大语言模型推理速度提升高达 8.5 倍。该技术已集成到 vLLM 和 SGLang 等主要框架中。
JetSpec:通过并行树草稿打破推测解码的扩展极限
JetSpec是一个推测解码框架,结合高效的前向草稿与因果条件化,提升LLM推理速度与接受率,在MATH-500上实现最高9.64倍加速,在对话工作负载上实现4.58倍加速。