SlimSpec: 用于加速推测解码的低秩 Draft LM-Head

Hugging Face Daily Papers 论文

摘要

SlimSpec 为 drafter LM-head 引入了低秩参数化方法,以加速 LLMs 中的推测解码,在保持完整词表支持的同时实现了 4-5 倍加速。

推测解码通过两步流程加速大语言模型(LLMs)的自回归生成:轻量级 draft 模型提出 token,随后 target 模型在单次前向传播中完成验证。尽管现代架构中的 drafter 网络本身很小,但其 LM-head 仍需向大规模词表进行投影,成为主要的计算瓶颈之一。此前的工作主要通过静态或动态词表截断来解决该问题。然而,这些方法在缓解瓶颈的同时也引入了额外的复杂性,例如需要特殊词表编排、复杂的推理期逻辑或修改训练设置。在本文中,我们提出 SlimSpec,这是一种针对 drafter LM-head 的低秩参数化方法。它压缩的是内部表示而非输出,从而在保持完整词表支持的同时解决问题。我们使用 EAGLE-3 drafter 在三个 target 模型及多个多样化基准上评估了该方法,覆盖了延迟受限与吞吐量受限的推理场景。SlimSpec 相较于标准 LM-head 架构实现了 4-5 倍加速,同时保持了具有竞争力的 acceptance length,端到端加速效果较现有方法最多提升 8-9%。我们的方法仅需对训练和推理流水线进行极少的调整。结合前述加速提升,SlimSpec 成为各类 draft LM-head 架构中极具竞争力的替代方案。
查看原文
查看缓存全文

缓存时间: 2026/05/12 10:52

论文页面 - SlimSpec:用于加速推测解码的低秩草稿 LM-Head

来源:https://huggingface.co/papers/2605.10453

摘要

SlimSpec 通过使用低秩参数化压缩草稿模型的语言模型头,在保持完整词表支持的同时提升了推测解码的效率,并以极小的流水线改动实现了显著的加速效果。

推测解码 通过两步流程加速大语言模型 (LLMs) 的自回归生成:首先由轻量级的草稿模型 提议 token,随后目标模型 在一次前向传播中对其进行验证。尽管在现代架构中草稿网络规模较小,但其 LM-Head 仍需向庞大的词表进行投影,这已成为主要的计算瓶颈之一。在以往的研究中,该问题主要通过静态或动态词表截断 来解决。然而,这些方法在缓解瓶颈的同时也引入了额外的复杂性,例如特殊的词表筛选、复杂的推理时逻辑或对训练设置的修改。在本文中,我们提出了 SlimSpec,这是一种针对草稿模型 LM-Head低秩参数化 方法。它压缩的是内部表示 而非输出,从而保留了完整的词表支持。我们在延迟受限和吞吐量受限的推理场景下,使用 EAGLE-3 草稿模型在三个目标模型 和多种基准测试上评估了我们的方法。与标准 LM-Head 架构相比,SlimSpec 实现了 4-5 倍的加速,同时保持了具有竞争力的接受长度,其端到端加速比 比现有方法高出 8-9%。我们的方法仅需对训练和推理流水线进行极小的调整。结合上述加速改进,这使得 SlimSpec 成为各种草稿 LM-Head 架构的有力替代方案。

查看 arXiv 页面 查看 PDF 添加到收藏集

在您的 agent 中获取此论文:

hf papers read 2605.10453

还没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

暂无模型链接此论文

在模型的 README.md 中引用 arxiv.org/abs/2605.10453 即可在此页面显示链接。

引用此论文的数据集0

暂无数据集链接此论文

在数据集的 README.md 中引用 arxiv.org/abs/2605.10453 即可在此页面显示链接。

引用此论文的 Spaces0

暂无 Space 链接此论文

在 Space 的 README.md 中引用 arxiv.org/abs/2605.10453 即可在此页面显示链接。

包含此论文的收藏集0

暂无收藏集包含此论文

将此论文添加到收藏集 即可在此页面显示链接。

相似文章

MicroSpec: 通过轻量级上下文词汇表加速推测解码

arXiv cs.CL

MicroSpec 是一种无需训练的技术,它能即时构建紧凑的上下文感知词汇表,以加速大型语言模型中的推测解码,将平均词汇表大小减少40倍以上,并相比EAGLE-2实现了高达1.32倍的端到端加速。

什么是推测性解码?(在paperswithco.de上热门)[R]

Reddit r/MachineLearning

推测性解码是一种推理优化技术,它使用快速草稿模型提出未来 token,并由较大模型并行验证,从而提高 LLM 的生成速度。文章强调了它在 Papers with Code 上的热门状态,以及最近的 SGLang 博客文章,该文章介绍了使用 DFlash 模型实现的最先进延迟。