SlimSpec: 用于加速推测解码的低秩 Draft LM-Head

Hugging Face Daily Papers 2026/05/11 00:00 论文

摘要

SlimSpec 为 drafter LM-head 引入了低秩参数化方法，以加速 LLMs 中的推测解码，在保持完整词表支持的同时实现了 4-5 倍加速。

推测解码通过两步流程加速大语言模型（LLMs）的自回归生成：轻量级 draft 模型提出 token，随后 target 模型在单次前向传播中完成验证。尽管现代架构中的 drafter 网络本身很小，但其 LM-head 仍需向大规模词表进行投影，成为主要的计算瓶颈之一。此前的工作主要通过静态或动态词表截断来解决该问题。然而，这些方法在缓解瓶颈的同时也引入了额外的复杂性，例如需要特殊词表编排、复杂的推理期逻辑或修改训练设置。在本文中，我们提出 SlimSpec，这是一种针对 drafter LM-head 的低秩参数化方法。它压缩的是内部表示而非输出，从而在保持完整词表支持的同时解决问题。我们使用 EAGLE-3 drafter 在三个 target 模型及多个多样化基准上评估了该方法，覆盖了延迟受限与吞吐量受限的推理场景。SlimSpec 相较于标准 LM-head 架构实现了 4-5 倍加速，同时保持了具有竞争力的 acceptance length，端到端加速效果较现有方法最多提升 8-9%。我们的方法仅需对训练和推理流水线进行极少的调整。结合前述加速提升，SlimSpec 成为各类 draft LM-head 架构中极具竞争力的替代方案。

查看原文

查看缓存全文

缓存时间: 2026/05/12 10:52

论文页面 - SlimSpec：用于加速推测解码的低秩草稿 LM-Head

来源：https://huggingface.co/papers/2605.10453

摘要

SlimSpec 通过使用低秩参数化压缩草稿模型的语言模型头，在保持完整词表支持的同时提升了推测解码的效率，并以极小的流水线改动实现了显著的加速效果。

推测解码通过两步流程加速大语言模型 (LLMs) 的自回归生成：首先由轻量级的草稿模型提议 token，随后目标模型在一次前向传播中对其进行验证。尽管在现代架构中草稿网络规模较小，但其 LM-Head 仍需向庞大的词表进行投影，这已成为主要的计算瓶颈之一。在以往的研究中，该问题主要通过静态或动态词表截断来解决。然而，这些方法在缓解瓶颈的同时也引入了额外的复杂性，例如特殊的词表筛选、复杂的推理时逻辑或对训练设置的修改。在本文中，我们提出了 SlimSpec，这是一种针对草稿模型 LM-Head 的低秩参数化方法。它压缩的是内部表示而非输出，从而保留了完整的词表支持。我们在延迟受限和吞吐量受限的推理场景下，使用 EAGLE-3 草稿模型在三个目标模型和多种基准测试上评估了我们的方法。与标准 LM-Head 架构相比，SlimSpec 实现了 4-5 倍的加速，同时保持了具有竞争力的接受长度，其端到端加速比比现有方法高出 8-9%。我们的方法仅需对训练和推理流水线进行极小的调整。结合上述加速改进，这使得 SlimSpec 成为各种草稿 LM-Head 架构的有力替代方案。

查看 arXiv 页面查看 PDF 添加到收藏集

在您的 agent 中获取此论文：

hf papers read 2605.10453

还没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

暂无模型链接此论文

在模型的 README.md 中引用 arxiv.org/abs/2605.10453 即可在此页面显示链接。

引用此论文的数据集0

暂无数据集链接此论文

在数据集的 README.md 中引用 arxiv.org/abs/2605.10453 即可在此页面显示链接。

引用此论文的 Spaces0

暂无 Space 链接此论文

在 Space 的 README.md 中引用 arxiv.org/abs/2605.10453 即可在此页面显示链接。

包含此论文的收藏集0

暂无收藏集包含此论文

将此论文添加到收藏集即可在此页面显示链接。

SlimSpec: 用于加速推测解码的低秩 Draft LM-Head

论文页面 - SlimSpec：用于加速推测解码的低秩草稿 LM-Head

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的收藏集0

相似文章

MicroSpec: 通过轻量级上下文词汇表加速推测解码

[研究] JetSpec：通过并行树草案实现推测解码，最高可达9.64倍无损LLM推理加速，超过1000TPS

什么是推测性解码？（在paperswithco.de上热门）[R]

@_avichawla: 研究人员发现了一种让大语言模型（LLM）提速 8.5 倍的方法！（且不影响准确度）投机解码相当有效……

JetSpec：通过并行树草稿打破推测解码的扩展极限

提交意见反馈