减少草稿，增加检索：用于推测解码的混合树构建

Hugging Face Daily Papers 2026/05/19 00:00 论文

speculative-decoding large-language-models inference-speedup draft-tree pruning retrieval training-free

摘要

Graft 是一个无需训练的框架，通过结合剪枝与检索来增强推测解码，从而提高接受率和推理速度。在短上下文基准测试中，其加速比最高可达5.41倍，在Qwen3-235B上相比EAGLE-3的提升最高可达21.8%。

推测解码（SD）通过利用草稿-验证范式来加速大型语言模型推理。为了最大化接受率，近期方法构建了庞大的草稿树，但这不幸地带来了严重的显存带宽和计算开销，成为端到端加速的瓶颈。虽然动态深度剪枝可以通过移除边际分支来减少延迟，但它也丢弃了可能有效的候选者，使得接受率无法达到密集草稿树的上限。在本文中，我们识别了资源分配中的一个关键机会：从密集草稿到剪枝草稿的转变释放了可观的计算预算。为了打破这一帕累托权衡，我们引入了Graft，一种将剪枝与检索耦合为相互增强操作的补偿框架。剪枝为检索提供了充足的预算，而检索则补偿了剪枝导致的覆盖损失并恢复了接受长度。通过采用顺序的`先剪枝后嫁接`机制，Graft将高预测性的检索令牌附加到剪枝所开辟的位置，以近乎零开销填补拓扑间隙。Graft完全无需训练且无损。全面的评估表明，Graft在实际部署场景中建立了新的帕累托前沿，包括短上下文生成、长上下文生成和大规模模型。在短上下文基准测试中，它在大规模Qwen3-235B上实现了最高5.41倍的加速，并将平均加速比相比EAGLE-3提升了最高21.8%。我们还初步探索了将Graft应用于DFlash风格的块草稿生成范式，为超越自回归草稿树的嫁接提供了初步证据和见解。

查看原文

查看缓存全文

缓存时间: 2026/05/20 02:35

论文页面 - 精简草稿，增强检索：投机解码的混合树构建

来源：https://huggingface.co/papers/2605.20104 作者：

摘要

Graft 是一个无需训练的框架，通过动态结合剪枝和检索操作来增强投机解码，在提升接受率和推理速度的同时不牺牲准确性。

投机解码（https://huggingface.co/papers?q=Speculative%20decoding）（SD）利用“草稿-验证”范式（https://huggingface.co/papers?q=draft-then-verify%20paradigm）加速大语言模型推理。为了最大化接受率，近期方法构建了庞大的草稿树（https://huggingface.co/papers?q=draft%20trees），但这不幸地导致了严重的VRAM带宽（https://huggingface.co/papers?q=VRAM%20bandwidth）和计算开销（https://huggingface.co/papers?q=computational%20overhead），从而制约了端到端的加速效果。虽然动态深度剪枝（https://huggingface.co/papers?q=dynamic-depth%20pruning）可以通过移除边缘分支来减少这种延迟，但它同时也丢弃了可能有效的候选项，导致接受率无法达到密集树的上限。在本文中，我们识别出资源分配中的一个关键机遇：从密集草稿到剪枝草稿的转变释放了显著的计算预算。为了打破这种帕累托权衡（https://huggingface.co/papers?q=Pareto%20tradeoff），我们引入了 Graft，一个补偿框架（https://huggingface.co/papers?q=compensation%20framework），将剪枝（https://huggingface.co/papers?q=pruning）和检索（https://huggingface.co/papers?q=retrieval）作为相互增强的操作。剪枝（https://huggingface.co/papers?q=Pruning）为检索（https://huggingface.co/papers?q=retrieval）提供充足的预算，而检索（https://huggingface.co/papers?q=retrieval）则弥补剪枝（https://huggingface.co/papers?q=pruning）导致的覆盖损失并恢复接受长度。通过采用顺序的“先剪后接”机制，Graft 将高度可预测的检索令牌插入到剪枝（https://huggingface.co/papers?q=pruning）所打开的位置，以近乎零开销填补拓扑间隙。Graft 完全无需训练且无损。综合评估表明，Graft 在实际部署场景（包括短上下文生成、长上下文生成和大规模模型）中建立了新的帕累托前沿。在短上下文基准测试中，其实现了最高 5.41 倍的加速，并在大规模 Qwen3-235B 模型上将平均加速比相比 EAGLE-3 提升了最高 21.8%。我们还对 Graft 应用于 DFlash 式块草稿（https://huggingface.co/papers?q=DFlash-style%20block%20drafting）范式进行了初步探索，为将嫁接扩展至自回归草稿树（https://huggingface.co/papers?q=autoregressive%20draft%20trees）之外提供了初步证据和见解。

查看 arXiv 页面（https://arxiv.org/abs/2605.20104）查看 PDF（https://arxiv.org/pdf/2605.20104）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.20104）

在你的智能体中获取本论文：

hf papers read 2605\.20104

没有最新 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

暂无模型关联此论文

在模型 README.md 中引用 arxiv.org/abs/2605.20104 即可从此页面链接。

引用此论文的数据集0

暂无数据集关联此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.20104 即可从此页面链接。

引用此论文的 Space0

暂无 Space 关联此论文

在 Space README.md 中引用 arxiv.org/abs/2605.20104 即可从此页面链接。

包含此论文的收藏集0

暂无收藏集包含此论文

将本论文添加到一个收藏集（https://huggingface.co/new-collection）中即可从此页面链接。

减少草稿，增加检索：用于推测解码的混合树构建

论文页面 - 精简草稿，增强检索：投机解码的混合树构建

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Space0

包含此论文的收藏集0

相似文章

AdaPLD：自适应检索与复用的高效无模型推测解码方法

SpecBlock：具有动态树草拟的块迭代投机解码

跨语言的推测解码

BudgetDraft：面向稀疏KV投机解码的接受感知多视图训练

TAPS：面向扩散草稿推测解码的目标感知前缀树选择

提交意见反馈