减少草稿,增加检索:用于推测解码的混合树构建

Hugging Face Daily Papers 论文

摘要

Graft 是一个无需训练的框架,通过结合剪枝与检索来增强推测解码,从而提高接受率和推理速度。在短上下文基准测试中,其加速比最高可达5.41倍,在Qwen3-235B上相比EAGLE-3的提升最高可达21.8%。

推测解码(SD)通过利用草稿-验证范式来加速大型语言模型推理。为了最大化接受率,近期方法构建了庞大的草稿树,但这不幸地带来了严重的显存带宽和计算开销,成为端到端加速的瓶颈。虽然动态深度剪枝可以通过移除边际分支来减少延迟,但它也丢弃了可能有效的候选者,使得接受率无法达到密集草稿树的上限。在本文中,我们识别了资源分配中的一个关键机会:从密集草稿到剪枝草稿的转变释放了可观的计算预算。为了打破这一帕累托权衡,我们引入了Graft,一种将剪枝与检索耦合为相互增强操作的补偿框架。剪枝为检索提供了充足的预算,而检索则补偿了剪枝导致的覆盖损失并恢复了接受长度。通过采用顺序的`先剪枝后嫁接`机制,Graft将高预测性的检索令牌附加到剪枝所开辟的位置,以近乎零开销填补拓扑间隙。Graft完全无需训练且无损。全面的评估表明,Graft在实际部署场景中建立了新的帕累托前沿,包括短上下文生成、长上下文生成和大规模模型。在短上下文基准测试中,它在大规模Qwen3-235B上实现了最高5.41倍的加速,并将平均加速比相比EAGLE-3提升了最高21.8%。我们还初步探索了将Graft应用于DFlash风格的块草稿生成范式,为超越自回归草稿树的嫁接提供了初步证据和见解。
查看原文
查看缓存全文

缓存时间: 2026/05/20 02:35

论文页面 - 精简草稿,增强检索:投机解码的混合树构建

来源:https://huggingface.co/papers/2605.20104 作者:

,

,

,

,

,

,

,

,

,

,

摘要

Graft 是一个无需训练的框架,通过动态结合剪枝和检索操作来增强投机解码,在提升接受率和推理速度的同时不牺牲准确性。

投机解码(https://huggingface.co/papers?q=Speculative%20decoding)(SD)利用“草稿-验证”范式(https://huggingface.co/papers?q=draft-then-verify%20paradigm)加速大语言模型推理。为了最大化接受率,近期方法构建了庞大的草稿树(https://huggingface.co/papers?q=draft%20trees),但这不幸地导致了严重的VRAM带宽(https://huggingface.co/papers?q=VRAM%20bandwidth)和计算开销(https://huggingface.co/papers?q=computational%20overhead),从而制约了端到端的加速效果。虽然动态深度剪枝(https://huggingface.co/papers?q=dynamic-depth%20pruning)可以通过移除边缘分支来减少这种延迟,但它同时也丢弃了可能有效的候选项,导致接受率无法达到密集树的上限。在本文中,我们识别出资源分配中的一个关键机遇:从密集草稿到剪枝草稿的转变释放了显著的计算预算。为了打破这种帕累托权衡(https://huggingface.co/papers?q=Pareto%20tradeoff),我们引入了 Graft,一个补偿框架(https://huggingface.co/papers?q=compensation%20framework),将剪枝(https://huggingface.co/papers?q=pruning)和检索(https://huggingface.co/papers?q=retrieval)作为相互增强的操作。剪枝(https://huggingface.co/papers?q=Pruning)为检索(https://huggingface.co/papers?q=retrieval)提供充足的预算,而检索(https://huggingface.co/papers?q=retrieval)则弥补剪枝(https://huggingface.co/papers?q=pruning)导致的覆盖损失并恢复接受长度。通过采用顺序的“先剪后接”机制,Graft 将高度可预测的检索令牌插入到剪枝(https://huggingface.co/papers?q=pruning)所打开的位置,以近乎零开销填补拓扑间隙。Graft 完全无需训练且无损。综合评估表明,Graft 在实际部署场景(包括短上下文生成、长上下文生成和大规模模型)中建立了新的帕累托前沿。在短上下文基准测试中,其实现了最高 5.41 倍的加速,并在大规模 Qwen3-235B 模型上将平均加速比相比 EAGLE-3 提升了最高 21.8%。我们还对 Graft 应用于 DFlash 式块草稿(https://huggingface.co/papers?q=DFlash-style%20block%20drafting)范式进行了初步探索,为将嫁接扩展至自回归草稿树(https://huggingface.co/papers?q=autoregressive%20draft%20trees)之外提供了初步证据和见解。

查看 arXiv 页面(https://arxiv.org/abs/2605.20104)查看 PDF(https://arxiv.org/pdf/2605.20104)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.20104)

在你的智能体中获取本论文:

hf papers read 2605\.20104

没有最新 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

暂无模型关联此论文

在模型 README.md 中引用 arxiv.org/abs/2605.20104 即可从此页面链接。

引用此论文的数据集0

暂无数据集关联此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.20104 即可从此页面链接。

引用此论文的 Space0

暂无 Space 关联此论文

在 Space README.md 中引用 arxiv.org/abs/2605.20104 即可从此页面链接。

包含此论文的收藏集0

暂无收藏集包含此论文

将本论文添加到一个收藏集(https://huggingface.co/new-collection)中即可从此页面链接。

相似文章

SpecBlock:具有动态树草拟的块迭代投机解码

arXiv cs.CL

本文介绍了 SpecBlock,这是一种块迭代式投机解码方法,通过将路径依赖与高效的草拟相结合来加速大语言模型的推理。与 EAGLE-3 等现有方法相比,它在保持更低草拟成本的同时展示了更高的加速比。

跨语言的推测解码

arXiv cs.CL

本文比较了三种策略以提高非英语语言的推测解码效率,发现任务特定蒸馏能提高接受率但泛化性差,而n-gram草稿模型尽管接受率较低,却能提供持续的加速。