减少草稿,增加检索:用于推测解码的混合树构建
摘要
Graft 是一个无需训练的框架,通过结合剪枝与检索来增强推测解码,从而提高接受率和推理速度。在短上下文基准测试中,其加速比最高可达5.41倍,在Qwen3-235B上相比EAGLE-3的提升最高可达21.8%。
查看缓存全文
缓存时间: 2026/05/20 02:35
论文页面 - 精简草稿,增强检索:投机解码的混合树构建
来源:https://huggingface.co/papers/2605.20104 作者:
,
,
,
,
,
,
,
,
,
,
摘要
Graft 是一个无需训练的框架,通过动态结合剪枝和检索操作来增强投机解码,在提升接受率和推理速度的同时不牺牲准确性。
投机解码(https://huggingface.co/papers?q=Speculative%20decoding)(SD)利用“草稿-验证”范式(https://huggingface.co/papers?q=draft-then-verify%20paradigm)加速大语言模型推理。为了最大化接受率,近期方法构建了庞大的草稿树(https://huggingface.co/papers?q=draft%20trees),但这不幸地导致了严重的VRAM带宽(https://huggingface.co/papers?q=VRAM%20bandwidth)和计算开销(https://huggingface.co/papers?q=computational%20overhead),从而制约了端到端的加速效果。虽然动态深度剪枝(https://huggingface.co/papers?q=dynamic-depth%20pruning)可以通过移除边缘分支来减少这种延迟,但它同时也丢弃了可能有效的候选项,导致接受率无法达到密集树的上限。在本文中,我们识别出资源分配中的一个关键机遇:从密集草稿到剪枝草稿的转变释放了显著的计算预算。为了打破这种帕累托权衡(https://huggingface.co/papers?q=Pareto%20tradeoff),我们引入了 Graft,一个补偿框架(https://huggingface.co/papers?q=compensation%20framework),将剪枝(https://huggingface.co/papers?q=pruning)和检索(https://huggingface.co/papers?q=retrieval)作为相互增强的操作。剪枝(https://huggingface.co/papers?q=Pruning)为检索(https://huggingface.co/papers?q=retrieval)提供充足的预算,而检索(https://huggingface.co/papers?q=retrieval)则弥补剪枝(https://huggingface.co/papers?q=pruning)导致的覆盖损失并恢复接受长度。通过采用顺序的“先剪后接”机制,Graft 将高度可预测的检索令牌插入到剪枝(https://huggingface.co/papers?q=pruning)所打开的位置,以近乎零开销填补拓扑间隙。Graft 完全无需训练且无损。综合评估表明,Graft 在实际部署场景(包括短上下文生成、长上下文生成和大规模模型)中建立了新的帕累托前沿。在短上下文基准测试中,其实现了最高 5.41 倍的加速,并在大规模 Qwen3-235B 模型上将平均加速比相比 EAGLE-3 提升了最高 21.8%。我们还对 Graft 应用于 DFlash 式块草稿(https://huggingface.co/papers?q=DFlash-style%20block%20drafting)范式进行了初步探索,为将嫁接扩展至自回归草稿树(https://huggingface.co/papers?q=autoregressive%20draft%20trees)之外提供了初步证据和见解。
查看 arXiv 页面(https://arxiv.org/abs/2605.20104)查看 PDF(https://arxiv.org/pdf/2605.20104)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.20104)
在你的智能体中获取本论文:
hf papers read 2605\.20104
没有最新 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
暂无模型关联此论文
在模型 README.md 中引用 arxiv.org/abs/2605.20104 即可从此页面链接。
引用此论文的数据集0
暂无数据集关联此论文
在数据集 README.md 中引用 arxiv.org/abs/2605.20104 即可从此页面链接。
引用此论文的 Space0
暂无 Space 关联此论文
在 Space README.md 中引用 arxiv.org/abs/2605.20104 即可从此页面链接。
包含此论文的收藏集0
暂无收藏集包含此论文
将本论文添加到一个收藏集(https://huggingface.co/new-collection)中即可从此页面链接。
相似文章
AdaPLD:自适应检索与复用的高效无模型推测解码方法
AdaPLD是一种无需训练的方法,通过自适应检索结合词汇与语义相似度,并构建分支复用假设来处理续写不确定性,从而提升无模型推测解码的效率,最高可实现3.10倍解码加速。
SpecBlock:具有动态树草拟的块迭代投机解码
本文介绍了 SpecBlock,这是一种块迭代式投机解码方法,通过将路径依赖与高效的草拟相结合来加速大语言模型的推理。与 EAGLE-3 等现有方法相比,它在保持更低草拟成本的同时展示了更高的加速比。
跨语言的推测解码
本文比较了三种策略以提高非英语语言的推测解码效率,发现任务特定蒸馏能提高接受率但泛化性差,而n-gram草稿模型尽管接受率较低,却能提供持续的加速。
BudgetDraft:面向稀疏KV投机解码的接受感知多视图训练
BudgetDraft提出了一种多视图训练方法,用于投机解码,将稀疏KV起草者与全KV验证者对齐,在中长上下文推理中实现了显著的加速。
TAPS:面向扩散草稿推测解码的目标感知前缀树选择
TAPS提出了一种面向扩散草稿推测解码的目标感知前缀树选择方法,通过改善接受-成本权衡,相较于先前方法实现了高达7.9倍的无损端到端加速。