BlockPilot: 实例自适应策略学习用于基于扩散的投机解码
摘要
BlockPilot 提出了一种实例自适应策略,用于预测基于扩散的投机解码的最优块大小,从而以最小的开销实现显著的加速。
查看缓存全文
缓存时间: 2026/07/01 03:40
论文页面 - BlockPilot:基于扩散的投机解码的实例自适应策略学习
来源:https://huggingface.co/papers/2606.31315
摘要
自适应块大小选择的投机解码通过从预填充表示中预测最优块大小,提升了推理效率,在极低开销下实现了显著加速。
投机解码 (https://huggingface.co/papers?q=Speculative%20decoding) 通过使用轻量级草稿模型 (https://huggingface.co/papers?q=draft%20model) 并行生成候选令牌,再由目标模型 (https://huggingface.co/papers?q=target%20model) 进行验证,从而实现无损加速。近年来,基于扩散的投机解码 (https://huggingface.co/papers?q=diffusion-based%20speculative%20decoding) 通过块级扩散 (https://huggingface.co/papers?q=block-level%20diffusion) 每次前向传播生成多个令牌,进一步提升了并行性,达到了最先进(SOTA)性能。然而,现有方法采用固定的推理块大小 (https://huggingface.co/papers?q=inference%20block%20size),并假设所有输入均适用统一的最优解码策略。本文表明,这一假设并非最优,因为最优块大小在不同样本间存在差异,且对投机解码 (https://huggingface.co/papers?q=speculative%20decoding) 性能具有关键影响。此外,这些值呈现出清晰的局部结构,集中在训练块大小附近,从而将问题简化为低维且结构化的决策空间。基于这些发现,我们提出 BlockPilot,一种样本自适应策略,能够从预填充表示 (https://huggingface.co/papers?q=prefilling%20representation) 中预测最优块大小。具体而言,我们将块大小选择形式化为一个轻量级策略学习 (https://huggingface.co/papers?q=policy%20learning) 问题,并提出一种实例自适应决策机制 (https://huggingface.co/papers?q=instance-adaptive%20decision%20mechanism),根据预填充阶段的表示预测最优块大小。该预测仅在预填充后执行一次,从而实现无缝集成。大量实验表明,我们的方法即插即用,引入极低开销,并能持续提升效率,在温度 T=1 的 Qwen3-4B 上实现了 5.92 的接受长度和 4.20 倍的加速比。
查看 arXiv 页面 (https://arxiv.org/abs/2606.31315) 查看 PDF (https://arxiv.org/pdf/2606.31315) GitHub20 (https://github.com/AMAP-ML/BlockPilot) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.31315)
在您的代理中获取此论文:
hf papers read 2606.31315
没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型关联此论文
请在模型 README.md 中引用 arxiv.org/abs/2606.31315 以从此页面链接。
引用此论文的数据集0
没有数据集关联此论文
请在数据集 README.md 中引用 arxiv.org/abs/2606.31315 以从此页面链接。
引用此论文的 Spaces0
没有 Space 关联此论文
请在 Space README.md 中引用 arxiv.org/abs/2606.31315 以从此页面链接。
包含此论文的收藏集0
没有收藏集包含此论文
请将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接。
相似文章
性能驱动的推测解码自适应窗口化策略优化
提出PPOW,一种强化学习框架,用于优化推测解码中的草稿模型,采用窗口级目标和自适应窗口化,在多个基准测试中实现了显著加速。
SpecBlock:具有动态树草拟的块迭代投机解码
本文介绍了 SpecBlock,这是一种块迭代式投机解码方法,通过将路径依赖与高效的草拟相结合来加速大语言模型的推理。与 EAGLE-3 等现有方法相比,它在保持更低草拟成本的同时展示了更高的加速比。
DFlash:用于快速投机解码的块扩散
DFlash 是一种新的投机解码框架,它使用轻量级的块扩散模型进行并行标记起草,与自回归方法相比,实现了超过 6 倍的加速。在保持高输出质量的同时,其性能显著优于现有的最先进方法(如 EAGLE-3)。
PSD: 通过并行推测解码推动扩散大语言模型的帕累托前沿
本文介绍了一种无需训练的框架——并行推测解码(PSD),它通过同时提升空间和时间效率来加速扩散大语言模型的推理,每次前向传递最多可处理5.5×的token数,且质量与贪婪解码相当。
TAPS:面向扩散草稿推测解码的目标感知前缀树选择
TAPS提出了一种面向扩散草稿推测解码的目标感知前缀树选择方法,通过改善接受-成本权衡,相较于先前方法实现了高达7.9倍的无损端到端加速。