BlockPilot: 实例自适应策略学习用于基于扩散的投机解码

Hugging Face Daily Papers 论文

摘要

BlockPilot 提出了一种实例自适应策略,用于预测基于扩散的投机解码的最优块大小,从而以最小的开销实现显著的加速。

投机解码通过使用轻量级草稿模型并行生成候选token,然后由目标模型验证,从而实现无损加速。最近,基于扩散的投机解码通过块级扩散在每个前向传递中生成多个token,进一步提高了并行性,达到了最先进的性能。然而,现有方法采用固定的推理块大小,并假设所有输入都有一个统一的最优解码策略。在本文中,我们证明这种假设是次优的,因为最优块大小在不同样本之间变化,并且对投机解码性能起着关键作用。此外,这些值表现出清晰的局部结构,集中在训练块大小附近,从而将问题简化为低维且结构化的决策空间。基于这些见解,我们提出了BlockPilot,一种样本自适应策略,从预填充表示中预测最优块大小。具体来说,我们将块大小选择公式化为一个轻量级策略学习问题,并提出了一种实例自适应决策机制,该机制基于预填充阶段的表示来预测最优块大小。该预测仅在预填充后执行一次,从而实现无缝集成。大量实验证明,我们的方法即插即用,引入的额外开销极小,并且持续提高效率,在温度为T=1的情况下,在Qwen3-4B上实现了5.92的接受长度和4.20倍的加速。
查看原文
查看缓存全文

缓存时间: 2026/07/01 03:40

论文页面 - BlockPilot:基于扩散的投机解码的实例自适应策略学习

来源:https://huggingface.co/papers/2606.31315

摘要

自适应块大小选择的投机解码通过从预填充表示中预测最优块大小,提升了推理效率,在极低开销下实现了显著加速。

投机解码 (https://huggingface.co/papers?q=Speculative%20decoding) 通过使用轻量级草稿模型 (https://huggingface.co/papers?q=draft%20model) 并行生成候选令牌,再由目标模型 (https://huggingface.co/papers?q=target%20model) 进行验证,从而实现无损加速。近年来,基于扩散的投机解码 (https://huggingface.co/papers?q=diffusion-based%20speculative%20decoding) 通过块级扩散 (https://huggingface.co/papers?q=block-level%20diffusion) 每次前向传播生成多个令牌,进一步提升了并行性,达到了最先进(SOTA)性能。然而,现有方法采用固定的推理块大小 (https://huggingface.co/papers?q=inference%20block%20size),并假设所有输入均适用统一的最优解码策略。本文表明,这一假设并非最优,因为最优块大小在不同样本间存在差异,且对投机解码 (https://huggingface.co/papers?q=speculative%20decoding) 性能具有关键影响。此外,这些值呈现出清晰的局部结构,集中在训练块大小附近,从而将问题简化为低维且结构化的决策空间。基于这些发现,我们提出 BlockPilot,一种样本自适应策略,能够从预填充表示 (https://huggingface.co/papers?q=prefilling%20representation) 中预测最优块大小。具体而言,我们将块大小选择形式化为一个轻量级策略学习 (https://huggingface.co/papers?q=policy%20learning) 问题,并提出一种实例自适应决策机制 (https://huggingface.co/papers?q=instance-adaptive%20decision%20mechanism),根据预填充阶段的表示预测最优块大小。该预测仅在预填充后执行一次,从而实现无缝集成。大量实验表明,我们的方法即插即用,引入极低开销,并能持续提升效率,在温度 T=1 的 Qwen3-4B 上实现了 5.92 的接受长度和 4.20 倍的加速比。

查看 arXiv 页面 (https://arxiv.org/abs/2606.31315) 查看 PDF (https://arxiv.org/pdf/2606.31315) GitHub20 (https://github.com/AMAP-ML/BlockPilot) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.31315)

在您的代理中获取此论文:

hf papers read 2606.31315

没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型关联此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.31315 以从此页面链接。

引用此论文的数据集0

没有数据集关联此论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.31315 以从此页面链接。

引用此论文的 Spaces0

没有 Space 关联此论文

请在 Space README.md 中引用 arxiv.org/abs/2606.31315 以从此页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

请将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接。

相似文章

SpecBlock:具有动态树草拟的块迭代投机解码

arXiv cs.CL

本文介绍了 SpecBlock,这是一种块迭代式投机解码方法,通过将路径依赖与高效的草拟相结合来加速大语言模型的推理。与 EAGLE-3 等现有方法相比,它在保持更低草拟成本的同时展示了更高的加速比。

DFlash:用于快速投机解码的块扩散

Papers with Code Trending

DFlash 是一种新的投机解码框架,它使用轻量级的块扩散模型进行并行标记起草,与自回归方法相比,实现了超过 6 倍的加速。在保持高输出质量的同时,其性能显著优于现有的最先进方法(如 EAGLE-3)。