BlockPilot: 实例自适应策略学习用于基于扩散的投机解码

Hugging Face Daily Papers 2026/06/30 00:00 论文

speculative-decoding diffusion block-size policy-learning instance-adaptive inference-efficiency acceleration

摘要

BlockPilot 提出了一种实例自适应策略，用于预测基于扩散的投机解码的最优块大小，从而以最小的开销实现显著的加速。

投机解码通过使用轻量级草稿模型并行生成候选token，然后由目标模型验证，从而实现无损加速。最近，基于扩散的投机解码通过块级扩散在每个前向传递中生成多个token，进一步提高了并行性，达到了最先进的性能。然而，现有方法采用固定的推理块大小，并假设所有输入都有一个统一的最优解码策略。在本文中，我们证明这种假设是次优的，因为最优块大小在不同样本之间变化，并且对投机解码性能起着关键作用。此外，这些值表现出清晰的局部结构，集中在训练块大小附近，从而将问题简化为低维且结构化的决策空间。基于这些见解，我们提出了BlockPilot，一种样本自适应策略，从预填充表示中预测最优块大小。具体来说，我们将块大小选择公式化为一个轻量级策略学习问题，并提出了一种实例自适应决策机制，该机制基于预填充阶段的表示来预测最优块大小。该预测仅在预填充后执行一次，从而实现无缝集成。大量实验证明，我们的方法即插即用，引入的额外开销极小，并且持续提高效率，在温度为T=1的情况下，在Qwen3-4B上实现了5.92的接受长度和4.20倍的加速。

查看原文

查看缓存全文

缓存时间: 2026/07/01 03:40

论文页面 - BlockPilot：基于扩散的投机解码的实例自适应策略学习

来源：https://huggingface.co/papers/2606.31315

摘要

自适应块大小选择的投机解码通过从预填充表示中预测最优块大小，提升了推理效率，在极低开销下实现了显著加速。

投机解码 (https://huggingface.co/papers?q=Speculative%20decoding) 通过使用轻量级草稿模型 (https://huggingface.co/papers?q=draft%20model) 并行生成候选令牌，再由目标模型 (https://huggingface.co/papers?q=target%20model) 进行验证，从而实现无损加速。近年来，基于扩散的投机解码 (https://huggingface.co/papers?q=diffusion-based%20speculative%20decoding) 通过块级扩散 (https://huggingface.co/papers?q=block-level%20diffusion) 每次前向传播生成多个令牌，进一步提升了并行性，达到了最先进（SOTA）性能。然而，现有方法采用固定的推理块大小 (https://huggingface.co/papers?q=inference%20block%20size)，并假设所有输入均适用统一的最优解码策略。本文表明，这一假设并非最优，因为最优块大小在不同样本间存在差异，且对投机解码 (https://huggingface.co/papers?q=speculative%20decoding) 性能具有关键影响。此外，这些值呈现出清晰的局部结构，集中在训练块大小附近，从而将问题简化为低维且结构化的决策空间。基于这些发现，我们提出 BlockPilot，一种样本自适应策略，能够从预填充表示 (https://huggingface.co/papers?q=prefilling%20representation) 中预测最优块大小。具体而言，我们将块大小选择形式化为一个轻量级策略学习 (https://huggingface.co/papers?q=policy%20learning) 问题，并提出一种实例自适应决策机制 (https://huggingface.co/papers?q=instance-adaptive%20decision%20mechanism)，根据预填充阶段的表示预测最优块大小。该预测仅在预填充后执行一次，从而实现无缝集成。大量实验表明，我们的方法即插即用，引入极低开销，并能持续提升效率，在温度 T=1 的 Qwen3-4B 上实现了 5.92 的接受长度和 4.20 倍的加速比。

查看 arXiv 页面 (https://arxiv.org/abs/2606.31315) 查看 PDF (https://arxiv.org/pdf/2606.31315) GitHub20 (https://github.com/AMAP-ML/BlockPilot) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.31315)

在您的代理中获取此论文：

hf papers read 2606.31315

没有最新 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型关联此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.31315 以从此页面链接。

引用此论文的数据集0

没有数据集关联此论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.31315 以从此页面链接。

引用此论文的 Spaces0

没有 Space 关联此论文

请在 Space README.md 中引用 arxiv.org/abs/2606.31315 以从此页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

请将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接。

BlockPilot: 实例自适应策略学习用于基于扩散的投机解码

论文页面 - BlockPilot：基于扩散的投机解码的实例自适应策略学习

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的收藏集0

相似文章

性能驱动的推测解码自适应窗口化策略优化

SpecBlock：具有动态树草拟的块迭代投机解码

DFlash：用于快速投机解码的块扩散

PSD: 通过并行推测解码推动扩散大语言模型的帕累托前沿

TAPS：面向扩散草稿推测解码的目标感知前缀树选择

提交意见反馈