@_avichawla: 研究人员发现了一种让大语言模型(LLM)提速 8.5 倍的方法!(且不影响准确度)投机解码相当有效……
摘要
研究人员提出了 DFlash 技术,这是一种利用块扩散模型(block diffusion models)进行投机解码的方法,可在不损失准确度的情况下,将大语言模型推理速度提升高达 8.5 倍。该技术已集成到 vLLM 和 SGLang 等主要框架中。
研究人员找到了一种让大语言模型(LLM)提速 8.5 倍的方法!(且不影响准确度)投机解码是解决传统大语言模型推理中单 Token 瓶颈问题的一种相当有效的手段。一个小型“草稿”模型首先生成接下来的多个 Token,然后大模型在一次前向传播中一次性验证所有 Token。如果任何位置的 Token 出错,保留该 Token 之前的所有内容并从中重新开始。这种方式的表现绝不会比标准解码差。但当前投机解码中的草稿模型仍是一次生成一个 Token。这使得草稿生成步骤本身成为瓶颈,将实际加速效果限制在 2-3 倍。
DFlash 是一项新技术,它用轻量级的块扩散模型替换自回归草稿模型,该模型能够并行一次性猜测所有 Token。无论猜测多少 Token,草稿生成成本保持不变。此外,草稿模型的条件信息来源于从目标模型多个层级中提取的隐藏特征,并注入到每一层草稿网络中,因此它比从零开始的草稿模型能做出显著更好的预测。
在下方的对比演示中,标准解码的速度为每秒 48.5 个 Token。在相同模型上,DFlash 达到了每秒 415 个 Token,且质量零损失。它已集成到 vLLM、SGLang 和 Transformers 中,并在 HuggingFace 上提供了适用于 Qwen3、Qwen3.5、Llama 3.1、Kimi-K2.5、gpt-oss 等多个模型的草稿模型。我已在回复中分享了 GitHub 仓库链接!
键值缓存(KV caching)是另一个提升大语言模型推理速度的必备技术。我最近写了一篇文章介绍它。请见下方。
轮到你了:你正在从事哪些可以利用这项新技术的用例?
相似文章
@lmsysorg: 新博客: 推测解码的下一代: DFlash 和 Spec V2。DFlash + Spec V2 实现 >4.3倍基准吞吐量…
关于 DFlash 和 Spec V2 推测解码方法的新研究实现了 LLM 推理的 >4.3倍基准吞吐量,现已成为 SGLang 的默认推测解码引擎。
@simplifyinAI: 研究人员刚刚通过零精度损失将 LLM 的速度提升了 8.5 倍。这项技术被称为 DFlash。它取代了缓慢的自回归…
研究人员提出了 DFlash,这是一种用块扩散模型替代自回归草稿模型的方法,在零精度损失的情况下实现了 8.5 倍的 LLM 推理加速。
什么是推测性解码?(在paperswithco.de上热门)[R]
推测性解码是一种推理优化技术,它使用快速草稿模型提出未来 token,并由较大模型并行验证,从而提高 LLM 的生成速度。文章强调了它在 Papers with Code 上的热门状态,以及最近的 SGLang 博客文章,该文章介绍了使用 DFlash 模型实现的最先进延迟。
通过序列蒙特卡洛加速LLM推理
本文提出了序列蒙特卡洛推测解码(SMC-SD),一种通过用草稿粒子群的重要性加权重采样替代推测解码中的令牌级拒绝来加速LLM推理的方法,在保持3%精度损失的前提下相比标准推测解码实现2.36倍加速,相比自回归解码实现5.2倍加速。
z-lab/dflash
DFlash 引入了一种用于 Flash 投机解码的块扩散方法,以提高大语言模型的推理速度。