@_avichawla: 研究人员发现了一种让大语言模型(LLM)提速 8.5 倍的方法!(且不影响准确度)投机解码相当有效……
摘要
研究人员提出了 DFlash 技术,这是一种利用块扩散模型(block diffusion models)进行投机解码的方法,可在不损失准确度的情况下,将大语言模型推理速度提升高达 8.5 倍。该技术已集成到 vLLM 和 SGLang 等主要框架中。
研究人员找到了一种让大语言模型(LLM)提速 8.5 倍的方法!(且不影响准确度)投机解码是解决传统大语言模型推理中单 Token 瓶颈问题的一种相当有效的手段。一个小型“草稿”模型首先生成接下来的多个 Token,然后大模型在一次前向传播中一次性验证所有 Token。如果任何位置的 Token 出错,保留该 Token 之前的所有内容并从中重新开始。这种方式的表现绝不会比标准解码差。但当前投机解码中的草稿模型仍是一次生成一个 Token。这使得草稿生成步骤本身成为瓶颈,将实际加速效果限制在 2-3 倍。
DFlash 是一项新技术,它用轻量级的块扩散模型替换自回归草稿模型,该模型能够并行一次性猜测所有 Token。无论猜测多少 Token,草稿生成成本保持不变。此外,草稿模型的条件信息来源于从目标模型多个层级中提取的隐藏特征,并注入到每一层草稿网络中,因此它比从零开始的草稿模型能做出显著更好的预测。
在下方的对比演示中,标准解码的速度为每秒 48.5 个 Token。在相同模型上,DFlash 达到了每秒 415 个 Token,且质量零损失。它已集成到 vLLM、SGLang 和 Transformers 中,并在 HuggingFace 上提供了适用于 Qwen3、Qwen3.5、Llama 3.1、Kimi-K2.5、gpt-oss 等多个模型的草稿模型。我已在回复中分享了 GitHub 仓库链接!
键值缓存(KV caching)是另一个提升大语言模型推理速度的必备技术。我最近写了一篇文章介绍它。请见下方。
轮到你了:你正在从事哪些可以利用这项新技术的用例?
相似文章
通过序列蒙特卡洛加速LLM推理
本文提出了序列蒙特卡洛推测解码(SMC-SD),一种通过用草稿粒子群的重要性加权重采样替代推测解码中的令牌级拒绝来加速LLM推理的方法,在保持3%精度损失的前提下相比标准推测解码实现2.36倍加速,相比自回归解码实现5.2倍加速。
z-lab/dflash
DFlash 引入了一种用于 Flash 投机解码的块扩散方法,以提高大语言模型的推理速度。
@zhijianliu_: DFlash 现已在生产推理堆栈中运行。更多草稿模型即将推出。https://github.com/z-lab/dflash
DFlash 是一个用于投机解码的轻量级块扩散模型,现已支持 Qwen 和 Gemma 等各种大语言模型并投入生产环境使用。
DFlash:用于快速投机解码的块扩散
DFlash 是一种新的投机解码框架,它使用轻量级的块扩散模型进行并行标记起草,与自回归方法相比,实现了超过 6 倍的加速。在保持高输出质量的同时,其性能显著优于现有的最先进方法(如 EAGLE-3)。
vllm-project/vllm v0.20.0rc1
vLLM 0.20.0rc1 发布,带来吞吐量、量化、投机解码及多硬件支持的重大改进,助力可扩展的大模型推理服务。