@simplifyinAI: 研究人员刚刚通过零精度损失将 LLM 的速度提升了 8.5 倍。这项技术被称为 DFlash。它取代了缓慢的自回归…

X AI KOLs Timeline 论文

摘要

研究人员提出了 DFlash,这是一种用块扩散模型替代自回归草稿模型的方法,在零精度损失的情况下实现了 8.5 倍的 LLM 推理加速。

研究人员刚刚在零精度损失的情况下将 LLM 的速度提升了 8.5 倍。这项技术被称为 DFlash。它用块扩散模型取代了投机解码(speculative decoding)中缓慢的自回归草稿模型,能够一次性并行预测所有 token。 → 传统方式:48.5 tokens/秒 → DFlash:415 tokens/秒 → 相同模型。相同质量。已与 vLLM、SGLang 和 Transformers 集成。HuggingFace 上提供了适用于 Qwen3、Llama 3.1、Kimi-K2.5、gpt-oss 等模型的草稿模型。100% 开源。
查看原文

相似文章

DFlash:用于快速投机解码的块扩散

Papers with Code Trending

DFlash 是一种新的投机解码框架,它使用轻量级的块扩散模型进行并行标记起草,与自回归方法相比,实现了超过 6 倍的加速。在保持高输出质量的同时,其性能显著优于现有的最先进方法(如 EAGLE-3)。

z-lab/dflash

GitHub Trending (daily)

DFlash 引入了一种用于 Flash 投机解码的块扩散方法,以提高大语言模型的推理速度。

通过序列蒙特卡洛加速LLM推理

arXiv cs.CL

本文提出了序列蒙特卡洛推测解码(SMC-SD),一种通过用草稿粒子群的重要性加权重采样替代推测解码中的令牌级拒绝来加速LLM推理的方法,在保持3%精度损失的前提下相比标准推测解码实现2.36倍加速,相比自回归解码实现5.2倍加速。