@simplifyinAI: 研究人员刚刚通过零精度损失将 LLM 的速度提升了 8.5 倍。这项技术被称为 DFlash。它取代了缓慢的自回归…

X AI KOLs Timeline 2026/05/10 10:33 论文

摘要

研究人员提出了 DFlash，这是一种用块扩散模型替代自回归草稿模型的方法，在零精度损失的情况下实现了 8.5 倍的 LLM 推理加速。

研究人员刚刚在零精度损失的情况下将 LLM 的速度提升了 8.5 倍。这项技术被称为 DFlash。它用块扩散模型取代了投机解码（speculative decoding）中缓慢的自回归草稿模型，能够一次性并行预测所有 token。 → 传统方式：48.5 tokens/秒 → DFlash：415 tokens/秒 → 相同模型。相同质量。已与 vLLM、SGLang 和 Transformers 集成。HuggingFace 上提供了适用于 Qwen3、Llama 3.1、Kimi-K2.5、gpt-oss 等模型的草稿模型。100% 开源。

查看原文

@simplifyinAI: 研究人员刚刚通过零精度损失将 LLM 的速度提升了 8.5 倍。这项技术被称为 DFlash。它取代了缓慢的自回归…

相似文章

@_avichawla: 研究人员发现了一种让大语言模型（LLM）提速 8.5 倍的方法！（且不影响准确度）投机解码相当有效……

@zhijianliu_: DFlash 现已在生产推理堆栈中运行。更多草稿模型即将推出。https://github.com/z-lab/dflash

DFlash：用于快速投机解码的块扩散

z-lab/dflash

通过序列蒙特卡洛加速LLM推理

提交意见反馈