@_avichawla: 研究人员发现了一种让大语言模型（LLM）提速 8.5 倍的方法！（且不影响准确度）投机解码相当有效……

X AI KOLs Timeline 2026/05/10 06:58 工具

摘要

研究人员提出了 DFlash 技术，这是一种利用块扩散模型（block diffusion models）进行投机解码的方法，可在不损失准确度的情况下，将大语言模型推理速度提升高达 8.5 倍。该技术已集成到 vLLM 和 SGLang 等主要框架中。

研究人员找到了一种让大语言模型（LLM）提速 8.5 倍的方法！（且不影响准确度）投机解码是解决传统大语言模型推理中单 Token 瓶颈问题的一种相当有效的手段。一个小型“草稿”模型首先生成接下来的多个 Token，然后大模型在一次前向传播中一次性验证所有 Token。如果任何位置的 Token 出错，保留该 Token 之前的所有内容并从中重新开始。这种方式的表现绝不会比标准解码差。但当前投机解码中的草稿模型仍是一次生成一个 Token。这使得草稿生成步骤本身成为瓶颈，将实际加速效果限制在 2-3 倍。 DFlash 是一项新技术，它用轻量级的块扩散模型替换自回归草稿模型，该模型能够并行一次性猜测所有 Token。无论猜测多少 Token，草稿生成成本保持不变。此外，草稿模型的条件信息来源于从目标模型多个层级中提取的隐藏特征，并注入到每一层草稿网络中，因此它比从零开始的草稿模型能做出显著更好的预测。在下方的对比演示中，标准解码的速度为每秒 48.5 个 Token。在相同模型上，DFlash 达到了每秒 415 个 Token，且质量零损失。它已集成到 vLLM、SGLang 和 Transformers 中，并在 HuggingFace 上提供了适用于 Qwen3、Qwen3.5、Llama 3.1、Kimi-K2.5、gpt-oss 等多个模型的草稿模型。我已在回复中分享了 GitHub 仓库链接！键值缓存（KV caching）是另一个提升大语言模型推理速度的必备技术。我最近写了一篇文章介绍它。请见下方。轮到你了：你正在从事哪些可以利用这项新技术的用例？

查看原文

@_avichawla: 研究人员发现了一种让大语言模型（LLM）提速 8.5 倍的方法！（且不影响准确度）投机解码相当有效……

相似文章

通过序列蒙特卡洛加速LLM推理

z-lab/dflash

@zhijianliu_: DFlash 现已在生产推理堆栈中运行。更多草稿模型即将推出。https://github.com/z-lab/dflash

DFlash：用于快速投机解码的块扩散

vllm-project/vllm v0.20.0rc1

提交意见反馈