Fast-dLLM++:用于更快扩散LLM推理的Fr\'{e}chet剖面解码
摘要
Fast-dLLM++ 引入了适用于扩散LLM的Fr\'{e}chet剖面解码,这是一种无需训练的方法,基于异构置信度剖面选择并行提交集。在LLaDA-8B模型的基准测试中,它实现了高达37%的吞吐量提升,同时保持可比的准确性。
arXiv:2606.02955v1 公告类型:新 \n 摘要:扩散大语言模型承诺并行生成令牌,但推理仍受限于决定哪些掩码令牌可以安全地一起提交。Fast-dLLM 通过 KV 缓存和置信度引导的并行解码解决了这一问题,但其解码理论使用了同质高置信度假设,这实际上将每个候选集缩减为其最弱的选择令牌。我们认为这浪费了速度,因为实际解码步骤表现出异构的置信度剖面。我们提出 \textbf{Fast-dLLM++},这是一个无需训练的扩展,引入了 \emph{Fr\'{e}chet 剖面解码}:从完整的排序置信度剖面中选择并行提交集,而不是单一的 worst-case 置信度。得到的规则是 Fast-dLLM 因子选择器的异构置信度推广,并且在等置信度情况下精确恢复了之前的规则,同时当所选令牌置信度不均匀时,增加了可证明的 \emph{异构性增益}。Fast-dLLM++ 完全保持模型、扩散过程和缓存实现不变,使其成为现有 Fast-dLLM 解码的直接替代品。在 LLaDA-8B 模型上对 GSM8K、MATH、HumanEval 和 MBPP 的实验表明,理论改进直接转化为实证增益:通过利用最弱令牌规则所忽略的安全并行性,剖面感知选择提高了准确率-吞吐量边界,在可比准确率下实现了高达 37% 的吞吐量提升。我们的匿名代码发布在 https://github.com/Ringo-Star/FastdLLM_plusplus。
查看缓存全文
缓存时间: 2026/06/03 09:36
# Fast-dLLM++:更快速扩散LLM推理的Fréchet分布解码 来源: https://arxiv.org/abs/2606.02955 查看 PDF (https://arxiv.org/pdf/2606.02955) > 摘要:扩散大型语言模型承诺并行生成标记,但推理仍受限于如何安全地同时提交哪些被掩码的标记。Fast-dLLM通过KV缓存和置信度引导的并行解码解决了这个问题,但其解码理论采用了一种同质高置信度假设,实际上将每个候选集简化为其最弱的选择标记。我们认为这浪费了速度,因为实际解码步骤展现出异质置信度分布。我们提出**Fast-dLLM++**,一种无需训练的扩展,引入了*Fréchet分布解码*:基于完整的排序置信度分布选择并行提交集,而非单一的最坏情况置信度。由此产生的规则是Fast-dLLM因子选择器的异质置信度泛化,在等置信度情况下完全恢复先前的规则,并在所选标记置信度不均时添加可证明的*异质奖励*。Fast-dLLM++完全保持模型、扩散过程和缓存实现不变,因此可以作为现有Fast-dLLM解码的即插即用替代方案。在GSM8K、MATH、HumanEval和MBPP上使用LLaDA-8B模型的实验表明,理论改进直接转化为实证收益:通过利用最弱标记规则遗漏的安全并行性,分布感知选择提高了准确率-吞吐量前沿,在相近准确率下吞吐量提升高达37%。我们的匿名代码发布见 https://github.com/Ringo-Star/FastdLLM_plusplus。 ## 提交历史 来自: Siva Rajesh Kasa \[查看邮件 (https://arxiv.org/show-email/b85c6107/2606.02955)\] **\[v1\]** 2026年6月1日星期一 23:18:59 UTC (150 KB)
相似文章
Prefilling-dLLM:扩散语言模型中长上下文推理的预测性预填充
本文提出Prefilling-dLLM,一种无需训练的框架,它将前缀分割成块并缓存KV表示,在扩散语言模型的长上下文推理中实现了最先进的质量和高达28倍的加速。
基于推测解码的无分解错误离散扩散语言模型
本文提出了FeF-DLLM,一种通过精确前缀条件分解消除分解错误、并利用推测解码加速推理的离散扩散语言模型,在GSM8K和MATH等基准测试中显著提升了准确率和速度。
@_avichawla: 研究人员发现了一种让大语言模型(LLM)提速 8.5 倍的方法!(且不影响准确度)投机解码相当有效……
研究人员提出了 DFlash 技术,这是一种利用块扩散模型(block diffusion models)进行投机解码的方法,可在不损失准确度的情况下,将大语言模型推理速度提升高达 8.5 倍。该技术已集成到 vLLM 和 SGLang 等主要框架中。
$R^2$-dLLM:通过时空冗余削减加速扩散大语言模型
R²-dLLM 引入时空冗余削减技术,在保持生成质量的同时将扩散 LLM 的解码步数最多压缩 75%,直击部署瓶颈。
PSD: 通过并行推测解码推动扩散大语言模型的帕累托前沿
本文介绍了一种无需训练的框架——并行推测解码(PSD),它通过同时提升空间和时间效率来加速扩散大语言模型的推理,每次前向传递最多可处理5.5×的token数,且质量与贪婪解码相当。