Fast-dLLM++：用于更快扩散LLM推理的Fr\'{e}chet剖面解码

arXiv cs.CL 2026/06/03 04:00 论文

diffusion-models llm-inference parallel-decoding confidence-profiling training-free accuracy-throughput arxiv

摘要

Fast-dLLM++ 引入了适用于扩散LLM的Fr\'{e}chet剖面解码，这是一种无需训练的方法，基于异构置信度剖面选择并行提交集。在LLaDA-8B模型的基准测试中，它实现了高达37%的吞吐量提升，同时保持可比的准确性。

arXiv:2606.02955v1 公告类型：新 \n 摘要：扩散大语言模型承诺并行生成令牌，但推理仍受限于决定哪些掩码令牌可以安全地一起提交。Fast-dLLM 通过 KV 缓存和置信度引导的并行解码解决了这一问题，但其解码理论使用了同质高置信度假设，这实际上将每个候选集缩减为其最弱的选择令牌。我们认为这浪费了速度，因为实际解码步骤表现出异构的置信度剖面。我们提出 \textbf{Fast-dLLM++}，这是一个无需训练的扩展，引入了 \emph{Fr\'{e}chet 剖面解码}：从完整的排序置信度剖面中选择并行提交集，而不是单一的 worst-case 置信度。得到的规则是 Fast-dLLM 因子选择器的异构置信度推广，并且在等置信度情况下精确恢复了之前的规则，同时当所选令牌置信度不均匀时，增加了可证明的 \emph{异构性增益}。Fast-dLLM++ 完全保持模型、扩散过程和缓存实现不变，使其成为现有 Fast-dLLM 解码的直接替代品。在 LLaDA-8B 模型上对 GSM8K、MATH、HumanEval 和 MBPP 的实验表明，理论改进直接转化为实证增益：通过利用最弱令牌规则所忽略的安全并行性，剖面感知选择提高了准确率-吞吐量边界，在可比准确率下实现了高达 37% 的吞吐量提升。我们的匿名代码发布在 https://github.com/Ringo-Star/FastdLLM_plusplus。

查看原文

查看缓存全文

缓存时间: 2026/06/03 09:36

# Fast-dLLM++：更快速扩散LLM推理的Fréchet分布解码
来源: https://arxiv.org/abs/2606.02955
查看 PDF (https://arxiv.org/pdf/2606.02955)

> 摘要：扩散大型语言模型承诺并行生成标记，但推理仍受限于如何安全地同时提交哪些被掩码的标记。Fast-dLLM通过KV缓存和置信度引导的并行解码解决了这个问题，但其解码理论采用了一种同质高置信度假设，实际上将每个候选集简化为其最弱的选择标记。我们认为这浪费了速度，因为实际解码步骤展现出异质置信度分布。我们提出**Fast-dLLM++**，一种无需训练的扩展，引入了*Fréchet分布解码*：基于完整的排序置信度分布选择并行提交集，而非单一的最坏情况置信度。由此产生的规则是Fast-dLLM因子选择器的异质置信度泛化，在等置信度情况下完全恢复先前的规则，并在所选标记置信度不均时添加可证明的*异质奖励*。Fast-dLLM++完全保持模型、扩散过程和缓存实现不变，因此可以作为现有Fast-dLLM解码的即插即用替代方案。在GSM8K、MATH、HumanEval和MBPP上使用LLaDA-8B模型的实验表明，理论改进直接转化为实证收益：通过利用最弱标记规则遗漏的安全并行性，分布感知选择提高了准确率-吞吐量前沿，在相近准确率下吞吐量提升高达37%。我们的匿名代码发布见 https://github.com/Ringo-Star/FastdLLM_plusplus。

## 提交历史

来自: Siva Rajesh Kasa \[查看邮件 (https://arxiv.org/show-email/b85c6107/2606.02955)\] **\[v1\]** 2026年6月1日星期一 23:18:59 UTC (150 KB)

Fast-dLLM++：用于更快扩散LLM推理的Fr\'{e}chet剖面解码

相似文章

Prefilling-dLLM：扩散语言模型中长上下文推理的预测性预填充

基于推测解码的无分解错误离散扩散语言模型

@_avichawla: 研究人员发现了一种让大语言模型（LLM）提速 8.5 倍的方法！（且不影响准确度）投机解码相当有效……

$R^2$-dLLM：通过时空冗余削减加速扩散大语言模型

PSD: 通过并行推测解码推动扩散大语言模型的帕累托前沿

提交意见反馈