Fast-dLLM++:用于更快扩散LLM推理的Fr\'{e}chet剖面解码

arXiv cs.CL 论文

摘要

Fast-dLLM++ 引入了适用于扩散LLM的Fr\'{e}chet剖面解码,这是一种无需训练的方法,基于异构置信度剖面选择并行提交集。在LLaDA-8B模型的基准测试中,它实现了高达37%的吞吐量提升,同时保持可比的准确性。

arXiv:2606.02955v1 公告类型:新 \n 摘要:扩散大语言模型承诺并行生成令牌,但推理仍受限于决定哪些掩码令牌可以安全地一起提交。Fast-dLLM 通过 KV 缓存和置信度引导的并行解码解决了这一问题,但其解码理论使用了同质高置信度假设,这实际上将每个候选集缩减为其最弱的选择令牌。我们认为这浪费了速度,因为实际解码步骤表现出异构的置信度剖面。我们提出 \textbf{Fast-dLLM++},这是一个无需训练的扩展,引入了 \emph{Fr\'{e}chet 剖面解码}:从完整的排序置信度剖面中选择并行提交集,而不是单一的 worst-case 置信度。得到的规则是 Fast-dLLM 因子选择器的异构置信度推广,并且在等置信度情况下精确恢复了之前的规则,同时当所选令牌置信度不均匀时,增加了可证明的 \emph{异构性增益}。Fast-dLLM++ 完全保持模型、扩散过程和缓存实现不变,使其成为现有 Fast-dLLM 解码的直接替代品。在 LLaDA-8B 模型上对 GSM8K、MATH、HumanEval 和 MBPP 的实验表明,理论改进直接转化为实证增益:通过利用最弱令牌规则所忽略的安全并行性,剖面感知选择提高了准确率-吞吐量边界,在可比准确率下实现了高达 37% 的吞吐量提升。我们的匿名代码发布在 https://github.com/Ringo-Star/FastdLLM_plusplus。
查看原文
查看缓存全文

缓存时间: 2026/06/03 09:36

# Fast-dLLM++:更快速扩散LLM推理的Fréchet分布解码
来源: https://arxiv.org/abs/2606.02955
查看 PDF (https://arxiv.org/pdf/2606.02955)

> 摘要:扩散大型语言模型承诺并行生成标记,但推理仍受限于如何安全地同时提交哪些被掩码的标记。Fast-dLLM通过KV缓存和置信度引导的并行解码解决了这个问题,但其解码理论采用了一种同质高置信度假设,实际上将每个候选集简化为其最弱的选择标记。我们认为这浪费了速度,因为实际解码步骤展现出异质置信度分布。我们提出**Fast-dLLM++**,一种无需训练的扩展,引入了*Fréchet分布解码*:基于完整的排序置信度分布选择并行提交集,而非单一的最坏情况置信度。由此产生的规则是Fast-dLLM因子选择器的异质置信度泛化,在等置信度情况下完全恢复先前的规则,并在所选标记置信度不均时添加可证明的*异质奖励*。Fast-dLLM++完全保持模型、扩散过程和缓存实现不变,因此可以作为现有Fast-dLLM解码的即插即用替代方案。在GSM8K、MATH、HumanEval和MBPP上使用LLaDA-8B模型的实验表明,理论改进直接转化为实证收益:通过利用最弱标记规则遗漏的安全并行性,分布感知选择提高了准确率-吞吐量前沿,在相近准确率下吞吐量提升高达37%。我们的匿名代码发布见 https://github.com/Ringo-Star/FastdLLM_plusplus。

## 提交历史

来自: Siva Rajesh Kasa \[查看邮件 (https://arxiv.org/show-email/b85c6107/2606.02955)\] **\[v1\]** 2026年6月1日星期一 23:18:59 UTC (150 KB)

相似文章