LEAP:通过前瞻早期收敛令牌检测释放 dLLM 并行潜力
摘要
本文介绍了 LEAP,这是一种无需训练的方法,旨在通过检测早期收敛令牌来加速扩散语言模型(dLLMs)的推理过程。该方法能在不损失准确性的前提下,将去噪步骤减少 30%。
arXiv:2605.10980v1 公告类型:新论文
摘要:扩散语言模型(dLLMs)因其在高并行处理方面的潜力而备受关注。现有 dLLMs 的并行能力源于高置信度下的条件独立性假设,这确保了边际分布与联合分布之间的差异微乎其微。然而,为保持准确性所需的严格置信度阈值严重限制了并行化的可扩展性。通过系统的令牌级统计分析,我们发现大量令牌在去噪过程的早期就已收敛至正确预测,但未能达到标准置信度阈值,这证实了当前的基于置信度的标准过于保守。为此,我们提出了 LEAP(用于加速并行解码的前瞻早期收敛令牌检测)。LEAP 是一种无需训练、即插即用的方法,利用未来上下文过滤和多序列叠加来检测早期收敛的令牌。通过验证早期收敛与正确性之间的一致性,我们实现了对这些令牌的可靠早期解码。在多个领域的基准测试表明,LEAP 显著降低了推理延迟和解码步骤。与基于置信度的解码相比,平均去噪步骤减少了约 30%。在 GSM8K 数据集上,将 LEAP 与 dParallel 结合使用,在保持模型精度的同时将解码速度提升至每步 7.2 个令牌。LEAP 有效打破了对高置信度先验的依赖,为并行解码提供了一种新范式。
查看缓存全文
缓存时间: 2026/05/13 06:24
# LEAP:通过前瞻早收敛令牌检测解锁 dLLM 并行性 来源:https://arxiv.org/html/2605.10980 张昊辉 上海交通大学 [email protected] &王志烨 上海交通大学 [email protected] &甘晓颖 上海交通大学 [email protected] &王新兵 上海交通大学 [email protected] &蒋波 上海交通大学 [email protected] ###### 摘要 扩散语言模型(dLLMs)因其高度并行处理的潜力而受到广泛关注。现有 dLLM 的并行能力源于高置信度下的条件独立性假设,这确保了边缘分布与联合分布之间的差异可忽略不计。然而,为了保持准确性所需的严格置信度阈值严重限制了并行性的可扩展性。通过对系统的令牌级别统计分析,我们发现大量令牌在去噪过程的早期就已收敛到其正确预测,但未能达到标准的置信度阈值,证实了当前基于置信度的判据过于保守。为此,我们引入了 LEAP(用于加速并行解码的前瞻早收敛令牌检测)。LEAP 是一种无需训练、即插即用的方法,利用未来上下文过滤和多序列叠加来检测早收敛令牌。通过验证早收敛与正确性之间的一致性,我们实现了对这些令牌可靠地提前解码。在多个领域的基准测试表明,LEAP 显著降低了推理延迟和解码步数。与基于置信度的解码相比,平均去噪步数减少了约 30%。在 GSM8K 数据集上,将 LEAP 与 dParallel 结合使用可将解码速度加速至每步 7.2 个令牌,同时保持模型精度。LEAP 有效打破了对高置信度先验的依赖,为并行解码提供了一种新的范式。 参见图注 **图 1:扩散语言模型中“早收敛”现象的说明。** 该图展示了从 $T=0$ 到 $T=N$ 的去噪生成过程。在基于置信度的解码策略中,只有高置信度的令牌被解码(绿色标记)。红色框突出显示了令牌“generate”,它在 $T=1$ 时就被正确预测,并在随后的步骤中保持稳定。然而,由于其置信度得分较低,直到最后阶段才被解码,这展示了基于置信度解码的局限性。 ## 1 引言 自回归大型语言模型(AR-LLMs)长期主导着语言建模领域(Achiam et al., 2023; Yang et al., 2025; Liu et al., 2024)。然而,其固有的顺序生成过程限制了推理速度的进一步提升。因此,扩散大型语言模型(dLLMs)作为一种有前景的新范式应运而生(Nie et al., 2025; Bie et al., 2025; Ye et al., 2025; Liu et al., 2025a),因其潜在的极高并行生成能力而受到广泛关注。最近的工作通过降低每步去噪成本并扩大同时处理的令牌数量,实现了超过 AR-LLMs 的推理速度(Wang et al., 2025; Liu et al., 2025b; Wu et al., 2025)。 尽管高速生成的潜力已得到确立,但目前模型的实际并行度仍然相对较低。现有的并行解码方法通常使用边缘概率选择多个高置信度令牌(Wu et al., 2025)。然而,这种并行化假设令牌独立性。解耦相互依赖的令牌往往会违反其语义依赖关系,导致性能下降,特别是在需要严格逻辑连贯性的推理场景中。因此,最先进的模型每步解码的令牌数量有限,限制了并行生成的可扩展性。 高并行度场景下精度下降的根本原因在于,并行解码期间从边缘概率进行独立采样与从真实联合分布进行采样之间存在差异。忽略依赖关系的并行采样会引入显著偏差。现有方法通过利用满足独立性假设的高置信度令牌来减轻这种偏差(Wu et al., 2025)。虽然基于置信度的采样针对高置信度令牌以最小化相互依赖问题,但此类令牌在实际中的稀缺性限制了有效的并行度。放宽置信度阈值会因依赖关系导致采样偏差,从而造成显著的精度下降。 我们将局限性识别为对置信度指标的依赖,这主要体现在两个方面。首先,基于置信度的解码方法通过将并行候选者限制为仅高置信度令牌来维持模型准确性。然而,我们的令牌级别统计分析显示,许多中等置信度令牌在去噪过程的早期就已经收敛到其正确预测,表明高置信度并不是安全解码的必要条件。其次,高置信度令牌本身贡献的信息较少,导致总的解码步数增加(Fu et al., 2025)。因此,高置信度解码为后续步骤提供了低信息量的上下文,进一步抑制了并行化的潜力。因此,一个关键挑战依然存在:如何在不牺牲准确性的前提下,同时扩大并行度并增加每步的信息贡献以最小化迭代步数? 我们提出了**LEAP**(用于加速并行解码的前瞻早收敛检测),这是一种无需训练、即插即用的并行解码策略。我们通过经验发现,高比例的中等置信度令牌表现出早期的正确性和收敛性,这意味着大量的前向步骤正在对它们进行重复预测。这些令牌显示出低敏感性——它们的预测早期稳定,并对未来上下文的变化表现出鲁棒性。利用这一点,我们提出了一种基于未来上下文扰动的收敛检测策略。通过对比当前上下文的预测与包含潜在未来信息的叠加上下文的预测,我们识别出对未来更新具有低敏感性和高鲁棒性的令牌,从而实现其提前解码。该策略的可行性源于我们提出的新颖的未来上下文候选剪枝和多序列叠加一致性检测策略。提前解码这些中等置信度令牌不仅提高了当前步骤的并行性,还由于它们具有较高的熵和信息贡献,触发了进一步的令牌生成并放大了未来的并行性。 我们在两个流行的开源 dLLM(LLaDA 和 Dream)上进行了广泛的评估,涵盖数学、代码生成和多学科问答。实证结果表明,LEAP 在所有基准测试中提高了生成并行性,与基于置信度的解码策略相比,延迟降低了约 30%。同时,LEAP 略微提高了 LLaDA 上的平均准确性。进一步分析证实,与基于置信度的解码策略相比,LEAP 在速度和准确性之间建立了更好的帕累托前沿。 参见图注 参见图注 **图 2:** (a) LLaDA-8B-Instruct 在 GSM8K 上早期可解码令牌的置信度分布。红线表示早期正确,蓝线表示早期正确且已收敛。(b) 前一时间步真实令牌的置信度分布。直方图和红色曲线分别代表概率密度和累积分布函数(CDF)。注释(Cum.P=0.1, x≈0.32)表示只有 10% 的令牌置信度低于 0.32。 **图 3:LEAP 概览。** 给定步骤 $t-1$ 时部分去噪的序列,LEAP 首先执行未来上下文候选剪枝:对于每个被掩盖的位置,仅保留置信度超过宽松阈值 $\eta$ 的合理未来令牌。这些候选者与复制的掩码令牌一起附加到原始序列中,同时保持其原始位置 ID,形成叠加上下文 $x_t^{sup}$。这使得 LEAP 能够在单次前向传递中比较原始上下文和前瞻扰动上下文下的预测。在步骤 $t$,仅当令牌在两个上下文下的预测保持一致且其置信度超过 $\tau$ 时,才进行提前解码;否则,它保持掩码状态以供后续细化。在示例中,(B) 和 (D) 满足一致性检查并被提前取消掩码,而 (A) 保持掩码状态。 ## 2 相关工作 **扩散语言模型。** 最近,基于扩散的大型语言模型(dLLMs)演变成了一种不同于标准自回归框架的高性能基础模型范式。开源工作,特别是 LLaDA 系列,验证了从头训练的纯扩散架构;LLaDA(Nie et al., 2025)和 LLaDA 2.0(Bie et al., 2025)利用掩码预测在 8B 规模上匹配自回归基线(例如,LLaMA 3(Dubey et al., 2024)),并通过 100B 参数的 MoE 变体确认了缩放定律。Dream 通过自回归模型权重初始化,在保持并行性的同时提高了 dLLM 的下游任务性能。在商业领域,dLLM 日益突出。Google DeepMind 的 Gemini Diffusion、Inception Labs 的 Mercury 和 ByteDance 的 Seed Diffusion(Song et al., 2025)等商业模型展示了优越的推理速度,突显了它们在延迟关键型应用中的效用。 **dLLM 的加速。** 尽管 dLLM 显示出高效生成的巨大潜力,但它们仍然受到速度-准确性权衡的限制。最近的研究通过两种主要策略来解决这一挑战:降低每步去噪成本和提高解码并行性。第一种策略主要关注解决传统 KV-Cache 不适用于 dLLM 的问题。像 Fast-dLLM-Cache(Wu et al., 2025)、dKV-Cache(Ma et al., 2025)这样的工作引入了双向注意力的近似缓存,而 Refusion(Li et al., 2025a)和 WeDLM(Liu et al., 2025a)通过混合注意力适应 KV-Cache。第二种策略专注于在不降低精度的情况下最大化每步未掩码令牌的数量。Fast-dLLM-Parallel(Wu et al., 2025)和 EB-Sampler(Ben-Hamu et al., 2025)分别基于置信度和熵选择联合依赖度低的令牌。D2F(Wang et al., 2025)通过蒸馏实现块间并行解码。DParallel(Chen et al., 2025)利用确定性信息作为训练信号来提高整体模型置信度,从而加速并行采样。Prophet(Li et al., 2025b)关注全局收敛性并利用置信度差距进行早期提交。KLASS(Kim et al., 2025)引入了连续时间步之间的令牌级别 KL 散度作为稳定性标准,仅当同时满足高置信度和低 KL 散度时才对令牌取消掩码,从而减少过早解码错误。LoPA(Xu et al., 2025)采样多个候选分支并选择具有最高未来分支置信度的分支。尽管加速 dLLM 的努力多样,但现有范式仍然主要利用以高置信度和低熵为特征的并行解码方案。这给每步的解码预算(具体来说是令牌计数)带来了严重的瓶颈。与以前的方法不同,我们采用了一种无需训练的机制来检测具有中等置信度的早收敛令牌,从而在不产生与较低置信度阈值相关的性能惩罚的情况下实现更高的并行性。 ## 3 方法论 ### 3.1 预备知识 #### 3.1.1 扩散语言模型 扩散语言模型(DLMs)将文本生成建模为涉及前向破坏阶段和反向去噪阶段的离散扩散过程。前向过程在时间 $t$ 将干净序列 $x_0$ 破坏为掩码状态 $x_t$。它可以公式化为一个边缘分布,其中每个令牌以概率 $1-\alpha_t$ 独立地被掩码: $$q(x_t|x_0) = \prod_{i=1}^{L} [\alpha_t \mathbb{I}(x_t^i = x_0^i) + (1-\alpha_t) \mathbb{I}(x_t^i = [M])] \quad (1)$$ 其中 $[M]$ 表示掩码令牌。随着 $t$ 增加,信噪比 $\alpha_t$ 单调递减。反向过程学习从破坏状态重建原始数据。神经网络 $p_\theta$ 被训练以同时预测所有掩码位置的原始令牌。学习目标是最小化掩码索引 $M_t$ 上的负对数似然: $$\mathcal{L}(\theta) = \mathbb{E}_{t,x_0,x_t} \left[ -\sum_{i \in M_t} \log p_\theta(x_0^i | x_t) \right] \quad (2)$$ #### 3.1.2 基于置信度的并行解码 为了加速推理,Fast-dLLM(Wu et al., 2025)采用了基于置信度的并行解码(CBPD)策略,该策略根据预测确定性迭代地固定令牌。在每一步 $t$,给定当前状态 $x_t$,模型预测所有掩码位置上的词汇表概率分布。CBPD 识别高置信度位置集合,记为 $S_t$,其中模型的最大预测概率超过标量阈值 $\phi$: $$S_t = \{i \in M_t \mid \max_v p_\theta(x_i = v | x_t) > \phi\} \quad (3)$$ 然后通过用贪婪预测取消掩码这些高置信度令牌来更新状态,同时保持不确定位置掩码以供后续细化: $$x_{t-1}^i = \begin{cases} \arg\max_v p_\theta(x_i = v | x_t) & \text{if } i \in S_t \\ [M] & \text{otherwise} \end{cases}$$
相似文章
Dynamic-dLLM:动态缓存预算与自适应并行解码,实现扩散大语言模型的无训练加速
本文提出 Dynamic-dLLM,一种无训练框架,通过动态分配缓存更新预算和校准解码阈值来加速扩散大语言模型,在 LLaDA 和 Dream 等模型上实现超过 3 倍的加速,同时保持性能。
基于时空并行解码与置信度外推的高效扩散LLMs
本文介绍了时空并行解码(TSPD)和置信度外推(CE),通过动态判断令牌何时收敛并预测logit趋势,来加速基于扩散的大语言模型的推理,减少不必要的去噪步骤,同时保持输出质量。
Prefilling-dLLM:扩散语言模型中长上下文推理的预测性预填充
本文提出Prefilling-dLLM,一种无需训练的框架,它将前缀分割成块并缓存KV表示,在扩散语言模型的长上下文推理中实现了最先进的质量和高达28倍的加速。
$R^2$-dLLM:通过时空冗余削减加速扩散大语言模型
R²-dLLM 引入时空冗余削减技术,在保持生成质量的同时将扩散 LLM 的解码步数最多压缩 75%,直击部署瓶颈。
PSD: 通过并行推测解码推动扩散大语言模型的帕累托前沿
本文介绍了一种无需训练的框架——并行推测解码(PSD),它通过同时提升空间和时间效率来加速扩散大语言模型的推理,每次前向传递最多可处理5.5×的token数,且质量与贪婪解码相当。