Dynamic-dLLM:动态缓存预算与自适应并行解码,实现扩散大语言模型的无训练加速
摘要
本文提出 Dynamic-dLLM,一种无训练框架,通过动态分配缓存更新预算和校准解码阈值来加速扩散大语言模型,在 LLaDA 和 Dream 等模型上实现超过 3 倍的加速,同时保持性能。
arXiv:2606.26120v1 公告类型:新
摘要:扩散大语言模型(dLLM)为自回归模型提供了一种有前景的替代方案,凭借其双向注意力机制在文本生成任务中表现出色。然而,其计算复杂度与序列长度 L 呈 L 的三次方关系,这给长序列和实时应用带来了重大挑战,主要原因是与键值缓存的兼容性不足以及去噪步骤的非自回归特性。现有加速方法依赖静态缓存或并行解码策略,未能考虑 token 属性在层间和解码步骤中的动态行为。我们提出 Dynamic-dLLM,一种无训练框架,通过两个组件提升 dLLM 推理效率:动态缓存更新(DCU)基于层间 token 动态自适应分配缓存更新预算,以及自适应并行解码(APD)动态校准解码阈值以平衡生成质量和效率。在 LLaDA-8B-Instruct、LLaDA-1.5 和 Dream-v0-7B-Instruct 等模型上,通过 MMLU、GSM8K 和 HumanEval 等基准的广泛实验表明,Dynamic-dLLM 显著提升了推理速度。它实现了平均超过 3 倍的加速,同时保持性能。Dynamic-dLLM 优于最先进的加速方法,为高效部署 dLLM 提供了一种即插即用的解决方案,且不影响性能。代码可在 https://github.com/TianyiWu233/DYNAMIC-DLLM 获取。
查看缓存全文
缓存时间: 2026/06/26 05:14
# Dynamic-dLLM:动态缓存预算与自适应并行解码实现扩散LLM的无训练加速 来源:https://arxiv.org/html/2606.26120 11脚注:同等贡献。该工作是在Tianyi于华为CBG Celia DeviceAI团队实习期间完成的。33脚注:通讯作者 ([email protected])。Tianyi Wu\*1 Xiaoxi Sun\*1 Yanhua Jiao1 Yulin Li1 Yixin Chen2 Yunhao Cao2 Yiqi Hu2 Zhuotao Tian‡‡1,3 1哈尔滨工业大学(深圳)2华为3深圳环域研究院 ###### 摘要 扩散大语言模型(dLLM)为自回归模型提供了一种有前景的替代方案,凭借其双向注意力机制在文本生成任务中表现出色。然而,其计算复杂度随序列长度L呈O(L³)增长,主要由于缺乏与键值缓存的兼容性以及去噪步骤的非自回归性质,这给长序列和实时应用带来了巨大挑战。现有的加速方法依赖于静态缓存或并行解码策略,未能考虑令牌属性在层间和解码步骤间的动态行为。我们提出Dynamic-dLLM,一个无训练框架,通过两个组件提升dLLM推理效率:动态缓存更新(DCU),根据层间令牌动态自适应分配缓存更新预算;自适应并行解码(APD),动态校准解码阈值以平衡生成质量和效率。在LLaDA-8B-Instruct、LLaDA-1.5和Dream-v0-7B-Instruct等模型上,针对MMLU、GSM8K和HumanEval等基准的广泛实验表明,Dynamic-dLLM显著提升了推理速度,平均加速超过3倍,同时保持了性能。Dynamic-dLLM优于最先进的加速方法,为高效部署dLLM提供了一个即插即用的解决方案,且不损害性能。代码可在 https://github.com/TianyiWu233/DYNAMIC-DLLM 获取。 参见标题(a) LLaDA-8B-Instruct 参见标题(b) Dream-v0-7B-Instruct 图1:每秒令牌数(TPS)的比较 ## 1 引言 扩散大语言模型(dLLM)已成为自回归模型(ARMS)的一种引人注目的替代方案,在文本生成任务中展现出强劲性能。著名实例包括LLaDA (Nie等人, 2025; Zhu等人, 2025) 和 Dream (Ye等人, 2025),凸显了该方向的快速进展。dLLM的一个关键优势在于其双向注意力机制,增强了可扩展性,并能在处理复杂场景(如“反向诅咒”(Berglund等人, 2023),传统ARMs常在此类场景中表现不佳)时实现优越性能。这使得dLLM能够在具有挑战性的场景中捕获更丰富的上下文依赖关系。 然而,尽管在某些领域表现强劲,dLLM面临一个根本性挑战:其计算复杂度相对于序列长度L呈O(L³)增长,显著超过自回归模型(ARs)的O(L²)成本。这种立方缩放为长序列和实时生成任务带来了严重瓶颈,限制了dLLM在延迟敏感应用中的实际可部署性。根本原因在于dLLM的非自回归性质,每个去噪步骤需要并行更新整个序列中的所有令牌。此外,这种范式阻碍了从先前步骤缓存键值激活,使得dLLM与广泛使用的KV-Cache机制不兼容。 #### 关键观察。 为了解决这个问题,近期工作探索了dLLM加速策略。例如,(Liu等人, 2025b; Ma等人, 2025; Song等人, 2025) 通过缓存解码步骤间的内部令牌表示来减少冗余。同时,(Wu等人, 2025) 通过在单步内并行解掩多个令牌来加速推理。这些方法隐式依赖特定的令牌属性,如特征稳定性和置信度,来识别优化机会。然而,它们都依赖于跨所有层和解码步骤的静态策略,在整个模型和生成过程中应用相同的缓存或解掩标准,从而忽略了生成过程中令牌行为的动态性。 如图2(a-d)所示,令牌属性在不同层和步骤间变化。令牌内部特征的变化频率在不同层间不同,而令牌置信度的分布在解码步骤间波动。现有方法采用的静态策略可能无法考虑这种动态行为,导致性能下降。因此,这一观察引出一个关键问题:如何设计一种自适应方法,动态地与模型固有的逐层和逐步令牌动态对齐,以提高效率? 参见标题(a) 层输入 参见标题(b) 注意力输出 参见标题(c) 层输入 参见标题(d) 注意力输出 参见标题(e) 使用固定阈值的错误预测 图2:(a-b) 相邻去噪步骤间的层输入相似度和注意力输出相似度。较亮区域表示相似度较高,表明大多数令牌在步骤间是稳定的。(c-d) 不同步骤间需要更新的令牌数量。跨层的差异表明对令牌更新预算的需求各不相同。(e) 现有的并行解码方法可能产生错误预测,因为潜在候选已被固定阈值丢弃。 #### 我们的解决方案。 在这项工作中,我们提出Dynamic-dLLM,一个用于加速dLLM推理的无训练框架。Dynamic-dLLM由两个关键组件组成:动态缓存更新(DCU)和自适应并行解码(APD)。 具体来说,由于令牌可能在不同层间表现出异质动态,我们不采用跨所有层的静态缓存更新策略,而是提出动态缓存更新(DCU),自适应分配缓存更新预算,确保需要频繁更新的层获得优先处理,同时在稳定层减少计算开销。此外,现有采用固定阈值的并行解码策略存在过早承诺令牌的风险,因为置信度估计随时间变化,导致错误传播。为缓解这一问题,我们引入自适应并行解码(APD),通过跟踪预测置信度的演变分布来动态校准解码阈值,在低阈值导致生成质量下降和高阈值导致效率低下之间实现良好权衡。 在LLaDA-8B-Instruct、LLaDA-1.5、Dream-v0-7B-Instruct以及涵盖数学、科学、编码和通用任务的基准上的广泛实验证明了所提方法的有效性和强泛化能力。值得注意的是,Dynamic-dLLM实现了高达4.48倍的最大加速,平均加速超过3倍,同时仍保持性能,使其成为一个即插即用的无训练解决方案,在不损害性能的情况下提升dLLMs的效率。总之,我们的贡献如下: - • 在本研究中,我们观察到dLLM在不同层和解码步骤间的变异可能削弱现有基于静态规则的加速方法的有效性。 - • 我们提出Dynamic-dLLM,一个由动态缓存更新(DCU)和自适应并行解码(APD)组成的无训练框架。DCU自适应地在各层间分配缓存更新预算,而APD动态校准跨步骤的解码阈值,共同实现dLLMs的高效且稳健的加速。 - • 在不同模型和任务上的广泛实验表明,Dynamic-dLLM在保持准确性的同时显著提高了推理效率,优于最先进的加速方法。 ## 2 背景与动机 ### 2.1 dLLM基础 本节介绍dLLM推理过程的基础知识。由于篇幅限制,相关工作介绍见附录D。 给定一个长度为L_prompt的提示和长度为L_gen的目标生成长度,令L = L_prompt + L_gen。dLLM在T次迭代解码步骤中生成输出,每步大约产生L_gen/T个令牌。令V表示模型的词汇表,令[MASK] ∈ V是一个特殊占位令牌,指示需要预测的位置。用x^t ∈ V^L表示步骤t处的令牌序列,其中t = T, T-1, ..., 0。初始序列构建为: x^T = (x_0, ..., x_{L_prompt-1}, [MASK], ..., [MASK]), (1) 其中x_i是给定的提示令牌。在每个步骤t,掩码预测器f_θ为每个位置计算词汇表上的分布: z^t = f_θ(x^t) ∈ R^{L×|V|}. (2) 使用贪婪解码,我们可以得到每个掩码位置最可能的令牌: \hat{x}_i^t = argmax_{v∈V} (Softmax(z_i^t))_v, 如果 x_i^t = [MASK]. (3) 然后,一个转移函数S通过基于置信度分数选择性地替换令牌来更新序列到x^{t-1},重新掩码低置信度预测以在后续步骤中优化它们:x^{t-1} = S(\hat{x}^t, x^t, t)。当t=0时产生最终输出序列x^0。 ### 2.2 关键观察 尽管近期在加速扩散式LLM (dLLMs) 方面取得了进展,但两个关键的低效问题仍未解决。 #### 层间缓存更新需求差异显著。 现有方法通过为一部分令牌重用来自上一步的缓存中间特征(例如查询、键、值、注意力输出、FFN输出)来利用时间冗余,假设跨步骤的特征高度相似。然而,如图2(a-d)所示,需要缓存更新的令牌比例在不同层间差异很大,从浅层到深层单调增加。这表明统一的或启发式的缓存策略是次优的。因此,一个层自适应的缓存更新策略对于将计算预算动态分配到最需要的地方至关重要。 #### 静态阈值阻碍并行解码有效性。 并行解码策略(例如Wu等人 (2025))当令牌的置信度超过固定阈值时将其解掩。然而,如图2(e)所示,早期步骤中置信度最高的令牌可能不是期望输出,并将在后续被修正,通常被最初置信度第二高的“亚军”预测取代。相反,其最高预测明显优于替代方案(即低熵或大边际)的令牌可以安全地提前确定,即使绝对置信度低于静态阈值。因此,为了在不影响准确性的情况下提前确定稳定预测,从而加速收敛,探索可行的动态逐令牌阈值,根据预测分布(例如熵或概率边际)自适应调整,变得至关重要。 ## 3 方法 参见标题图3:Dynamic-dLLM由两个关键组件组成:动态缓存更新(DCU,上半部分)和自适应并行解码(APD,下半部分)。DCU在每步为每层重新分配缓存更新预算,而APD动态调整所有令牌的解码阈值。为了克服现有方法的局限性,我们提出Dynamic-dLLM,一个从两个维度动态优化dLLM推理的无训练加速框架:缓存更新管理和并行解码调度。 在缓存更新管理方面,我们引入了一种动态分配机制来管理缓存更新,认识到各层之间的动态变化。这种方法动态地在各层之间分配更新预算,优先考虑需要更频繁缓存更新的层。另一方面,为了优化并行解码,我们基于每个令牌的预测分布,用自适应逐令牌解掩策略替换了固定的置信度阈值。这种策略促进了对高置信度预测的早期确认,同时延迟不确定的预测,从而在速度和输出质量之间实现了更均衡的权衡。 概述如图3所示。第3.1节和第3.2节分别详细介绍了每个组件。 ### 3.1 动态缓存更新 近期工作 (Liu等人, 2025b; Ma等人, 2025; Song等人, 2025) 在所有层上更新固定或统一数量的令牌缓存。然而,如第2.2节所示,缓存更新的需求在不同层间差异显著。这一观察激发了开发一种动态分配策略的需求,该策略根据具体需求调整每层的缓存更新预算。 在本节中,我们提出动态缓存更新(DCU)策略,该策略只选择性更新那些在连续推理步骤间表示发生显著变化的令牌。先前工作 (Liu等人, 2025b) 通过测量当前和缓存的Value向量之间的余弦相似度来识别此类令牌。虽然有效,但这种方法由于显式重新计算和比较Value向量而带来了不可忽视的计算开销。理想情况下,如果可以在不重新计算这些向量的情况下估计令牌动态,则可以安全地重用缓存值,从而减少冗余。 受Liu等人 (2025a) 的启发,他们观察到扩散变换器 (DiT) 中模型输入和输出之间存在强相关性,我们……
相似文章
$R^2$-dLLM:通过时空冗余削减加速扩散大语言模型
R²-dLLM 引入时空冗余削减技术,在保持生成质量的同时将扩散 LLM 的解码步数最多压缩 75%,直击部署瓶颈。
Prefilling-dLLM:扩散语言模型中长上下文推理的预测性预填充
本文提出Prefilling-dLLM,一种无需训练的框架,它将前缀分割成块并缓存KV表示,在扩散语言模型的长上下文推理中实现了最先进的质量和高达28倍的加速。
LEAP:通过前瞻早期收敛令牌检测释放 dLLM 并行潜力
本文介绍了 LEAP,这是一种无需训练的方法,旨在通过检测早期收敛令牌来加速扩散语言模型(dLLMs)的推理过程。该方法能在不损失准确性的前提下,将去噪步骤减少 30%。
Fast-dLLM++:用于更快扩散LLM推理的Fr\'{e}chet剖面解码
Fast-dLLM++ 引入了适用于扩散LLM的Fr\'{e}chet剖面解码,这是一种无需训练的方法,基于异构置信度剖面选择并行提交集。在LLaDA-8B模型的基准测试中,它实现了高达37%的吞吐量提升,同时保持可比的准确性。
基于时空并行解码与置信度外推的高效扩散LLMs
本文介绍了时空并行解码(TSPD)和置信度外推(CE),通过动态判断令牌何时收敛并预测logit趋势,来加速基于扩散的大语言模型的推理,减少不必要的去噪步骤,同时保持输出质量。