残差上下文扩散语言模型(2分钟阅读)
摘要
本文介绍了残差上下文扩散(RCD)模块,该模块通过回收扩散语言模型中丢弃的令牌表示来提高效率和准确性,在具有挑战性的推理任务上实现了5–10%的准确性提升,并将去噪步骤减少了多达4–5倍。
最先进的块状扩散大语言模型(dLLM)依赖于一种重新掩码机制,该机制仅解码最可信的令牌并丢弃其余部分。回收来自被丢弃令牌的计算是有益的,因为这些令牌保留了可用于后续解码迭代的上下文信息。残差上下文扩散是一种模块,它将这些被丢弃的令牌表示转换为上下文残差,并在下一步去噪步骤中重新注入。它在广泛的标准基准测试中,以最小的额外计算开销,持续提升了前沿dLLM的准确性。
查看缓存全文
缓存时间: 2026/07/03 17:22
# 残差上下文扩散语言模型
来源:https://machinelearning.apple.com/research/residual-context-diffusion
作者:Yuezhou Hu†\*, Harman Singh†\*, Monishwaran Maheswaran†\*, Haocheng Xi†, Coleman Hooper†, Jintao Zhang†, Aditya Tomar†, Michael W\. Mahoney†, Sewon Min†, Mehrdad Farajtabar, Kurt Keutzer†, Amir Gholami†‡, Chenfeng Xu†‡
扩散大语言模型 (dLLMs) 已成为纯自回归语言模型的有前景的替代方案,因为它们可以并行解码多个 token。然而,最先进的逐块 dLLM 依赖于一种“重掩码”机制,该机制仅解码最置信的 token 并丢弃其余 token,从而有效浪费了计算资源。我们证明,回收来自被丢弃 token 的计算是有益的,因为这些 token 保留了用于后续解码迭代的上下文信息。基于此,我们提出残差上下文扩散 (RCD),这是一个模块,它将丢弃的 token 表示转换为上下文残差,并在下一个去噪步骤中将其注入回去。RCD 使用解耦的两阶段训练流程来绕过与反向传播相关的内存瓶颈。我们在长思维链推理 (SDAR) 和短思维链指令遵循 (LLaDA) 模型上验证了我们的方法。我们证明,标准的 dLLM 可以仅用约 10 亿个 token 高效转换为 RCD 范式。RCD 在广泛基准测试中以极小的额外计算开销持续将前沿 dLLM 的准确率提升 5–10 个百分点。值得注意的是,在最具挑战性的 AIME 任务上,RCD 几乎使基线准确率翻倍,并在同等准确率水平下实现多达 4–5 倍更少的去噪步骤。
- † 加州大学伯克利分校
- \* 同等贡献
- ‡ 同等指导
## 相关阅读与更新
扩散(大)语言模型 (dLLMs) 现在在许多任务上与自回归对应模型的下游性能相当,同时有希望实现更高效的推理。dLLM 的一个关键设计方面是采样过程,该过程选择在每一步扩散中哪些 token 需要被取消掩码。确实,最近的研究发现,置信度阈值等启发式策略能同时改善样本质量和 token...
阅读更多 (https://machinelearning.apple.com/research/unmasking)
扩散大语言模型 (dLLMs) 是自回归 (AR) 模型的有力替代方案,因为它们的去噪模型作用于整个序列。dLLM 的全局规划和迭代细化特性对代码生成特别有用。然而,当前 dLLM 在编码方面的训练和推理机制仍探索不足。为了揭示 dLLM 的解码行为并释放其在编码方面的潜力,...
阅读更多 (https://machinelearning.apple.com/research/diffucoder)
相似文章
多令牌残差预测
引入多令牌残差预测(MRP),这是一个用于扩散语言模型的轻量级模块,能够在单次主干前向传播中实现依赖感知的多令牌去噪,实现高达1.42倍的无损加速。
Nemotron-TwoTower:基于预训练自回归上下文的扩散语言建模
本文提出了Nemotron-TwoTower,一种扩散语言模型,通过冻结的自回归塔和可训练的扩散去噪器解耦上下文表示与去噪过程,以2.42倍吞吐量达到了基线质量98.7%的水平。
$R^2$-dLLM:通过时空冗余削减加速扩散大语言模型
R²-dLLM 引入时空冗余削减技术,在保持生成质量的同时将扩散 LLM 的解码步数最多压缩 75%,直击部署瓶颈。
CRoCoDiL: 用于语言的连续且鲁棒的条件扩散
CRoCoDiL提出了一种用于语言的连续且鲁棒的条件扩散方法,将掩码扩散模型转移到连续语义空间中,相比LLaDA等离散方法,生成质量更优,采样速度快10倍。
读取轨迹,引导路径:面向扩散语言模型的轨迹感知强化学习
本文介绍了 CAPR(缓存摊销路径精化),一种用于扩散大语言模型的强化学习算法。该算法无需完整树展开的计算开销,即可从去噪轨迹中提取类树状监督信号。CAPR 在 GSM8K、Math500、数独和倒计时等推理基准测试上达到了最先进的性能,计算成本仅为平坦展开方式的约 0.75 倍。