残差上下文扩散语言模型（2分钟阅读）

TLDR AI 2026/07/03 00:00 论文

diffusion-models language-models apple-research efficient-inference contextual-residuals reasoning berkeley

摘要

本文介绍了残差上下文扩散（RCD）模块，该模块通过回收扩散语言模型中丢弃的令牌表示来提高效率和准确性，在具有挑战性的推理任务上实现了5–10%的准确性提升，并将去噪步骤减少了多达4–5倍。

最先进的块状扩散大语言模型（dLLM）依赖于一种重新掩码机制，该机制仅解码最可信的令牌并丢弃其余部分。回收来自被丢弃令牌的计算是有益的，因为这些令牌保留了可用于后续解码迭代的上下文信息。残差上下文扩散是一种模块，它将这些被丢弃的令牌表示转换为上下文残差，并在下一步去噪步骤中重新注入。它在广泛的标准基准测试中，以最小的额外计算开销，持续提升了前沿dLLM的准确性。

查看原文

查看缓存全文

缓存时间: 2026/07/03 17:22

# 残差上下文扩散语言模型来源：https://machinelearning.apple.com/research/residual-context-diffusion 作者：Yuezhou Hu†\*, Harman Singh†\*, Monishwaran Maheswaran†\*, Haocheng Xi†, Coleman Hooper†, Jintao Zhang†, Aditya Tomar†, Michael W\. Mahoney†, Sewon Min†, Mehrdad Farajtabar, Kurt Keutzer†, Amir Gholami†‡, Chenfeng Xu†‡ 扩散大语言模型 (dLLMs) 已成为纯自回归语言模型的有前景的替代方案，因为它们可以并行解码多个 token。然而，最先进的逐块 dLLM 依赖于一种“重掩码”机制，该机制仅解码最置信的 token 并丢弃其余 token，从而有效浪费了计算资源。我们证明，回收来自被丢弃 token 的计算是有益的，因为这些 token 保留了用于后续解码迭代的上下文信息。基于此，我们提出残差上下文扩散 (RCD)，这是一个模块，它将丢弃的 token 表示转换为上下文残差，并在下一个去噪步骤中将其注入回去。RCD 使用解耦的两阶段训练流程来绕过与反向传播相关的内存瓶颈。我们在长思维链推理 (SDAR) 和短思维链指令遵循 (LLaDA) 模型上验证了我们的方法。我们证明，标准的 dLLM 可以仅用约 10 亿个 token 高效转换为 RCD 范式。RCD 在广泛基准测试中以极小的额外计算开销持续将前沿 dLLM 的准确率提升 5–10 个百分点。值得注意的是，在最具挑战性的 AIME 任务上，RCD 几乎使基线准确率翻倍，并在同等准确率水平下实现多达 4–5 倍更少的去噪步骤。 - † 加州大学伯克利分校 - \* 同等贡献 - ‡ 同等指导 ## 相关阅读与更新扩散（大）语言模型 (dLLMs) 现在在许多任务上与自回归对应模型的下游性能相当，同时有希望实现更高效的推理。dLLM 的一个关键设计方面是采样过程，该过程选择在每一步扩散中哪些 token 需要被取消掩码。确实，最近的研究发现，置信度阈值等启发式策略能同时改善样本质量和 token... 阅读更多 (https://machinelearning.apple.com/research/unmasking) 扩散大语言模型 (dLLMs) 是自回归 (AR) 模型的有力替代方案，因为它们的去噪模型作用于整个序列。dLLM 的全局规划和迭代细化特性对代码生成特别有用。然而，当前 dLLM 在编码方面的训练和推理机制仍探索不足。为了揭示 dLLM 的解码行为并释放其在编码方面的潜力，... 阅读更多 (https://machinelearning.apple.com/research/diffucoder)

残差上下文扩散语言模型（2分钟阅读）

相似文章

多令牌残差预测

Nemotron-TwoTower：基于预训练自回归上下文的扩散语言建模

$R^2$-dLLM：通过时空冗余削减加速扩散大语言模型

CRoCoDiL: 用于语言的连续且鲁棒的条件扩散

读取轨迹，引导路径：面向扩散语言模型的轨迹感知强化学习

提交意见反馈