标签
本文提出 Dynamic-dLLM,一种无训练框架,通过动态分配缓存更新预算和校准解码阈值来加速扩散大语言模型,在 LLaDA 和 Dream 等模型上实现超过 3 倍的加速,同时保持性能。
推测性解码是一种推理优化技术,它使用快速草稿模型提出未来 token,并由较大模型并行验证,从而提高 LLM 的生成速度。文章强调了它在 Papers with Code 上的热门状态,以及最近的 SGLang 博客文章,该文章介绍了使用 DFlash 模型实现的最先进延迟。
PerceptionDLM 提出了一种多模态扩散语言模型,通过结构化注意力掩码和高效提示实现并行区域感知,在不牺牲字幕质量的情况下实现更快的推理。实验表明,在多区域感知任务中,性能具有竞争力且速度大幅提升。
分析了 DiffusionGemma 的双向注意力和并行块生成如何由于其能够修正 token 的能力,可能产生更高的有效工具调用率,尽管其基础质量低于 Gemma 4。
本文提出MARS,一种用于并行LLM测试时扩展的停止规则,通过探测部分轨迹来提前停止而不牺牲准确性,在竞赛数学基准测试上为推理模型节省25-47%的令牌。
本文提出了 AXON,一种无需训练的模块,通过智能选择"锚点"(anchor)token 优先揭示,并利用注意力、不确定性和置信度信号来辅助后续去噪步骤,从而改善离散扩散语言模型解码的质量-延迟权衡。在推理和代码生成基准测试上的实验表明,AXON 在保持或提升准确率的同时减少了函数评估次数。
NVIDIA 开源了 LocateAnything 模型,采用并行边界框解码技术,一步预测完整坐标,速度快且准确。模型仅 3B 参数,可在消费级显卡上运行,支持视频物体定位、UI 识别和 OCR 等任务。
Fast-dLLM++ 引入了适用于扩散LLM的Fr\'{e}chet剖面解码,这是一种无需训练的方法,基于异构置信度剖面选择并行提交集。在LLaDA-8B模型的基准测试中,它实现了高达37%的吞吐量提升,同时保持可比的准确性。
本文介绍了EPIC,一个用于扩散语言模型中上下文无关文法约束解码的高效框架,在保持语法正确性的同时,将推理时间最多减少67.5%。
本文介绍了时空并行解码(TSPD)和置信度外推(CE),通过动态判断令牌何时收敛并预测logit趋势,来加速基于扩散的大语言模型的推理,减少不必要的去噪步骤,同时保持输出质量。
NVIDIA 推出了 LocateAnything,这是一个统一的生成式定位与检测框架,采用并行框解码(Parallel Box Decoding)来提升解码吞吐量和定位精度。该工作将在 CVPR 2026 上进行展示。
LocateAnything 提出并行框解码用于统一视觉定位与目标检测,将几何元素解码为原子单元,以提高吞吐量和定位精度,并得到包含1.38亿样本的大规模数据集的支持。
NVIDIA推出Nemotron-Labs Diffusion,这是一系列扩散语言模型,可并行生成文本并迭代优化,从而提供更快的生成速度并支持修订之前的令牌。
NVIDIA发布了Nemotron-Labs-Diffusion,这是一个扩散语言模型系列,可以并行生成多个token,从而实现更快的推理和更好的GPU利用率,模型规模从3B到14B,包括视觉语言变体。
本文介绍了 WINO 和 WINO+,这两种方法能够在扩散大语言模型中实现可撤销的并行解码,并提炼高效的降噪轨迹,显著改善质量-速度权衡。
本文介绍了一种无需训练的框架——并行推测解码(PSD),它通过同时提升空间和时间效率来加速扩散大语言模型的推理,每次前向传递最多可处理5.5×的token数,且质量与贪婪解码相当。
dLLM是一个开源库,可将任何自回归大语言模型转换为扩散大语言模型,实现并行解码和更快的文本生成。
介绍Orthrus,一种在冻结的自回归Transformer中注入可训练的扩散注意力模块的方法,在MATH-500上实现高达7.8倍每前向传播token数和约6倍实际时间加速,且输出分布与基础Qwen3-8B模型可证明一致。该方法仅需极少的额外参数和训练,并避免了外部草稿模型带来的TTFT惩罚。
本文介绍了 LEAP,这是一种无需训练的方法,旨在通过检测早期收敛令牌来加速扩散语言模型(dLLMs)的推理过程。该方法能在不损失准确性的前提下,将去噪步骤减少 30%。
快速字节潜在变换器(BLT-D)已被 ICML 2026 接收,它引入了一种文本扩散方法,用于并行字节级解码,以克服传统字节级语言模型的速度限制。