parallel-decoding

#parallel-decoding

Dynamic-dLLM：动态缓存预算与自适应并行解码，实现扩散大语言模型的无训练加速

arXiv cs.CL ↗ · 2天前缓存

本文提出 Dynamic-dLLM，一种无训练框架，通过动态分配缓存更新预算和校准解码阈值来加速扩散大语言模型，在 LLaDA 和 Dream 等模型上实现超过 3 倍的加速，同时保持性能。

0 人收藏 0 人点赞

#parallel-decoding

什么是推测性解码？（在paperswithco.de上热门）[R]

Reddit r/MachineLearning ↗ · 2026-06-17

推测性解码是一种推理优化技术，它使用快速草稿模型提出未来 token，并由较大模型并行验证，从而提高 LLM 的生成速度。文章强调了它在 Papers with Code 上的热门状态，以及最近的 SGLang 博客文章，该文章介绍了使用 DFlash 模型实现的最先进延迟。

0 人收藏 0 人点赞

#parallel-decoding

PerceptionDLM: 基于多模态扩散语言模型的并行区域感知

Hugging Face Daily Papers ↗ · 2026-06-17 缓存

PerceptionDLM 提出了一种多模态扩散语言模型，通过结构化注意力掩码和高效提示实现并行区域感知，在不牺牲字幕质量的情况下实现更快的推理。实验表明，在多区域感知任务中，性能具有竞争力且速度大幅提升。

0 人收藏 0 人点赞

#parallel-decoding

为何 DiffusionGemma 在工具调用上可能优于其基准质量所暗示的表现

Reddit r/LocalLLaMA ↗ · 2026-06-16

分析了 DiffusionGemma 的双向注意力和并行块生成如何由于其能够修正 token 的能力，可能产生更高的有效工具调用率，尽管其基础质量低于 Gemma 4。

0 人收藏 0 人点赞

#parallel-decoding

MARS: 面向并行LLM测试时扩展的边际对抗风险控制停止策略

arXiv cs.AI ↗ · 2026-06-12 缓存

本文提出MARS，一种用于并行LLM测试时扩展的停止规则，通过探测部分轨迹来提前停止而不牺牲准确性，在竞赛数学基准测试上为推理模型节省25-47%的令牌。

0 人收藏 0 人点赞

#parallel-decoding

# 支持性令牌揭示：用于快速扩散语言模型解码

arXiv cs.CL ↗ · 2026-06-04 缓存

本文提出了 AXON，一种无需训练的模块，通过智能选择"锚点"（anchor）token 优先揭示，并利用注意力、不确定性和置信度信号来辅助后续去噪步骤，从而改善离散扩散语言模型解码的质量-延迟权衡。在推理和代码生成基准测试上的实验表明，AXON 在保持或提升准确率的同时减少了函数评估次数。

0 人收藏 0 人点赞

#parallel-decoding

@VincentLogic: NVIDIA 刚开源的这个 LocateAnything 模型，真的有点强。以前那种视觉定位模型，生成坐标是一个数字一个数字往外蹦（像挤牙膏一样），又慢又不稳定。这个新模型用了“并行边界框解码”，直接一步预测完整坐标，速度快多了，框得…

X AI KOLs Timeline ↗ · 2026-06-03 缓存

NVIDIA 开源了 LocateAnything 模型，采用并行边界框解码技术，一步预测完整坐标，速度快且准确。模型仅 3B 参数，可在消费级显卡上运行，支持视频物体定位、UI 识别和 OCR 等任务。

0 人收藏 0 人点赞

#parallel-decoding

Fast-dLLM++：用于更快扩散LLM推理的Fr\'{e}chet剖面解码

arXiv cs.CL ↗ · 2026-06-03 缓存

Fast-dLLM++ 引入了适用于扩散LLM的Fr\'{e}chet剖面解码，这是一种无需训练的方法，基于异构置信度剖面选择并行提交集。在LLaDA-8B模型的基准测试中，它实现了高达37%的吞吐量提升，同时保持可比的准确性。

0 人收藏 0 人点赞

#parallel-decoding

EPIC: 在上下文无关文法约束下的扩散语言模型高效并行推理

arXiv cs.CL ↗ · 2026-06-02 缓存

本文介绍了EPIC，一个用于扩散语言模型中上下文无关文法约束解码的高效框架，在保持语法正确性的同时，将推理时间最多减少67.5%。

0 人收藏 0 人点赞

#parallel-decoding

基于时空并行解码与置信度外推的高效扩散LLMs

arXiv cs.CL ↗ · 2026-06-01 缓存

本文介绍了时空并行解码（TSPD）和置信度外推（CE），通过动态判断令牌何时收敛并预测logit趋势，来加速基于扩散的大语言模型的推理，减少不必要的去噪步骤，同时保持输出质量。

0 人收藏 0 人点赞

#parallel-decoding

@ZhidingYu：感谢 NVIDIA！我将在 #CVPR2026 上于 NVIDIA 展台展示 LocateAnything：6月5日 MDT 下午4:20-4:40（周五…

X AI KOLs Following ↗ · 2026-05-28 缓存

NVIDIA 推出了 LocateAnything，这是一个统一的生成式定位与检测框架，采用并行框解码（Parallel Box Decoding）来提升解码吞吐量和定位精度。该工作将在 CVPR 2026 上进行展示。

0 人收藏 0 人点赞

#parallel-decoding

LocateAnything: 快速高质量的视觉-语言定位与并行框解码

Hugging Face Daily Papers ↗ · 2026-05-26 缓存

LocateAnything 提出并行框解码用于统一视觉定位与目标检测，将几何元素解码为原子单元，以提高吞吐量和定位精度，并得到包含1.38亿样本的大规模数据集的支持。

0 人收藏 0 人点赞

#parallel-decoding

迈向光速文本生成：Nemotron-Labs扩散语言模型

Hugging Face Blog ↗ · 2026-05-23 缓存

NVIDIA推出Nemotron-Labs Diffusion，这是一系列扩散语言模型，可并行生成文本并迭代优化，从而提供更快的生成速度并支持修订之前的令牌。

0 人收藏 0 人点赞

#parallel-decoding

@NVIDIAAI: 大多数语言模型一次只生成一个token。我们刚刚发布了Nemotron-Labs-Diffusion，一个扩散语言模型系列…

X AI KOLs Following ↗ · 2026-05-19 缓存

NVIDIA发布了Nemotron-Labs-Diffusion，这是一个扩散语言模型系列，可以并行生成多个token，从而实现更快的推理和更好的GPU利用率，模型规模从3B到14B，包括视觉语言变体。

0 人收藏 0 人点赞

#parallel-decoding

展开与回滚：扩散大语言模型是自身的效率教师

arXiv cs.CL ↗ · 2026-05-19 缓存

本文介绍了 WINO 和 WINO+，这两种方法能够在扩散大语言模型中实现可撤销的并行解码，并提炼高效的降噪轨迹，显著改善质量-速度权衡。

0 人收藏 0 人点赞

#parallel-decoding

PSD: 通过并行推测解码推动扩散大语言模型的帕累托前沿

arXiv cs.CL ↗ · 2026-05-18 缓存

本文介绍了一种无需训练的框架——并行推测解码（PSD），它通过同时提升空间和时间效率来加速扩散大语言模型的推理，每次前向传递最多可处理5.5×的token数，且质量与贪婪解码相当。

0 人收藏 0 人点赞

#parallel-decoding

@DivyanshT91162: 自回归大语言模型可能正在被取代有人构建了dLLM——一个开源库，可以将任何自…

X AI KOLs Timeline ↗ · 2026-05-16 缓存

dLLM是一个开源库，可将任何自回归大语言模型转换为扩散大语言模型，实现并行解码和更快的文本生成。

0 人收藏 0 人点赞

#parallel-decoding

Orthrus-Qwen3-8B：在Qwen3-8B上实现高达7.8倍每前向传播token数，冻结主干网络，可证明输出分布一致

Reddit r/LocalLLaMA ↗ · 2026-05-15

介绍Orthrus，一种在冻结的自回归Transformer中注入可训练的扩散注意力模块的方法，在MATH-500上实现高达7.8倍每前向传播token数和约6倍实际时间加速，且输出分布与基础Qwen3-8B模型可证明一致。该方法仅需极少的额外参数和训练，并避免了外部草稿模型带来的TTFT惩罚。

0 人收藏 0 人点赞

#parallel-decoding

LEAP：通过前瞻早期收敛令牌检测释放 dLLM 并行潜力

arXiv cs.LG ↗ · 2026-05-13 缓存

本文介绍了 LEAP，这是一种无需训练的方法，旨在通过检测早期收敛令牌来加速扩散语言模型（dLLMs）的推理过程。该方法能在不损失准确性的前提下，将去噪步骤减少 30%。

0 人收藏 0 人点赞

#parallel-decoding

@JulieKallini: Fast Byte Latent Transformer 被 ICML 2026 接收！字节级语言模型有望摆脱子词分词器，但解码……

X AI KOLs Following ↗ · 2026-05-11 缓存

快速字节潜在变换器（BLT-D）已被 ICML 2026 接收，它引入了一种文本扩散方法，用于并行字节级解码，以克服传统字节级语言模型的速度限制。

0 人收藏 0 人点赞

parallel-decoding

提交意见反馈