parallel-decoding

标签

Cards List
#parallel-decoding

Dynamic-dLLM:动态缓存预算与自适应并行解码,实现扩散大语言模型的无训练加速

arXiv cs.CL · 2天前 缓存

本文提出 Dynamic-dLLM,一种无训练框架,通过动态分配缓存更新预算和校准解码阈值来加速扩散大语言模型,在 LLaDA 和 Dream 等模型上实现超过 3 倍的加速,同时保持性能。

0 人收藏 0 人点赞
#parallel-decoding

什么是推测性解码?(在paperswithco.de上热门)[R]

Reddit r/MachineLearning · 2026-06-17

推测性解码是一种推理优化技术,它使用快速草稿模型提出未来 token,并由较大模型并行验证,从而提高 LLM 的生成速度。文章强调了它在 Papers with Code 上的热门状态,以及最近的 SGLang 博客文章,该文章介绍了使用 DFlash 模型实现的最先进延迟。

0 人收藏 0 人点赞
#parallel-decoding

PerceptionDLM: 基于多模态扩散语言模型的并行区域感知

Hugging Face Daily Papers · 2026-06-17 缓存

PerceptionDLM 提出了一种多模态扩散语言模型,通过结构化注意力掩码和高效提示实现并行区域感知,在不牺牲字幕质量的情况下实现更快的推理。实验表明,在多区域感知任务中,性能具有竞争力且速度大幅提升。

0 人收藏 0 人点赞
#parallel-decoding

为何 DiffusionGemma 在工具调用上可能优于其基准质量所暗示的表现

Reddit r/LocalLLaMA · 2026-06-16

分析了 DiffusionGemma 的双向注意力和并行块生成如何由于其能够修正 token 的能力,可能产生更高的有效工具调用率,尽管其基础质量低于 Gemma 4。

0 人收藏 0 人点赞
#parallel-decoding

MARS: 面向并行LLM测试时扩展的边际对抗风险控制停止策略

arXiv cs.AI · 2026-06-12 缓存

本文提出MARS,一种用于并行LLM测试时扩展的停止规则,通过探测部分轨迹来提前停止而不牺牲准确性,在竞赛数学基准测试上为推理模型节省25-47%的令牌。

0 人收藏 0 人点赞
#parallel-decoding

# 支持性令牌揭示:用于快速扩散语言模型解码

arXiv cs.CL · 2026-06-04 缓存

本文提出了 AXON,一种无需训练的模块,通过智能选择"锚点"(anchor)token 优先揭示,并利用注意力、不确定性和置信度信号来辅助后续去噪步骤,从而改善离散扩散语言模型解码的质量-延迟权衡。在推理和代码生成基准测试上的实验表明,AXON 在保持或提升准确率的同时减少了函数评估次数。

0 人收藏 0 人点赞
#parallel-decoding

@VincentLogic: NVIDIA 刚开源的这个 LocateAnything 模型,真的有点强。 以前那种视觉定位模型,生成坐标是一个数字一个数字往外蹦(像挤牙膏一样),又慢又不稳定。 这个新模型用了“并行边界框解码”,直接一步预测完整坐标,速度快多了,框得…

X AI KOLs Timeline · 2026-06-03 缓存

NVIDIA 开源了 LocateAnything 模型,采用并行边界框解码技术,一步预测完整坐标,速度快且准确。模型仅 3B 参数,可在消费级显卡上运行,支持视频物体定位、UI 识别和 OCR 等任务。

0 人收藏 0 人点赞
#parallel-decoding

Fast-dLLM++:用于更快扩散LLM推理的Fr\'{e}chet剖面解码

arXiv cs.CL · 2026-06-03 缓存

Fast-dLLM++ 引入了适用于扩散LLM的Fr\'{e}chet剖面解码,这是一种无需训练的方法,基于异构置信度剖面选择并行提交集。在LLaDA-8B模型的基准测试中,它实现了高达37%的吞吐量提升,同时保持可比的准确性。

0 人收藏 0 人点赞
#parallel-decoding

EPIC: 在上下文无关文法约束下的扩散语言模型高效并行推理

arXiv cs.CL · 2026-06-02 缓存

本文介绍了EPIC,一个用于扩散语言模型中上下文无关文法约束解码的高效框架,在保持语法正确性的同时,将推理时间最多减少67.5%。

0 人收藏 0 人点赞
#parallel-decoding

基于时空并行解码与置信度外推的高效扩散LLMs

arXiv cs.CL · 2026-06-01 缓存

本文介绍了时空并行解码(TSPD)和置信度外推(CE),通过动态判断令牌何时收敛并预测logit趋势,来加速基于扩散的大语言模型的推理,减少不必要的去噪步骤,同时保持输出质量。

0 人收藏 0 人点赞
#parallel-decoding

@ZhidingYu:感谢 NVIDIA!我将在 #CVPR2026 上于 NVIDIA 展台展示 LocateAnything:6月5日 MDT 下午4:20-4:40(周五…

X AI KOLs Following · 2026-05-28 缓存

NVIDIA 推出了 LocateAnything,这是一个统一的生成式定位与检测框架,采用并行框解码(Parallel Box Decoding)来提升解码吞吐量和定位精度。该工作将在 CVPR 2026 上进行展示。

0 人收藏 0 人点赞
#parallel-decoding

LocateAnything: 快速高质量的视觉-语言定位与并行框解码

Hugging Face Daily Papers · 2026-05-26 缓存

LocateAnything 提出并行框解码用于统一视觉定位与目标检测,将几何元素解码为原子单元,以提高吞吐量和定位精度,并得到包含1.38亿样本的大规模数据集的支持。

0 人收藏 0 人点赞
#parallel-decoding

迈向光速文本生成:Nemotron-Labs扩散语言模型

Hugging Face Blog · 2026-05-23 缓存

NVIDIA推出Nemotron-Labs Diffusion,这是一系列扩散语言模型,可并行生成文本并迭代优化,从而提供更快的生成速度并支持修订之前的令牌。

0 人收藏 0 人点赞
#parallel-decoding

@NVIDIAAI: 大多数语言模型一次只生成一个token。我们刚刚发布了Nemotron-Labs-Diffusion,一个扩散语言模型系列…

X AI KOLs Following · 2026-05-19 缓存

NVIDIA发布了Nemotron-Labs-Diffusion,这是一个扩散语言模型系列,可以并行生成多个token,从而实现更快的推理和更好的GPU利用率,模型规模从3B到14B,包括视觉语言变体。

0 人收藏 0 人点赞
#parallel-decoding

展开与回滚:扩散大语言模型是自身的效率教师

arXiv cs.CL · 2026-05-19 缓存

本文介绍了 WINO 和 WINO+,这两种方法能够在扩散大语言模型中实现可撤销的并行解码,并提炼高效的降噪轨迹,显著改善质量-速度权衡。

0 人收藏 0 人点赞
#parallel-decoding

PSD: 通过并行推测解码推动扩散大语言模型的帕累托前沿

arXiv cs.CL · 2026-05-18 缓存

本文介绍了一种无需训练的框架——并行推测解码(PSD),它通过同时提升空间和时间效率来加速扩散大语言模型的推理,每次前向传递最多可处理5.5×的token数,且质量与贪婪解码相当。

0 人收藏 0 人点赞
#parallel-decoding

@DivyanshT91162: 自回归大语言模型可能正在被取代 有人构建了dLLM——一个开源库,可以将任何自…

X AI KOLs Timeline · 2026-05-16 缓存

dLLM是一个开源库,可将任何自回归大语言模型转换为扩散大语言模型,实现并行解码和更快的文本生成。

0 人收藏 0 人点赞
#parallel-decoding

Orthrus-Qwen3-8B:在Qwen3-8B上实现高达7.8倍每前向传播token数,冻结主干网络,可证明输出分布一致

Reddit r/LocalLLaMA · 2026-05-15

介绍Orthrus,一种在冻结的自回归Transformer中注入可训练的扩散注意力模块的方法,在MATH-500上实现高达7.8倍每前向传播token数和约6倍实际时间加速,且输出分布与基础Qwen3-8B模型可证明一致。该方法仅需极少的额外参数和训练,并避免了外部草稿模型带来的TTFT惩罚。

0 人收藏 0 人点赞
#parallel-decoding

LEAP:通过前瞻早期收敛令牌检测释放 dLLM 并行潜力

arXiv cs.LG · 2026-05-13 缓存

本文介绍了 LEAP,这是一种无需训练的方法,旨在通过检测早期收敛令牌来加速扩散语言模型(dLLMs)的推理过程。该方法能在不损失准确性的前提下,将去噪步骤减少 30%。

0 人收藏 0 人点赞
#parallel-decoding

@JulieKallini: Fast Byte Latent Transformer 被 ICML 2026 接收!字节级语言模型有望摆脱子词分词器,但解码……

X AI KOLs Following · 2026-05-11 缓存

快速字节潜在变换器(BLT-D)已被 ICML 2026 接收,它引入了一种文本扩散方法,用于并行字节级解码,以克服传统字节级语言模型的速度限制。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈