block-diffusion

#block-diffusion

@lmsysorg: 新博客: 推测解码的下一代: DFlash 和 Spec V2。DFlash + Spec V2 实现 >4.3倍基准吞吐量…

X AI KOLs Following ↗ · 19小时前缓存

关于 DFlash 和 Spec V2 推测解码方法的新研究实现了 LLM 推理的 >4.3倍基准吞吐量，现已成为 SGLang 的默认推测解码引擎。

0 人收藏 0 人点赞

#block-diffusion

arXiv cs.CL ↗ · 2026-05-25 缓存

Fast-dDrive是一种用于端到端自动驾驶的块扩散VLA模型，实现了最先进的轨迹精度，同时相比自回归基线提供了超过12倍的吞吐量加速，解决了高保真规划与边缘部署高效推理之间的权衡。

0 人收藏 0 人点赞

#block-diffusion

Hugging Face Models Trending ↗ · 2026-04-30 缓存

Z-lab 发布了 DFlash，这是一种用于 Gemma-4-31B-it 的投机解码草稿模型，采用轻量级块扩散并行生成多个 token，相较于自回归基线实现了最高 5.8 倍的加速。

0 人收藏 0 人点赞

#block-diffusion

Hugging Face Models Trending ↗ · 2026-04-23 缓存

本文介绍 Qwen3.6-27B-DFlash，这是专为 DFlash 设计的草稿模型。DFlash 是一种新型推测解码方法，利用块扩散技术加速推理速度。文章提供了 vLLM 和 SGLang 的安装说明，以便与目标模型 Qwen3.6-27B 实现并行草稿生成。

0 人收藏 0 人点赞

#block-diffusion

Hugging Face Models Trending ↗ · 2026-04-17 缓存

z-lab 发布 DFlash，一种基于轻量级块扩散模型的投机解码草稿器，可并行生成 15–16 个 token，为 Qwen3.6-35B-A3B 推理带来最高 2.9× 加速。

0 人收藏 0 人点赞