block-diffusion

标签

Cards List
#block-diffusion

@lmsysorg: 新博客: 推测解码的下一代: DFlash 和 Spec V2。DFlash + Spec V2 实现 >4.3倍基准吞吐量…

X AI KOLs Following · 19小时前 缓存

关于 DFlash 和 Spec V2 推测解码方法的新研究实现了 LLM 推理的 >4.3倍基准吞吐量,现已成为 SGLang 的默认推测解码引擎。

0 人收藏 0 人点赞
#block-diffusion

Fast-dDrive: 用于自动驾驶的高效块扩散VLM

arXiv cs.CL · 2026-05-25 缓存

Fast-dDrive是一种用于端到端自动驾驶的块扩散VLA模型,实现了最先进的轨迹精度,同时相比自回归基线提供了超过12倍的吞吐量加速,解决了高保真规划与边缘部署高效推理之间的权衡。

0 人收藏 0 人点赞
#block-diffusion

z-lab/gemma-4-31B-it-DFlash

Hugging Face Models Trending · 2026-04-30 缓存

Z-lab 发布了 DFlash,这是一种用于 Gemma-4-31B-it 的投机解码草稿模型,采用轻量级块扩散并行生成多个 token,相较于自回归基线实现了最高 5.8 倍的加速。

0 人收藏 0 人点赞
#block-diffusion

z-lab/Qwen3.6-27B-DFlash

Hugging Face Models Trending · 2026-04-23 缓存

本文介绍 Qwen3.6-27B-DFlash,这是专为 DFlash 设计的草稿模型。DFlash 是一种新型推测解码方法,利用块扩散技术加速推理速度。文章提供了 vLLM 和 SGLang 的安装说明,以便与目标模型 Qwen3.6-27B 实现并行草稿生成。

0 人收藏 0 人点赞
#block-diffusion

z-lab/Qwen3.6-35B-A3B-DFlash

Hugging Face Models Trending · 2026-04-17 缓存

z-lab 发布 DFlash,一种基于轻量级块扩散模型的投机解码草稿器,可并行生成 15–16 个 token,为 Qwen3.6-35B-A3B 推理带来最高 2.9× 加速。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈