block-diffusion

标签

Cards List
#block-diffusion

Latent Block-Diffusion Temporal Point Processes: 一种用于异步事件序列生成的半自回归框架

arXiv cs.LG · 17小时前 缓存

提出一种半自回归框架,结合潜在块扩散和时间点过程用于生成异步事件序列,减少误差累积同时支持可变长度输出。

0 人收藏 0 人点赞
#block-diffusion

@lmsysorg: 新博客: 推测解码的下一代: DFlash 和 Spec V2。DFlash + Spec V2 实现 >4.3倍基准吞吐量…

X AI KOLs Following · 2026-06-15 缓存

关于 DFlash 和 Spec V2 推测解码方法的新研究实现了 LLM 推理的 >4.3倍基准吞吐量,现已成为 SGLang 的默认推测解码引擎。

0 人收藏 0 人点赞
#block-diffusion

@zhijianliu_: 这正是 DFlash 的用武之地。我们的块扩散起草器 + KV注入,现在正在前沿规模上运行——感谢…

X AI KOLs Following · 2026-06-15 缓存

DFlash,一个带有KV注入的块扩散起草器,现在正在前沿规模上运行,相比基线实现了高达4.3倍的吞吐量提升,集成了Modal和SGLang以用于Qwen 397B。

0 人收藏 0 人点赞
#block-diffusion

Fast-dDrive: 用于自动驾驶的高效块扩散VLM

arXiv cs.CL · 2026-05-25 缓存

Fast-dDrive是一种用于端到端自动驾驶的块扩散VLA模型,实现了最先进的轨迹精度,同时相比自回归基线提供了超过12倍的吞吐量加速,解决了高保真规划与边缘部署高效推理之间的权衡。

0 人收藏 0 人点赞
#block-diffusion

z-lab/gemma-4-31B-it-DFlash

Hugging Face Models Trending · 2026-04-30 缓存

Z-lab 发布了 DFlash,这是一种用于 Gemma-4-31B-it 的投机解码草稿模型,采用轻量级块扩散并行生成多个 token,相较于自回归基线实现了最高 5.8 倍的加速。

0 人收藏 0 人点赞
#block-diffusion

z-lab/Qwen3.6-27B-DFlash

Hugging Face Models Trending · 2026-04-23 缓存

本文介绍 Qwen3.6-27B-DFlash,这是专为 DFlash 设计的草稿模型。DFlash 是一种新型推测解码方法,利用块扩散技术加速推理速度。文章提供了 vLLM 和 SGLang 的安装说明,以便与目标模型 Qwen3.6-27B 实现并行草稿生成。

0 人收藏 0 人点赞
#block-diffusion

z-lab/Qwen3.6-35B-A3B-DFlash

Hugging Face Models Trending · 2026-04-17 缓存

z-lab 发布 DFlash,一种基于轻量级块扩散模型的投机解码草稿器,可并行生成 15–16 个 token,为 Qwen3.6-35B-A3B 推理带来最高 2.9× 加速。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈