block-diffusion

#block-diffusion

Latent Block-Diffusion Temporal Point Processes: 一种用于异步事件序列生成的半自回归框架

arXiv cs.LG ↗ · 17小时前缓存

提出一种半自回归框架，结合潜在块扩散和时间点过程用于生成异步事件序列，减少误差累积同时支持可变长度输出。

0 人收藏 0 人点赞

#block-diffusion

X AI KOLs Following ↗ · 2026-06-15 缓存

关于 DFlash 和 Spec V2 推测解码方法的新研究实现了 LLM 推理的 >4.3倍基准吞吐量，现已成为 SGLang 的默认推测解码引擎。

0 人收藏 0 人点赞

#block-diffusion

X AI KOLs Following ↗ · 2026-06-15 缓存

DFlash，一个带有KV注入的块扩散起草器，现在正在前沿规模上运行，相比基线实现了高达4.3倍的吞吐量提升，集成了Modal和SGLang以用于Qwen 397B。

0 人收藏 0 人点赞

#block-diffusion

arXiv cs.CL ↗ · 2026-05-25 缓存

Fast-dDrive是一种用于端到端自动驾驶的块扩散VLA模型，实现了最先进的轨迹精度，同时相比自回归基线提供了超过12倍的吞吐量加速，解决了高保真规划与边缘部署高效推理之间的权衡。

0 人收藏 0 人点赞

#block-diffusion

Hugging Face Models Trending ↗ · 2026-04-30 缓存

Z-lab 发布了 DFlash，这是一种用于 Gemma-4-31B-it 的投机解码草稿模型，采用轻量级块扩散并行生成多个 token，相较于自回归基线实现了最高 5.8 倍的加速。

0 人收藏 0 人点赞

#block-diffusion

Hugging Face Models Trending ↗ · 2026-04-23 缓存

本文介绍 Qwen3.6-27B-DFlash，这是专为 DFlash 设计的草稿模型。DFlash 是一种新型推测解码方法，利用块扩散技术加速推理速度。文章提供了 vLLM 和 SGLang 的安装说明，以便与目标模型 Qwen3.6-27B 实现并行草稿生成。

0 人收藏 0 人点赞

#block-diffusion

Hugging Face Models Trending ↗ · 2026-04-17 缓存

z-lab 发布 DFlash，一种基于轻量级块扩散模型的投机解码草稿器，可并行生成 15–16 个 token，为 Qwen3.6-35B-A3B 推理带来最高 2.9× 加速。

0 人收藏 0 人点赞