@LottoLabs: 这是Dflash为Qwen 3.5/6系列所做的出色工作

X AI KOLs Timeline 2026/06/20 00:52 模型

speculative-decoding qwen dflash inference-acceleration open-source ai-model-optimization

摘要

Charles Frye宣布与Z Lab共同发布六款新的DFlash推测器，用于阿里巴巴Qwen 3.x系列模型，在B200上为Qwen 3.5 122B-A10B实现了每秒超过1000个输出token。

这是出色的工作 Dflash为Qwen 3.5/6系列

查看原文

查看缓存全文

缓存时间: 2026/06/20 22:25

这是非常棒的工作

Dflash 适配 qwen 3.5/6 系列

Charles 🎉 Frye (@charles_irl): 推测即为全部。

在这篇博文中，我们（与 Z Lab 联合）宣布为 @Alibaba_Qwen 3.x 系列再发布六款最先进的 DFlash 推测器。

在 B200 上，Qwen 3.5 122B-A10B 模型实现了超过 1000 个输出 token/秒。

阅读博文，了解我们为何全力押注推测解码。

相似文章

z-lab/Qwen3.6-35B-A3B-DFlash

Hugging Face Models Trending

z-lab 发布 DFlash，一种基于轻量级块扩散模型的投机解码草稿器，可并行生成 15–16 个 token，为 Qwen3.6-35B-A3B 推理带来最高 2.9× 加速。

@charles_irl：推测就是一切。在这篇博客中，我们宣布与Z Lab共同发布六款最新的DFla…

X AI KOLs Following

Modal和Z Lab发布了六款新的DFlash推测解码草稿模型，用于Qwen 3.x，在B200上实现了每秒超过1000个token，并认为推测解码是最有影响力的推理优化。

z-lab/Qwen3.6-27B-DFlash

Hugging Face Models Trending

本文介绍 Qwen3.6-27B-DFlash，这是专为 DFlash 设计的草稿模型。DFlash 是一种新型推测解码方法，利用块扩散技术加速推理速度。文章提供了 vLLM 和 SGLang 的安装说明，以便与目标模型 Qwen3.6-27B 实现并行草稿生成。

@zhijianliu_: DFlash for Qwen3.6-35B-A3B 刚刚发布，我们还没完成训练，社区就已经在跑首日预览版了。N…

X AI KOLs Following

Z-lab 发布适用于 Qwen3.6-35B-A3B 的 DFlash 模型微调/压缩技术，训练已全部完成，权重现已在 GitHub 和 HuggingFace 上提供。

@RedHat_AI: Qwen3-8B 现已拥有 DFlash 投机模型！在数学推理任务上首词接受率高达 82.2%，每步平均接受 3.74 个 token……

X AI KOLs Following

Red Hat AI 发布了用于 Qwen3-8B 的 DFlash 投机模型，在数学推理任务上实现了 82.2% 的首词接受率。该模型使用 Speculators 库和 vLLM 进行训练，以优化推理速度。

相似文章

z-lab/Qwen3.6-35B-A3B-DFlash

@charles_irl：推测就是一切。在这篇博客中，我们宣布与Z Lab共同发布六款最新的DFla…

z-lab/Qwen3.6-27B-DFlash

@zhijianliu_: DFlash for Qwen3.6-35B-A3B 刚刚发布，我们还没完成训练，社区就已经在跑首日预览版了。N…

@RedHat_AI: Qwen3-8B 现已拥有 DFlash 投机模型！在数学推理任务上首词接受率高达 82.2%，每步平均接受 3.74 个 token……

提交意见反馈