@zhijianliu_: DFlash for Qwen3.6-35B-A3B 刚刚发布，我们还没完成训练，社区就已经在跑首日预览版了。N…

X AI KOLs Following 2026/04/20 22:18 模型

model-release qwen dflash fine-tuning open-source small-language-model

摘要

Z-lab 发布适用于 Qwen3.6-35B-A3B 的 DFlash 模型微调/压缩技术，训练已全部完成，权重现已在 GitHub 和 HuggingFace 上提供。

DFlash for Qwen3.6-35B-A3B 刚刚发布。我们还没完成训练，社区就已经在跑首日预览版了。现已全部就绪：训练完成、验证通过、权重定稿 ↓ 开始构建 http://github.com/z-lab/dflash http://huggingface.co/z-lab/Qwen3.6-35B-A3B-DFlash…

查看原文

相似文章

z-lab/Qwen3.6-27B-DFlash

Hugging Face Models Trending

本文介绍 Qwen3.6-27B-DFlash，这是专为 DFlash 设计的草稿模型。DFlash 是一种新型推测解码方法，利用块扩散技术加速推理速度。文章提供了 vLLM 和 SGLang 的安装说明，以便与目标模型 Qwen3.6-27B 实现并行草稿生成。

z-lab/Qwen3.6-35B-A3B-DFlash

Hugging Face Models Trending

z-lab 发布 DFlash，一种基于轻量级块扩散模型的投机解码草稿器，可并行生成 15–16 个 token，为 Qwen3.6-35B-A3B 推理带来最高 2.9× 加速。

@LottoLabs: 这是Dflash为Qwen 3.5/6系列所做的出色工作

X AI KOLs Timeline

Charles Frye宣布与Z Lab共同发布六款新的DFlash推测器，用于阿里巴巴Qwen 3.x系列模型，在B200上为Qwen 3.5 122B-A10B实现了每秒超过1000个输出token。

@bstnxbt：DFlash v0.1.4：为量化版 Qwen3 混合模型提供自定义 Metal 验证内核，并显著降低峰值内存占用……

X AI KOLs Following

DFlash v0.1.4 发布了面向量化版 Qwen3 混合模型的自定义 Metal 验证内核，在 M5 Max GPU 上可显著降低峰值内存占用，并在长上下文场景下实现 2.2 倍吞吐量提升。

Qwen 3.7 Max

Reddit r/LocalLLaMA

Qwen 3.7 是一款来自中国实验室的新AI模型，令人印象深刻，讨论焦点在于其权重是否可供下载。

提交意见反馈