z-lab/Qwen3.6-27B-DFlash

Hugging Face Models Trending 2026/04/23 10:15 模型

speculative-decoding inference-optimization open-source hugging-face qwen drafting-model block-diffusion

摘要

本文介绍 Qwen3.6-27B-DFlash，这是专为 DFlash 设计的草稿模型。DFlash 是一种新型推测解码方法，利用块扩散技术加速推理速度。文章提供了 vLLM 和 SGLang 的安装说明，以便与目标模型 Qwen3.6-27B 实现并行草稿生成。

任务：文本生成标签：transformers, safetensors, qwen3, 特征提取, dflash, 推测解码, 扩散模型, 效率, flash-decoding, qwen, 扩散语言模型, 文本生成, custom_code, arxiv:2602.06036, 许可证:mit, 文本生成推理, endpoints_compatible, 区域:us

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/08 09:04

z-lab/Qwen3.6-27B-DFlash · Hugging Face

来源：https://huggingface.co/z-lab/Qwen3.6-27B-DFlash 论文 (https://arxiv.org/abs/2602.06036) | GitHub (https://github.com/z-lab/dflash) | 博客 (https://z-lab.ai/projects/dflash/)

该模型仍在训练中，由于架构变更（包括因果 SWA 层），推理引擎支持可能尚未完全就绪。

DFlash是一种新颖的投机解码方法，利用轻量级块扩散模型进行草稿生成。它实现了高效、高质量的并行草稿生成，将推理速度推向极限。

该模型是**草稿（drafter）**组件。必须与目标模型Qwen/Qwen3.6-27B配合使用。

DFlash 架构

https://huggingface.co/z-lab/Qwen3.6-27B-DFlash#quick-start 快速开始

https://huggingface.co/z-lab/Qwen3.6-27B-DFlash#installation 安装

vLLM（我们通过此 PR 临时修改安装以支持交错式 SWA，并确保正确处理目标模型的隐藏状态以获得最佳性能）：

uv pip install vllm uv pip install -U --torch-backend=auto "vllm @ git+https://github.com/vllm-project/vllm.git@refs/pull/40898/head"

SGLang：

uv pip install "git+https://github.com/sgl-project/sglang.git@refs/pull/23000/head#subdirectory=python"

https://huggingface.co/z-lab/Qwen3.6-27B-DFlash#launch-server 启动服务

vLLM：

vllm serve Qwen/Qwen3.6-27B \ --speculative-config '{"method": "dflash", "model": "z-lab/Qwen3.6-27B-DFlash", "num_speculative_tokens": 15}' \ --attention-backend flash_attn \ --max-num-batched-tokens 32768

SGLang：

可选：启用调度重叠（实验性功能，可能不稳定）

export SGLANG_ENABLE_SPEC_V2=1

export SGLANG_ENABLE_DFLASH_SPEC_V2=1

export SGLANG_ENABLE_OVERLAP_PLAN_STREAM=1

python -m sglang.launch_server
–model-path Qwen/Qwen3.6-27B
–speculative-algorithm DFLASH
–speculative-draft-model-path z-lab/Qwen3.6-27B-DFlash
–speculative-num-draft-tokens 16
–tp-size 1
–attention-backend fa3
–mem-fraction-static 0.75
–mamba-scheduler-strategy extra_buffer
–trust-remote-code ``

https://huggingface.co/z-lab/Qwen3.6-27B-DFlash#usage 使用方式

`` from openai import OpenAI

client = OpenAI(base_url=“http://localhost:30000/v1”, api_key=“EMPTY”)

response = client.chat.completions.create( model=“Qwen/Qwen3.6-27B”, messages=[{“role”: “user”, “content”: “Write a quicksort in Python.”}], max_tokens=4096, temperature=0.0 ) print(response.choices[0].message.content) ``

https://huggingface.co/z-lab/Qwen3.6-27B-DFlash#benchmark-results 基准测试结果

不适用

https://huggingface.co/z-lab/Qwen3.6-27B-DFlash#acknowledgements 致谢

特别感谢 David Wang 在本项目中出色的工程支持。同时感谢 Modal、InnoMatrix 和 Yotta Labs 提供训练该草稿模型所需的计算资源。

https://huggingface.co/z-lab/Qwen3.6-27B-DFlash#citation 引用

如果您认为 DFlash 有用，请引用我们的工作。如需分享反馈或请求新模型支持，请填写此表单：DFlash 反馈。

@article{chen2026dflash, title = {{DFlash: Block Diffusion for Flash Speculative Decoding}}, author = {Chen, Jian and Liang, Yesheng and Liu, Zhijian}, journal = {arXiv preprint arXiv:2602.06036}, year = {2026} }

z-lab/Qwen3.6-27B-DFlash

z-lab/Qwen3.6-27B-DFlash · Hugging Face

DFlash 架构

https://huggingface.co/z-lab/Qwen3.6-27B-DFlash#quick-start 快速开始

https://huggingface.co/z-lab/Qwen3.6-27B-DFlash#installation 安装

https://huggingface.co/z-lab/Qwen3.6-27B-DFlash#launch-server 启动服务

可选：启用调度重叠（实验性功能，可能不稳定）

export SGLANG_ENABLE_SPEC_V2=1

export SGLANG_ENABLE_DFLASH_SPEC_V2=1

export SGLANG_ENABLE_OVERLAP_PLAN_STREAM=1

https://huggingface.co/z-lab/Qwen3.6-27B-DFlash#usage 使用方式

https://huggingface.co/z-lab/Qwen3.6-27B-DFlash#benchmark-results 基准测试结果

https://huggingface.co/z-lab/Qwen3.6-27B-DFlash#acknowledgements 致谢

https://huggingface.co/z-lab/Qwen3.6-27B-DFlash#citation 引用

相似文章

z-lab/Qwen3.6-35B-A3B-DFlash

z-lab/dflash

@zhijianliu_: DFlash for Qwen3.6-35B-A3B 刚刚发布，我们还没完成训练，社区就已经在跑首日预览版了。N…

z-lab/gemma-4-31B-it-DFlash

Qwen/Qwen3.6-35B-A3B-FP8

提交意见反馈