@iotcoi:Qwen3.6-27B-FP8 + Dflash + DDTree,256k 上下文,10 个智能体,单颗 49W GB10 上峰值 200 tokens/s,平均解码 136 tokens/s

X AI KOLs Timeline 模型

摘要

量化版 27B Qwen3.6 在单颗 49W GB10 GPU 上借助 Dflash+DDTree 优化,256k 上下文、10 智能体并发,峰值达 200 tok/s,平均 136 tok/s。

Qwen3.6-27B-FP8 + Dflash + DDTree,256k 上下文,10 个智能体,单颗 49W GB10 GPU 上峰值 200 tokens/s,平均解码 136 tokens/s
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/22 17:51

Qwen3.6-27B-FP8 + Dflash + DDTree,256k 上下文,10 个智能体,单张迷你 GB10 GPU 上约 200 tokens/秒,最大解码 136 tokens/秒,平均功耗 49 W

相似文章

z-lab/Qwen3.6-35B-A3B-DFlash

Hugging Face Models Trending

z-lab 发布 DFlash,一种基于轻量级块扩散模型的投机解码草稿器,可并行生成 15–16 个 token,为 Qwen3.6-35B-A3B 推理带来最高 2.9× 加速。