@iotcoi:Qwen3.6-27B-FP8 + Dflash + DDTree,256k 上下文,10 个智能体,单颗 49W GB10 上峰值 200 tokens/s,平均解码 136 tokens/s

X AI KOLs Timeline 模型

摘要

量化版 27B Qwen3.6 在单颗 49W GB10 GPU 上借助 Dflash+DDTree 优化,256k 上下文、10 智能体并发,峰值达 200 tok/s,平均 136 tok/s。

Qwen3.6-27B-FP8 + Dflash + DDTree,256k 上下文,10 个智能体,单颗 49W GB10 GPU 上峰值 200 tokens/s,平均解码 136 tokens/s
查看原文
查看缓存全文

缓存时间: 2026/04/22 17:51

Qwen3.6-27B-FP8 + Dflash + DDTree,256k 上下文,10 个智能体,单张迷你 GB10 GPU 上约 200 tokens/秒,最大解码 136 tokens/秒,平均功耗 49 W

相似文章

Qwen3.6 27B Pure Quant: 16 GB 显存下 40 tok/s

Reddit r/LocalLLaMA

使用纯 Q4_K_M 方法对 Qwen3.6 27B 进行量化的版本完全适配 16 GB 显存,在 MTP 下可实现高达 40 tok/s 的 token 生成速度,相比其他 GGUF 变体显著缩小模型体积。