@iotcoi：Qwen3.6-27B-FP8 + Dflash + DDTree，256k 上下文，10 个智能体，单颗 49W GB10 上峰值 200 tokens/s，平均解码 136 tokens/s

X AI KOLs Timeline 2026/04/22 13:54 模型

摘要

量化版 27B Qwen3.6 在单颗 49W GB10 GPU 上借助 Dflash+DDTree 优化，256k 上下文、10 智能体并发，峰值达 200 tok/s，平均 136 tok/s。

Qwen3.6-27B-FP8 + Dflash + DDTree，256k 上下文，10 个智能体，单颗 49W GB10 GPU 上峰值 200 tokens/s，平均解码 136 tokens/s

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/22 17:51

Qwen3.6-27B-FP8 + Dflash + DDTree，256k 上下文，10 个智能体，单张迷你 GB10 GPU 上约 200 tokens/秒，最大解码 136 tokens/秒，平均功耗 49 W

相似文章

@iotcoi：在小小的GB10 GPU上跑通Google cookbook，10个agent并发，436 tok/s，每agent 43.6 tok/s，Qwen3.6-35B + Dflash + DDTree，vLLM GB10仅74W

X AI KOLs Timeline

一位开发者在单颗74W GB10 GPU上，用vLLM同时跑起10个35B参数Qwen3.6模型agent，总吞吐436 tok/s，实现高效边缘部署。

在 12GB 显存下，使用 Qwen3.6 35B A3B 与 llama.cpp MTP 实现 80 tok/sec 的速度和 128K 上下文

Reddit r/LocalLLaMA

一名用户分享了一份配置方案，该方案在使用 llama.cpp 和多令牌预测（MTP）的情况下，能在 12GB 显存的 GPU 上让 Qwen3.6 35B A3B 模型实现超过每秒 80 个令牌的生成速度。帖子中包含了基准测试结果以及用于优化性能的具体命令行参数。

成功运行 MTP + TurboQuant — Qwen3.6-27B 在单 RTX 4090 上实现 262K 上下文 80+ token/秒

Reddit r/LocalLLaMA

开发者通过将 MTP（多 Token 预测）与 TurboQuant 的无损 KV缓存压缩技术相结合，在单张 RTX 4090 上实现了 Qwen3.6-27B 模型在 262K 上下文下 80+ token/秒的推理速度，并分享了实现分支和技术细节。

z-lab/Qwen3.6-35B-A3B-DFlash

Hugging Face Models Trending

z-lab 发布 DFlash，一种基于轻量级块扩散模型的投机解码草稿器，可并行生成 15–16 个 token，为 Qwen3.6-35B-A3B 推理带来最高 2.9× 加速。

@seclink: 这家伙刚刚在一块单张 3090 显卡上，跑出了 Qwen 3.5-27B Dense 模型 134 tok/s 的速度，以及新版 Qwen 3.6-27B 模型 73 tok/s 的速度。2026 年的开源社区，其发展速度简直如神速一般。…

X AI KOLs Following

A single RTX 3090 achieves 134 tok/s on the new 27B Qwen 3.5 Dense and 73 tok/s on Qwen 3.6-27B using fused kernels and speculative decoding, with same-day GGUF releases.