@iotcoi：Qwen3.6-27B-FP8 + Dflash + DDTree，256k 上下文，10 个智能体，单颗 49W GB10 上峰值 200 tokens/s，平均解码 136 tokens/s

X AI KOLs Timeline 2026/04/22 13:54 模型

qwen3-6 fp8-quantization 256k-context gpu-inference

摘要

量化版 27B Qwen3.6 在单颗 49W GB10 GPU 上借助 Dflash+DDTree 优化，256k 上下文、10 智能体并发，峰值达 200 tok/s，平均 136 tok/s。

Qwen3.6-27B-FP8 + Dflash + DDTree，256k 上下文，10 个智能体，单颗 49W GB10 GPU 上峰值 200 tokens/s，平均解码 136 tokens/s

查看原文

查看缓存全文

缓存时间: 2026/04/22 17:51

Qwen3.6-27B-FP8 + Dflash + DDTree，256k 上下文，10 个智能体，单张迷你 GB10 GPU 上约 200 tokens/秒，最大解码 136 tokens/秒，平均功耗 49 W

相似文章

X AI KOLs Timeline

一位开发者在单颗74W GB10 GPU上，用vLLM同时跑起10个35B参数Qwen3.6模型agent，总吞吐436 tok/s，实现高效边缘部署。

Reddit r/LocalLLaMA

使用纯 Q4_K_M 方法对 Qwen3.6 27B 进行量化的版本完全适配 16 GB 显存，在 MTP 下可实现高达 40 tok/s 的 token 生成速度，相比其他 GGUF 变体显著缩小模型体积。

Reddit r/LocalLLaMA

作者分享了一种高性能的本地推理配置，使用支持 TurboQuant 的修改版 llama.cpp，在硬件受限（8GB 显存、32GB 内存）的情况下运行 Qwen3.6 35B A3B，实现了 ~37-51 tok/sec 的生成速度，并支持 ~190k 上下文。

Reddit r/LocalLLaMA

一名用户分享了一份配置方案，该方案在使用 llama.cpp 和多令牌预测（MTP）的情况下，能在 12GB 显存的 GPU 上让 Qwen3.6 35B A3B 模型实现超过每秒 80 个令牌的生成速度。帖子中包含了基准测试结果以及用于优化性能的具体命令行参数。

Reddit r/LocalLLaMA

本文介绍如何使用 llama.cpp 的 SYCL 后端，在 Intel Arc Pro B70 GPU 上使整个模型和 KV 缓存位于显存中，从而实现 Qwen 3.6-35B-A3B 模型每秒超过 60 个 token 的处理速度。