@iotcoi：在小小的GB10 GPU上跑通Google cookbook，10个agent并发，436 tok/s，每agent 43.6 tok/s，Qwen3.6-35B + Dflash + DDTree，vLLM GB10仅74W

X AI KOLs Timeline 2026/04/22 08:08 模型

摘要

一位开发者在单颗74W GB10 GPU上，用vLLM同时跑起10个35B参数Qwen3.6模型agent，总吞吐436 tok/s，实现高效边缘部署。

在小小的GB10 GPU上跑通Google cookbook，10个agent并发，436 tok/s，每agent 43.6 tok/s，Qwen3.6-35B + Dflash + DDTree，vLLM GB10仅74W。未来不是一万张GPU的核电数据中心，而是桌上10个agent在你冲咖啡时就把问题解决了。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/22 11:28

我用小小的 GB10 GPU 跑了 Google 的 cookbook，10 个智能体同时在线：
436 tok/s，平均每智能体 43.6 tok/s
Qwen3.6-35B + Dflash + DDTree，vLLM 在 GB10 上，整机 74 W

未来不是“一万张 GPU 放在核动力数据中心”，
而是“十個智能体在桌上帮妳解決问题，同时妳去冲杯咖啡”。

相似文章

@iotcoi：Qwen3.6-27B-FP8 + Dflash + DDTree，256k 上下文，10 个智能体，单颗 49W GB10 上峰值 200 tokens/s，平均解码 136 tokens/s

X AI KOLs Timeline

量化版 27B Qwen3.6 在单颗 49W GB10 GPU 上借助 Dflash+DDTree 优化，256k 上下文、10 智能体并发，峰值达 200 tok/s，平均 136 tok/s。

在 12GB 显存下，使用 Qwen3.6 35B A3B 与 llama.cpp MTP 实现 80 tok/sec 的速度和 128K 上下文

Reddit r/LocalLLaMA

一名用户分享了一份配置方案，该方案在使用 llama.cpp 和多令牌预测（MTP）的情况下，能在 12GB 显存的 GPU 上让 Qwen3.6 35B A3B 模型实现超过每秒 80 个令牌的生成速度。帖子中包含了基准测试结果以及用于优化性能的具体命令行参数。

@rumgewieselt：现在变得疯狂了……三块 1080 Ti（Pascal架构，33GB VRAM）Qwen 3.6 27B MTP 搭配 196K TurboQuant，持续 ~28-30 t/s

X AI KOLs Timeline

一位用户成功在三个 GTX 1080 Ti GPU 上对 27B 参数的 Qwen 模型进行本地推理，通过 TurboQuant 优化达到了约 28-30 tokens/秒的速度。

试了 Qwen3.6-27B-UD-Q6_K_XL.gguf 配 CloudeCode，真不敢相信居然能用

Reddit r/LocalLLaMA

用户报告称，在 RTX 5090 本地运行 Qwen3-27B-UD-Q6_K_XL.gguf，200K 上下文速度约 50 tok/s，编码表现出乎意料地可用，标志着本地模型质量大幅跃升。

@seclink: 这家伙刚刚在一块单张 3090 显卡上，跑出了 Qwen 3.5-27B Dense 模型 134 tok/s 的速度，以及新版 Qwen 3.6-27B 模型 73 tok/s 的速度。2026 年的开源社区，其发展速度简直如神速一般。…

X AI KOLs Following

A single RTX 3090 achieves 134 tok/s on the new 27B Qwen 3.5 Dense and 73 tok/s on Qwen 3.6-27B using fused kernels and speculative decoding, with same-day GGUF releases.