@iotcoi:在小小的GB10 GPU上跑通Google cookbook,10个agent并发,436 tok/s,每agent 43.6 tok/s,Qwen3.6-35B + Dflash + DDTree,vLLM GB10仅74W
摘要
一位开发者在单颗74W GB10 GPU上,用vLLM同时跑起10个35B参数Qwen3.6模型agent,总吞吐436 tok/s,实现高效边缘部署。
查看缓存全文
缓存时间: 2026/04/22 11:28
我用小小的 GB10 GPU 跑了 Google 的 cookbook,10 个智能体同时在线:
436 tok/s,平均每智能体 43.6 tok/s
Qwen3.6-35B + Dflash + DDTree,vLLM 在 GB10 上,整机 74 W
未来不是“一万张 GPU 放在核动力数据中心”,
而是“十個智能体在桌上帮妳解決问题,同时妳去冲杯咖啡”。
相似文章
@iotcoi:Qwen3.6-27B-FP8 + Dflash + DDTree,256k 上下文,10 个智能体,单颗 49W GB10 上峰值 200 tokens/s,平均解码 136 tokens/s
量化版 27B Qwen3.6 在单颗 49W GB10 GPU 上借助 Dflash+DDTree 优化,256k 上下文、10 智能体并发,峰值达 200 tok/s,平均 136 tok/s。
@mr_r0b0t: 16个本地AI代理同时流式传输!MiniMax M2.7 NVFP4 — 2x GB10,没有云API。
演示展示了使用MiniMax M2.7 NVFP4在两个Nvidia GB10芯片上同时流式传输16个本地AI代理,无需云API。
在 8GB 显存和 32GB 内存上运行 Qwen3.6 35b a3b,~190k 上下文
作者分享了一种高性能的本地推理配置,使用支持 TurboQuant 的修改版 llama.cpp,在硬件受限(8GB 显存、32GB 内存)的情况下运行 Qwen3.6 35B A3B,实现了 ~37-51 tok/sec 的生成速度,并支持 ~190k 上下文。
@cniongolo: 我不确定大家是否已经意识到,你实际上可以在双 GPU 上运行 Qwen3.6-35B-A3B-Claude-4.7-Opus-abliterated-MTP-GGUF…
演示了在双路 Nvidia RTX PRO 6000 Blackwell GPU 上,使用 Hugging Face Inference 运行自定义 Qwen 模型(Qwen3.6-35B-A3B-Claude-4.7-Opus-abliterated-MTP-GGUF),达到每秒约 195 个 token 的处理速度。
@rohanpaul_ai: Qwen 3.6 27B 在 MacBook Pro M5 Max 64GB 上达到每秒34个token,本地使用 atomic[.]chat,接受率达90%,即……
Qwen 3.6 27B 在 MacBook Pro M5 Max 64GB 上本地运行,实现每秒34个token,草稿接受率达90%,通过 TurboQuant、GGUF 和 llama.cpp 实现,展示了笔记本AI推理的重大进步。