@iotcoi:在小小的GB10 GPU上跑通Google cookbook,10个agent并发,436 tok/s,每agent 43.6 tok/s,Qwen3.6-35B + Dflash + DDTree,vLLM GB10仅74W

X AI KOLs Timeline 模型

摘要

一位开发者在单颗74W GB10 GPU上,用vLLM同时跑起10个35B参数Qwen3.6模型agent,总吞吐436 tok/s,实现高效边缘部署。

在小小的GB10 GPU上跑通Google cookbook,10个agent并发,436 tok/s,每agent 43.6 tok/s,Qwen3.6-35B + Dflash + DDTree,vLLM GB10仅74W。未来不是一万张GPU的核电数据中心,而是桌上10个agent在你冲咖啡时就把问题解决了。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/22 11:28

我用小小的 GB10 GPU 跑了 Google 的 cookbook,10 个智能体同时在线:
436 tok/s,平均每智能体 43.6 tok/s
Qwen3.6-35B + Dflash + DDTree,vLLM 在 GB10 上,整机 74 W

未来不是“一万张 GPU 放在核动力数据中心”,
而是“十個智能体在桌上帮妳解決问题,同时妳去冲杯咖啡”。

相似文章