在 V100 上使用 Qwen3.6 27B 实现每秒 1000 tokens 生成

Reddit r/LocalLLaMA 模型

摘要

在 V100 GPU 上,使用 Qwen3.6 27B 模型,通过 128 个并发请求实现了每秒 1000 tokens 的生成速度,单用户下为 80 t/s。

我想看看这个配置下生成的最佳情况,结果没有让我失望。128 个并发请求虽然离我的需求很远,但看到这么大的数字还是挺有趣的。对于单用户(batch 1 而不是 128),生成速度约为 80 t/s,处理速度为 3000 t/s,没有使用 MTP!!
查看原文

相似文章