在 V100 上使用 Qwen3.6 27B 实现每秒 1000 tokens 生成

Reddit r/LocalLLaMA 2026/05/25 04:42 模型

qwen v100 inference-benchmark tps concurrent-requests generation-speed

摘要

在 V100 GPU 上，使用 Qwen3.6 27B 模型，通过 128 个并发请求实现了每秒 1000 tokens 的生成速度，单用户下为 80 t/s。

我想看看这个配置下生成的最佳情况，结果没有让我失望。128 个并发请求虽然离我的需求很远，但看到这么大的数字还是挺有趣的。对于单用户（batch 1 而不是 128），生成速度约为 80 t/s，处理速度为 3000 t/s，没有使用 MTP！！

查看原文

相似文章

Reddit r/LocalLLaMA

有用户报告称，在两张RTX 4060 Ti显卡上运行Qwen3.6 q4xl达到了每秒125个token，强调性价比出色，并想知道进一步优化是否能达到150 tok/s。

Reddit r/LocalLLaMA

使用 VLLM 在双 RTX PRO 6000 GPU 上对 Qwen 3.6 27B 和 35B 模型进行基准测试，生成吞吐量高达每秒 3500 个令牌。

Reddit r/LocalLLaMA

用户基准测试 Qwen3.6-27B-Q8_0，在 3 块混合 GPU 上通过 llama.cpp 以约 13 tokens/sec 运行 128k 上下文，询问该性能是否典型。

Reddit r/LocalLLaMA

在 AMD MI50 GPU 上使用自定义 vllm 分支运行 Qwen 3.6 27B 的基准测试结果，实现了 52.8 tokens/s TG 和 1569 tokens/s PP，无量化或 MTP，证明了在 2018 年硬件上用于代理任务的可行性。

X AI KOLs Timeline

用户使用llama.cpp在RTX 3090上对Qwen3.6-27B进行基准测试，实现了35 tok/s的生成速度和1247 tok/s的提示处理速度。