在 V100 上使用 Qwen3.6 27B 实现每秒 1000 tokens 生成
摘要
在 V100 GPU 上,使用 Qwen3.6 27B 模型,通过 128 个并发请求实现了每秒 1000 tokens 的生成速度,单用户下为 80 t/s。
我想看看这个配置下生成的最佳情况,结果没有让我失望。128 个并发请求虽然离我的需求很远,但看到这么大的数字还是挺有趣的。对于单用户(batch 1 而不是 128),生成速度约为 80 t/s,处理速度为 3000 t/s,没有使用 MTP!!
相似文章
双RTX 4060 Ti上Qwen3.6 q4xl达到125 tok/s,性价比惊人
有用户报告称,在两张RTX 4060 Ti显卡上运行Qwen3.6 q4xl达到了每秒125个token,强调性价比出色,并想知道进一步优化是否能达到150 tok/s。
Qwen 3.6 在双 RTX PRO 6000 上的基准测试
使用 VLLM 在双 RTX PRO 6000 GPU 上对 Qwen 3.6 27B 和 35B 模型进行基准测试,生成吞吐量高达每秒 3500 个令牌。
大家在 Qwen3.6 27b 上跑出来的速度是多少?
用户基准测试 Qwen3.6-27B-Q8_0,在 3 块混合 GPU 上通过 llama.cpp 以约 13 tokens/sec 运行 128k 上下文,询问该性能是否典型。
MI50s 上的 Qwen 3.6 27B @52.8 tps TG @1569 tps PP(无 MTP,无量化)
在 AMD MI50 GPU 上使用自定义 vllm 分支运行 Qwen 3.6 27B 的基准测试结果,实现了 52.8 tokens/s TG 和 1569 tokens/s PP,无量化或 MTP,证明了在 2018 年硬件上用于代理任务的可行性。
@ItsmeAjayKV: 成就解锁:得益于RTX 3090,现在我可以运行Qwen3.6-27b密集模型。正在运行 @Alibaba_Qwen Qwen 3…
用户使用llama.cpp在RTX 3090上对Qwen3.6-27B进行基准测试,实现了35 tok/s的生成速度和1247 tok/s的提示处理速度。