Qwen 3.6 在双 RTX PRO 6000 上的基准测试

Reddit r/LocalLLaMA 新闻

摘要

使用 VLLM 在双 RTX PRO 6000 GPU 上对 Qwen 3.6 27B 和 35B 模型进行基准测试,生成吞吐量高达每秒 3500 个令牌。

有机会在双 RTX PRO 6000 配置上进行测试,因此分享一些 Qwen 3.6 的数据。所有测试均使用最新的稳定版 VLLM 后端运行。这是个人项目的一部分。 Qwen 3.6 27B BF16(原始版本,无量化) \------ MTP - 关闭 | 64 并发 | 1600 tps 生成 MTP - 2 | 32 并发 | 1400 tps 生成 MTP - 2 | 64 并发 | 1800 tps 生成 \------ Qwen 3.6 35B BF16 MTP - 关闭 | 64 并发 | 2700 tps 生成 MTP - 关闭 | 128 并发 | 3500 tps 生成(提示处理 30000 tps)
查看原文

相似文章

4x RTX 3090 上的 Qwen3.5-27B、Qwen3.5-122B 和 Qwen3.6-35B —— MoE 模型在严格全局规则下的表现困境

Reddit r/LocalLLaMA

潜水多年的老用户,首次发帖。在 4 张 RTX 3090 上对三款 Qwen 模型分别进行了 20 多个会话的实时智能体工作测试——**Qwen3.5-27B** 稠密模型、**Qwen3.5-122B-A10B** MoE 和 **Qwen3.6-35B-A3B** MoE。以下数据均解析自持续真实负载下的 vLLM 日志,而非合成基准测试。**本文所有数据的关键负载背景:** 测试框架是一个多智能体编排器,同时运行 1-6 个并发的 OpenCode 会话,Prompt 长度为 30-60k token,并且强制执行**严格的 Bash 允许列表

RTX Pro 4500 Blackwell - Qwen 3.6 27B?

Reddit r/LocalLLaMA

一位开发者分享了在搭载 NVIDIA RTX Pro 4500 Blackwell 显卡的服务器上,使用 llama.cpp 运行 Qwen3.6-27B 模型的本地推理基准测试数据及 systemd 配置。该帖文征集了提升吞吐量的优化建议,并探讨了更大模型的潜在应用场景。