Qwen 3.6 在双 RTX PRO 6000 上的基准测试

Reddit r/LocalLLaMA 2026/05/25 06:35 新闻

benchmarks inference throughput qwen vllm gpu performance

摘要

使用 VLLM 在双 RTX PRO 6000 GPU 上对 Qwen 3.6 27B 和 35B 模型进行基准测试，生成吞吐量高达每秒 3500 个令牌。

有机会在双 RTX PRO 6000 配置上进行测试，因此分享一些 Qwen 3.6 的数据。所有测试均使用最新的稳定版 VLLM 后端运行。这是个人项目的一部分。 Qwen 3.6 27B BF16（原始版本，无量化） \------ MTP - 关闭 | 64 并发 | 1600 tps 生成 MTP - 2 | 32 并发 | 1400 tps 生成 MTP - 2 | 64 并发 | 1800 tps 生成 \------ Qwen 3.6 35B BF16 MTP - 关闭 | 64 并发 | 2700 tps 生成 MTP - 关闭 | 128 并发 | 3500 tps 生成（提示处理 30000 tps）

查看原文

相似文章

在 2x3090 NVLINK 上对 Qwen 3.6 27B MTP 进行基准测试

Reddit r/LocalLLaMA

对 Qwen 3.6 27B MTP 在 4 张 RTX 3090 GPU 上的基准分析表明，基于 NVLink 的张量并行相较于 PCIe 配置可实现显著的吞吐量提升（最高达 +53%）。

Qwen 3.6 27B 投机解码基准测试：单张 RTX 3090 上实现 ~100 TPS

Reddit r/LocalLLaMA

一份详细的基准测试，比较了单张 RTX 3090 上 Qwen 3.6 27B 的投机解码引擎，显示 ik_llama 在代码生成中达到约每秒 100 个 token。结果包括 5 种引擎变体的解码 TPS、TTFT、显存占用和上下文退化情况。

4x RTX 3090 上的 Qwen3.5-27B、Qwen3.5-122B 和 Qwen3.6-35B —— MoE 模型在严格全局规则下的表现困境

Reddit r/LocalLLaMA

潜水多年的老用户，首次发帖。在 4 张 RTX 3090 上对三款 Qwen 模型分别进行了 20 多个会话的实时智能体工作测试——**Qwen3.5-27B** 稠密模型、**Qwen3.5-122B-A10B** MoE 和 **Qwen3.6-35B-A3B** MoE。以下数据均解析自持续真实负载下的 vLLM 日志，而非合成基准测试。**本文所有数据的关键负载背景：** 测试框架是一个多智能体编排器，同时运行 1-6 个并发的 OpenCode 会话，Prompt 长度为 30-60k token，并且强制执行**严格的 Bash 允许列表

RTX Pro 4500 Blackwell - Qwen 3.6 27B？

Reddit r/LocalLLaMA

一位开发者分享了在搭载 NVIDIA RTX Pro 4500 Blackwell 显卡的服务器上，使用 llama.cpp 运行 Qwen3.6-27B 模型的本地推理基准测试数据及 systemd 配置。该帖文征集了提升吞吐量的优化建议，并探讨了更大模型的潜在应用场景。

@cniongolo: 我不确定大家是否已经意识到，你实际上可以在双 GPU 上运行 Qwen3.6-35B-A3B-Claude-4.7-Opus-abliterated-MTP-GGUF…

X AI KOLs Following

演示了在双路 Nvidia RTX PRO 6000 Blackwell GPU 上，使用 Hugging Face Inference 运行自定义 Qwen 模型（Qwen3.6-35B-A3B-Claude-4.7-Opus-abliterated-MTP-GGUF），达到每秒约 195 个 token 的处理速度。

相似文章

在 2x3090 NVLINK 上对 Qwen 3.6 27B MTP 进行基准测试

Qwen 3.6 27B 投机解码基准测试：单张 RTX 3090 上实现 ~100 TPS

4x RTX 3090 上的 Qwen3.5-27B、Qwen3.5-122B 和 Qwen3.6-35B —— MoE 模型在严格全局规则下的表现困境

RTX Pro 4500 Blackwell - Qwen 3.6 27B？

@cniongolo: 我不确定大家是否已经意识到，你实际上可以在双 GPU 上运行 Qwen3.6-35B-A3B-Claude-4.7-Opus-abliterated-MTP-GGUF…

提交意见反馈