Qwen 3.6 在双 RTX PRO 6000 上的基准测试
摘要
使用 VLLM 在双 RTX PRO 6000 GPU 上对 Qwen 3.6 27B 和 35B 模型进行基准测试,生成吞吐量高达每秒 3500 个令牌。
相似文章
在 2x3090 NVLINK 上对 Qwen 3.6 27B MTP 进行基准测试
对 Qwen 3.6 27B MTP 在 4 张 RTX 3090 GPU 上的基准分析表明,基于 NVLink 的张量并行相较于 PCIe 配置可实现显著的吞吐量提升(最高达 +53%)。
4x RTX 3090 上的 Qwen3.5-27B、Qwen3.5-122B 和 Qwen3.6-35B —— MoE 模型在严格全局规则下的表现困境
潜水多年的老用户,首次发帖。在 4 张 RTX 3090 上对三款 Qwen 模型分别进行了 20 多个会话的实时智能体工作测试——**Qwen3.5-27B** 稠密模型、**Qwen3.5-122B-A10B** MoE 和 **Qwen3.6-35B-A3B** MoE。以下数据均解析自持续真实负载下的 vLLM 日志,而非合成基准测试。**本文所有数据的关键负载背景:** 测试框架是一个多智能体编排器,同时运行 1-6 个并发的 OpenCode 会话,Prompt 长度为 30-60k token,并且强制执行**严格的 Bash 允许列表
RTX Pro 4500 Blackwell - Qwen 3.6 27B?
一位开发者分享了在搭载 NVIDIA RTX Pro 4500 Blackwell 显卡的服务器上,使用 llama.cpp 运行 Qwen3.6-27B 模型的本地推理基准测试数据及 systemd 配置。该帖文征集了提升吞吐量的优化建议,并探讨了更大模型的潜在应用场景。
大家在 Qwen3.6 27b 上跑出来的速度是多少?
用户基准测试 Qwen3.6-27B-Q8_0,在 3 块混合 GPU 上通过 llama.cpp 以约 13 tokens/sec 运行 128k 上下文,询问该性能是否典型。
@DeepTechTR: Qwen 3.6 27B 在16 GB VRAM下速度极快!Pure Quant技术带来的影响——27B模型流畅运行的时代已来临……
Qwen 3.6 27B 在16 GB VRAM上运行快速,得益于'Pure Quant'技术,通过MTP达到40 tokens/s,并支持64k上下文,使得本地AI能在RTX 4060 Ti等消费级GPU上运行。