RTX Pro 4500 Blackwell - Qwen 3.6 27B?
摘要
一位开发者分享了在搭载 NVIDIA RTX Pro 4500 Blackwell 显卡的服务器上,使用 llama.cpp 运行 Qwen3.6-27B 模型的本地推理基准测试数据及 systemd 配置。该帖文征集了提升吞吐量的优化建议,并探讨了更大模型的潜在应用场景。
我有一台搭载了 RTX 4500 Blackwell 的服务器,运行着 CUDA 13.1 和 nvidia/595.58.03 驱动,分配了 48GB 显存。我使用的构建版本为:dcad77cc3 (8933),已加载 Qwen3.6-27B UD-Q5_K_XL 模型并连接至 Roo Code。目前运行正常。我是否遗漏了什么参数?或者可以尝试运行更大的模型吗?我只是希望它跑得更流畅、推理更智能一些。我现在主要在 UE5 中做项目,但主要还是依赖 Codex 和 Claude。这台设备还能用来做什么呢?
以下是 API 测试数据:
ggml_cuda_init: found 1 CUDA devices (Total VRAM: 32126 MiB): Device 0: NVIDIA RTX PRO 4500 Blackwell, compute capability 12.0, VMM: yes, VRAM: 32126 MiB
| model | size | params | backend | ngl | fa | test | t/s |
| ------------------------------ | ---------: | ---------: | ---------- | --: | -: | --------------: | -------------------: |
| qwen35 27B Q5_K - Medium | 18.65 GiB | 26.90 B | CUDA | 999 | 1 | pp512 | 1751.21 ± 54.18 |
| qwen35 27B Q5_K - Medium | 18.65 GiB | 26.90 B | CUDA | 999 | 1 | tg128 | 35.83 ± 0.02 |
构建版本:dcad77cc3 (8933) `以下是具体结果`
"prompt_n": 31, "prompt_per_second": 166.60307087079664, "predicted_n": 300, "predicted_ms": 8429.475, "predicted_per_second": 35.58940503412134
root@pve:~#
[Unit]
Description=llama.cpp server — Qwen3.6-27B UD-Q5_K_XL (thinking, precise coding)
ExecStart=/opt/llama.cpp/build/bin/llama-server \
--model /opt/llama.cpp/models/Qwen3.6-27B/Qwen3.6-27B-UD-Q5_K_XL.gguf \
--alias Qwen3.6-27B \
--ctx-size 131072 \
--n-gpu-layers 999 \
--flash-attn on \
--jinja \
--threads 16 \
--batch-size 512 \
--ubatch-size 512 \
--temp 0.6 \
--top-p 0.95 \
--top-k 20 \
--min-p 0.0 \
--presence-penalty 0.0 \
--repeat-penalty 1.0
Restart=on-failure
RestartSec=10
TimeoutStartSec=300
相似文章
RTX Pro 4500 Blackwell 性能实测
一位用户分享了将 Nvidia RTX Pro 4500 Blackwell 32GB GPU 与 RTX 5060 Ti 16GB 进行 AI 推理性能对比的基准测试结果,显示根据模型大小和量化水平,速度提升了 1.6 到 6 倍。
Qwen 3.6 在双 RTX PRO 6000 上的基准测试
使用 VLLM 在双 RTX PRO 6000 GPU 上对 Qwen 3.6 27B 和 35B 模型进行基准测试,生成吞吐量高达每秒 3500 个令牌。
Qwen3.6-35B-A3B Q4 262k上下文,8GB 3070 Ti上可达+30tps
作者分享了在8GB RTX 3070 Ti上使用llama.cpp运行Qwen3.6-35B-A3B MoE模型,实现高达262k上下文、30+tps的详细调优技巧,并指出从Windows切换到Ubuntu Server后速度提升了25%。
@leopardracer: https://x.com/leopardracer/status/2055341758523883631
一位用户分享了他们搭建双GPU本地AI实验室的经验,使用了RTX 4080 Super和5060 Ti,通过llama.cpp和llama-swap运行Qwen 3.6模型,以降低API成本并实现无限制的实验。
在 8GB 显存和 32GB 内存上运行 Qwen3.6 35b a3b,~190k 上下文
作者分享了一种高性能的本地推理配置,使用支持 TurboQuant 的修改版 llama.cpp,在硬件受限(8GB 显存、32GB 内存)的情况下运行 Qwen3.6 35B A3B,实现了 ~37-51 tok/sec 的生成速度,并支持 ~190k 上下文。