RTX Pro 4500 Blackwell - Qwen 3.6 27B？

Reddit r/LocalLLaMA 2026/05/09 01:53 新闻

摘要

一位开发者分享了在搭载 NVIDIA RTX Pro 4500 Blackwell 显卡的服务器上，使用 llama.cpp 运行 Qwen3.6-27B 模型的本地推理基准测试数据及 systemd 配置。该帖文征集了提升吞吐量的优化建议，并探讨了更大模型的潜在应用场景。

我有一台搭载了 RTX 4500 Blackwell 的服务器，运行着 CUDA 13.1 和 nvidia/595.58.03 驱动，分配了 48GB 显存。我使用的构建版本为：dcad77cc3 (8933)，已加载 Qwen3.6-27B UD-Q5_K_XL 模型并连接至 Roo Code。目前运行正常。我是否遗漏了什么参数？或者可以尝试运行更大的模型吗？我只是希望它跑得更流畅、推理更智能一些。我现在主要在 UE5 中做项目，但主要还是依赖 Codex 和 Claude。这台设备还能用来做什么呢？以下是 API 测试数据： ggml_cuda_init: found 1 CUDA devices (Total VRAM: 32126 MiB): Device 0: NVIDIA RTX PRO 4500 Blackwell, compute capability 12.0, VMM: yes, VRAM: 32126 MiB | model | size | params | backend | ngl | fa | test | t/s | | ------------------------------ | ---------: | ---------: | ---------- | --: | -: | --------------: | -------------------: | | qwen35 27B Q5_K - Medium | 18.65 GiB | 26.90 B | CUDA | 999 | 1 | pp512 | 1751.21 ± 54.18 | | qwen35 27B Q5_K - Medium | 18.65 GiB | 26.90 B | CUDA | 999 | 1 | tg128 | 35.83 ± 0.02 | 构建版本：dcad77cc3 (8933) `以下是具体结果` "prompt_n": 31, "prompt_per_second": 166.60307087079664, "predicted_n": 300, "predicted_ms": 8429.475, "predicted_per_second": 35.58940503412134 root@pve:~# [Unit] Description=llama.cpp server — Qwen3.6-27B UD-Q5_K_XL (thinking, precise coding) ExecStart=/opt/llama.cpp/build/bin/llama-server \ --model /opt/llama.cpp/models/Qwen3.6-27B/Qwen3.6-27B-UD-Q5_K_XL.gguf \ --alias Qwen3.6-27B \ --ctx-size 131072 \ --n-gpu-layers 999 \ --flash-attn on \ --jinja \ --threads 16 \ --batch-size 512 \ --ubatch-size 512 \ --temp 0.6 \ --top-p 0.95 \ --top-k 20 \ --min-p 0.0 \ --presence-penalty 0.0 \ --repeat-penalty 1.0 Restart=on-failure RestartSec=10 TimeoutStartSec=300

查看原文

RTX Pro 4500 Blackwell - Qwen 3.6 27B？

相似文章

RTX Pro 4500 Blackwell 性能实测

Qwen 3.6 在双 RTX PRO 6000 上的基准测试

Qwen3.6-35B-A3B Q4 262k上下文，8GB 3070 Ti上可达+30tps

@leopardracer: https://x.com/leopardracer/status/2055341758523883631

在 8GB 显存和 32GB 内存上运行 Qwen3.6 35b a3b，~190k 上下文

提交意见反馈