RTX Pro 4500 Blackwell - Qwen 3.6 27B?

Reddit r/LocalLLaMA 新闻

摘要

一位开发者分享了在搭载 NVIDIA RTX Pro 4500 Blackwell 显卡的服务器上,使用 llama.cpp 运行 Qwen3.6-27B 模型的本地推理基准测试数据及 systemd 配置。该帖文征集了提升吞吐量的优化建议,并探讨了更大模型的潜在应用场景。

我有一台搭载了 RTX 4500 Blackwell 的服务器,运行着 CUDA 13.1 和 nvidia/595.58.03 驱动,分配了 48GB 显存。我使用的构建版本为:dcad77cc3 (8933),已加载 Qwen3.6-27B UD-Q5_K_XL 模型并连接至 Roo Code。目前运行正常。我是否遗漏了什么参数?或者可以尝试运行更大的模型吗?我只是希望它跑得更流畅、推理更智能一些。我现在主要在 UE5 中做项目,但主要还是依赖 Codex 和 Claude。这台设备还能用来做什么呢? 以下是 API 测试数据: ggml_cuda_init: found 1 CUDA devices (Total VRAM: 32126 MiB): Device 0: NVIDIA RTX PRO 4500 Blackwell, compute capability 12.0, VMM: yes, VRAM: 32126 MiB | model | size | params | backend | ngl | fa | test | t/s | | ------------------------------ | ---------: | ---------: | ---------- | --: | -: | --------------: | -------------------: | | qwen35 27B Q5_K - Medium | 18.65 GiB | 26.90 B | CUDA | 999 | 1 | pp512 | 1751.21 ± 54.18 | | qwen35 27B Q5_K - Medium | 18.65 GiB | 26.90 B | CUDA | 999 | 1 | tg128 | 35.83 ± 0.02 | 构建版本:dcad77cc3 (8933) `以下是具体结果` "prompt_n": 31, "prompt_per_second": 166.60307087079664, "predicted_n": 300, "predicted_ms": 8429.475, "predicted_per_second": 35.58940503412134 root@pve:~# [Unit] Description=llama.cpp server — Qwen3.6-27B UD-Q5_K_XL (thinking, precise coding) ExecStart=/opt/llama.cpp/build/bin/llama-server \ --model /opt/llama.cpp/models/Qwen3.6-27B/Qwen3.6-27B-UD-Q5_K_XL.gguf \ --alias Qwen3.6-27B \ --ctx-size 131072 \ --n-gpu-layers 999 \ --flash-attn on \ --jinja \ --threads 16 \ --batch-size 512 \ --ubatch-size 512 \ --temp 0.6 \ --top-p 0.95 \ --top-k 20 \ --min-p 0.0 \ --presence-penalty 0.0 \ --repeat-penalty 1.0 Restart=on-failure RestartSec=10 TimeoutStartSec=300
查看原文

相似文章

RTX Pro 4500 Blackwell 性能实测

Reddit r/LocalLLaMA

一位用户分享了将 Nvidia RTX Pro 4500 Blackwell 32GB GPU 与 RTX 5060 Ti 16GB 进行 AI 推理性能对比的基准测试结果,显示根据模型大小和量化水平,速度提升了 1.6 到 6 倍。