帮助优化 llama.cpp + Qwen 27B 在 RTX PRO 6000 Blackwell 上用于编码代理的配置

Reddit r/LocalLLaMA 工具

摘要

用户详细介绍了他们在 RTX PRO 6000 Blackwell 上使用 llama.cpp 运行 Qwen 27B 进行本地编码代理的设置,与 Claude 模型进行了性能对比,并请求帮助解决频繁崩溃和响应格式错误的问题。

我们公司最近购买了一台配备 RTX PRO 6000 Blackwell 的工作站,正在尝试使用本地 LLM 来减少部分 Claude 的 token 消耗。目前我们在 Windows 11 上运行 Qwen3.6 27B MTP Q8_K_XL 和 llama.cpp。我使用 Claude Opus 和 Sonnet 已有一段时间,感觉这个模型与 Sonnet 大致相当,但稍弱一些,速度也慢一点。对于我们的使用场景,它明显优于 Haiku,但还达不到 Sonnet 的水平。Opus 则仍然是另一个档次。不过,考虑到参数数量相对较小,该模型在推理和工具调用方面的表现出奇地好。其主要弱点似乎是知识储备不足。对于编码,我强烈建议给它提供 Context7 和 Serper 等工具,或者允许它查阅文档和搜索网络。一旦这样做,它就不太容易编造或猜测类名、字段名、API 等细节。然而,我们在编码会话中遇到了严重的稳定性问题。我们使用带有 Copilot 扩展的 VS Code。有时代理会随机停止并显示: 我尝试调试这个问题,目前猜测模型有时会产生格式错误的响应,可能是思考格式错误,或者响应部分顺序错误。Copilot 随后会将响应解释为空。这种情况随机发生,但频率很高。有时 llama.cpp 可执行文件也会直接崩溃并在会话中途终止。我们使用的是最新版本,甚至设置了一个计划任务每天早晨自动重建 llama.cpp,以便跟上更新,而不必手动操作。我们切换到 MTP 版本是因为它快了大约 15–20%,质量与非 MTP 版本大致相当。这是我们的 llama.cpp 编译命令: cmake .. -DCMAKE_BUILD_TYPE=Release -DGGML_CUDA=ON -DLLAMA_CURL=ON -DGGML_NATIVE=ON -DGGML_LTO=ON -DGGML_CUDA_GRAPHS=ON -DGGML_CUDA_FA=ON -DGGML_CUDA_FA_ALL_QUANTS=ON -DCMAKE_CUDA_ARCHITECTURES=120 cmake --build . --config Release --target llama-server llama-bench llama-fit-params llama-cli --parallel 我们并行运行 4 个代理,每个都使用完整上下文。这是我们的 llama.cpp 启动命令: llama-server.exe -m "D:\DATA\models\Qwen3.6-27B-UD-Q8_K_XL_MTP.gguf" -ngl 99 -lv 4 -fa on -c 1048576 -np 4 -ctk q8_0 -ctv q8_0 --spec-draft-type-k q8_0 --spec-draft-type-v q8_0 --spec-type draft-mtp --spec-draft-n-max 2 --metrics --port 5764 --host 0.0.0.0 -b 8192 -ub 2048 --cache-prompt --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0 --presence-penalty 0.0 --repeat-penalty 1.0 --reasoning-format deepseek --chat-template-kwargs "{\"preserve_thinking\":true}" --reasoning on --reasoning-format deepseek --reasoning-budget 8192 Windows 和其他正在运行的程序占用约 3 GB 的 VRAM。总 VRAM 使用量约为 83 GB(共 97 GB)。工作站还有 128 GB 的 DDR5 内存。这是我们在 Copilot 中的自定义端点配置: { "name": "llama-server", "vendor": "customendpoint", "apiType": "chat-completions", "models": [ { "id": "qwen3-6-27B", "name": "Qwen3.6 27B", "url": "http://192.168.1.1:5764/v1/chat/completions", "toolCalling": true, "vision": false, "streaming": true, "maxInputTokens": 230000, "maxOutputTokens": 16000 } ] } 目前我们有些束手无策。这很可能是因为我们缺乏经验或不知道如何正确利用这些硬件。所以我在这里提问:有没有在高端 GPU 上运行本地编码代理经验更丰富的人,能给一些改进设置的建议,特别是稳定性问题?提前感谢大家。这个论坛是一个非常棒的学习和发现新事物的地方!
查看原文

相似文章

RTX Pro 4500 Blackwell - Qwen 3.6 27B?

Reddit r/LocalLLaMA

一位开发者分享了在搭载 NVIDIA RTX Pro 4500 Blackwell 显卡的服务器上,使用 llama.cpp 运行 Qwen3.6-27B 模型的本地推理基准测试数据及 systemd 配置。该帖文征集了提升吞吐量的优化建议,并探讨了更大模型的潜在应用场景。