帮助优化 llama.cpp + Qwen 27B 在 RTX PRO 6000 Blackwell 上用于编码代理的配置

Reddit r/LocalLLaMA 2026/06/26 09:04 工具

llama-cpp qwen optimization coding-agent rtx-pro-6000 troubleshooting windows

摘要

用户详细介绍了他们在 RTX PRO 6000 Blackwell 上使用 llama.cpp 运行 Qwen 27B 进行本地编码代理的设置，与 Claude 模型进行了性能对比，并请求帮助解决频繁崩溃和响应格式错误的问题。

我们公司最近购买了一台配备 RTX PRO 6000 Blackwell 的工作站，正在尝试使用本地 LLM 来减少部分 Claude 的 token 消耗。目前我们在 Windows 11 上运行 Qwen3.6 27B MTP Q8_K_XL 和 llama.cpp。我使用 Claude Opus 和 Sonnet 已有一段时间，感觉这个模型与 Sonnet 大致相当，但稍弱一些，速度也慢一点。对于我们的使用场景，它明显优于 Haiku，但还达不到 Sonnet 的水平。Opus 则仍然是另一个档次。不过，考虑到参数数量相对较小，该模型在推理和工具调用方面的表现出奇地好。其主要弱点似乎是知识储备不足。对于编码，我强烈建议给它提供 Context7 和 Serper 等工具，或者允许它查阅文档和搜索网络。一旦这样做，它就不太容易编造或猜测类名、字段名、API 等细节。然而，我们在编码会话中遇到了严重的稳定性问题。我们使用带有 Copilot 扩展的 VS Code。有时代理会随机停止并显示：我尝试调试这个问题，目前猜测模型有时会产生格式错误的响应，可能是思考格式错误，或者响应部分顺序错误。Copilot 随后会将响应解释为空。这种情况随机发生，但频率很高。有时 llama.cpp 可执行文件也会直接崩溃并在会话中途终止。我们使用的是最新版本，甚至设置了一个计划任务每天早晨自动重建 llama.cpp，以便跟上更新，而不必手动操作。我们切换到 MTP 版本是因为它快了大约 15–20%，质量与非 MTP 版本大致相当。这是我们的 llama.cpp 编译命令： cmake .. -DCMAKE_BUILD_TYPE=Release -DGGML_CUDA=ON -DLLAMA_CURL=ON -DGGML_NATIVE=ON -DGGML_LTO=ON -DGGML_CUDA_GRAPHS=ON -DGGML_CUDA_FA=ON -DGGML_CUDA_FA_ALL_QUANTS=ON -DCMAKE_CUDA_ARCHITECTURES=120 cmake --build . --config Release --target llama-server llama-bench llama-fit-params llama-cli --parallel 我们并行运行 4 个代理，每个都使用完整上下文。这是我们的 llama.cpp 启动命令： llama-server.exe -m "D:\DATA\models\Qwen3.6-27B-UD-Q8_K_XL_MTP.gguf" -ngl 99 -lv 4 -fa on -c 1048576 -np 4 -ctk q8_0 -ctv q8_0 --spec-draft-type-k q8_0 --spec-draft-type-v q8_0 --spec-type draft-mtp --spec-draft-n-max 2 --metrics --port 5764 --host 0.0.0.0 -b 8192 -ub 2048 --cache-prompt --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0 --presence-penalty 0.0 --repeat-penalty 1.0 --reasoning-format deepseek --chat-template-kwargs "{\"preserve_thinking\":true}" --reasoning on --reasoning-format deepseek --reasoning-budget 8192 Windows 和其他正在运行的程序占用约 3 GB 的 VRAM。总 VRAM 使用量约为 83 GB（共 97 GB）。工作站还有 128 GB 的 DDR5 内存。这是我们在 Copilot 中的自定义端点配置： { "name": "llama-server", "vendor": "customendpoint", "apiType": "chat-completions", "models": [ { "id": "qwen3-6-27B", "name": "Qwen3.6 27B", "url": "http://192.168.1.1:5764/v1/chat/completions", "toolCalling": true, "vision": false, "streaming": true, "maxInputTokens": 230000, "maxOutputTokens": 16000 } ] } 目前我们有些束手无策。这很可能是因为我们缺乏经验或不知道如何正确利用这些硬件。所以我在这里提问：有没有在高端 GPU 上运行本地编码代理经验更丰富的人，能给一些改进设置的建议，特别是稳定性问题？提前感谢大家。这个论坛是一个非常棒的学习和发现新事物的地方！

查看原文

帮助优化 llama.cpp + Qwen 27B 在 RTX PRO 6000 Blackwell 上用于编码代理的配置

相似文章

RTX Pro 4500 Blackwell - Qwen 3.6 27B？

在单个16GB GPU + 64GB RAM上的本地LLM自动补全与代理式编码

@leopardracer: https://x.com/leopardracer/status/2055341758523883631

Qwen3.6 27b / llama.cpp / opencode 最佳配置

本地运行 Qwen3.6-35B-A3B 作为编码 Agent：我的完整部署与可用配置

提交意见反馈