帮助优化 llama.cpp + Qwen 27B 在 RTX PRO 6000 Blackwell 上用于编码代理的配置
摘要
用户详细介绍了他们在 RTX PRO 6000 Blackwell 上使用 llama.cpp 运行 Qwen 27B 进行本地编码代理的设置,与 Claude 模型进行了性能对比,并请求帮助解决频繁崩溃和响应格式错误的问题。
我们公司最近购买了一台配备 RTX PRO 6000 Blackwell 的工作站,正在尝试使用本地 LLM 来减少部分 Claude 的 token 消耗。目前我们在 Windows 11 上运行 Qwen3.6 27B MTP Q8_K_XL 和 llama.cpp。我使用 Claude Opus 和 Sonnet 已有一段时间,感觉这个模型与 Sonnet 大致相当,但稍弱一些,速度也慢一点。对于我们的使用场景,它明显优于 Haiku,但还达不到 Sonnet 的水平。Opus 则仍然是另一个档次。不过,考虑到参数数量相对较小,该模型在推理和工具调用方面的表现出奇地好。其主要弱点似乎是知识储备不足。对于编码,我强烈建议给它提供 Context7 和 Serper 等工具,或者允许它查阅文档和搜索网络。一旦这样做,它就不太容易编造或猜测类名、字段名、API 等细节。然而,我们在编码会话中遇到了严重的稳定性问题。我们使用带有 Copilot 扩展的 VS Code。有时代理会随机停止并显示:
我尝试调试这个问题,目前猜测模型有时会产生格式错误的响应,可能是思考格式错误,或者响应部分顺序错误。Copilot 随后会将响应解释为空。这种情况随机发生,但频率很高。有时 llama.cpp 可执行文件也会直接崩溃并在会话中途终止。我们使用的是最新版本,甚至设置了一个计划任务每天早晨自动重建 llama.cpp,以便跟上更新,而不必手动操作。我们切换到 MTP 版本是因为它快了大约 15–20%,质量与非 MTP 版本大致相当。这是我们的 llama.cpp 编译命令:
cmake .. -DCMAKE_BUILD_TYPE=Release -DGGML_CUDA=ON -DLLAMA_CURL=ON -DGGML_NATIVE=ON -DGGML_LTO=ON -DGGML_CUDA_GRAPHS=ON -DGGML_CUDA_FA=ON -DGGML_CUDA_FA_ALL_QUANTS=ON -DCMAKE_CUDA_ARCHITECTURES=120
cmake --build . --config Release --target llama-server llama-bench llama-fit-params llama-cli --parallel
我们并行运行 4 个代理,每个都使用完整上下文。这是我们的 llama.cpp 启动命令:
llama-server.exe -m "D:\DATA\models\Qwen3.6-27B-UD-Q8_K_XL_MTP.gguf" -ngl 99 -lv 4 -fa on -c 1048576 -np 4 -ctk q8_0 -ctv q8_0 --spec-draft-type-k q8_0 --spec-draft-type-v q8_0 --spec-type draft-mtp --spec-draft-n-max 2 --metrics --port 5764 --host 0.0.0.0 -b 8192 -ub 2048 --cache-prompt --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0 --presence-penalty 0.0 --repeat-penalty 1.0 --reasoning-format deepseek --chat-template-kwargs "{\"preserve_thinking\":true}" --reasoning on --reasoning-format deepseek --reasoning-budget 8192
Windows 和其他正在运行的程序占用约 3 GB 的 VRAM。总 VRAM 使用量约为 83 GB(共 97 GB)。工作站还有 128 GB 的 DDR5 内存。这是我们在 Copilot 中的自定义端点配置:
{
"name": "llama-server",
"vendor": "customendpoint",
"apiType": "chat-completions",
"models": [
{
"id": "qwen3-6-27B",
"name": "Qwen3.6 27B",
"url": "http://192.168.1.1:5764/v1/chat/completions",
"toolCalling": true,
"vision": false,
"streaming": true,
"maxInputTokens": 230000,
"maxOutputTokens": 16000
}
]
}
目前我们有些束手无策。这很可能是因为我们缺乏经验或不知道如何正确利用这些硬件。所以我在这里提问:有没有在高端 GPU 上运行本地编码代理经验更丰富的人,能给一些改进设置的建议,特别是稳定性问题?提前感谢大家。这个论坛是一个非常棒的学习和发现新事物的地方!
相似文章
RTX Pro 4500 Blackwell - Qwen 3.6 27B?
一位开发者分享了在搭载 NVIDIA RTX Pro 4500 Blackwell 显卡的服务器上,使用 llama.cpp 运行 Qwen3.6-27B 模型的本地推理基准测试数据及 systemd 配置。该帖文征集了提升吞吐量的优化建议,并探讨了更大模型的潜在应用场景。
在单个16GB GPU + 64GB RAM上的本地LLM自动补全与代理式编码
使用 llama.cpp 在单块 16GB GPU 及 64GB+ 内存上设置本地 LLM 自动完成(Qwen2.5-Coder-7B)与代理编码(Qwen3.6-35B-A3B)的技术指南,包含命令与性能基准。
@leopardracer: https://x.com/leopardracer/status/2055341758523883631
一位用户分享了他们搭建双GPU本地AI实验室的经验,使用了RTX 4080 Super和5060 Ti,通过llama.cpp和llama-swap运行Qwen 3.6模型,以降低API成本并实现无限制的实验。
Qwen3.6 27b / llama.cpp / opencode 最佳配置
社区讨论帖,分享在多 GPU 环境下运行 27B Qwen3.6 GGUF 模型、支持 100K-512K 长上下文的 llama.cpp 优化启动命令。
本地运行 Qwen3.6-35B-A3B 作为编码 Agent:我的完整部署与可用配置
一份详尽指南,教你如何在 Apple Silicon 上通过 llama.cpp 本地运行 350 亿参数 Qwen3.6 模型,并驱动 pi 编码 Agent,附带优化后的启动参数与采样配置。