张量拆分模式:在最新版 llama.cpp 中使用 Qwen-3.6-27b 时出现 CUDA 错误
摘要
用户在最新的llama.cpp和Qwen-3.6-27b模型下使用tensor split模式时,在配备双RTX 3090、Ubuntu Server 24.04和Docker的环境中报告了CUDA错误。
大家好,我在加载 Unsloth UD-Q8\_K\_XL 量化版本时遇到了问题,想问问是否有人遇到过。我已经更新配置添加了 `--split-mode tensor`,但想确认是否需要更新驱动/CUDA 才能正常使用,因为我知道张量拆分模式的修复已经合并到 llama.cpp 中。目前我在 Ubuntu Server 24.04 上运行双 3090。`NVIDIA-SMI 580.159.03 Driver Version: 580.159.03 CUDA Version: 13.0` 以下是在 Docker 中使用最新 llama.cpp 镜像的配置。
```
-c 32768
--flash-attn on
--n-gpu-layers 999
--split-mode tensor
--parallel 1
--tensor-split 1,1
--jinja
--temp 0.6
--top-p 0.95
--min-p 0.01
--top-k 20
--presence-penalty 0.0
--spec-type draft-mtp
--spec-draft-n-max 2
--no-mmap
-np 1
```
启动时出现以下错误:
```
0.01.790.389 I common_init_result: fitting params to device memory ...
0.01.790.389 I common_init_result: (for bugs during this step try to reproduce them with -fit off, or provide --verbose logs if the bug only occurs with -fit on)
0.01.790.459 W common_fit_params: failed to fit params to free device memory: llama_params_fit is not implemented for SPLIT_MODE_TENSOR, abort
0.12.433.663 W llama_context: n_ctx_seq (32768) < n_ctx_train (262144) -- the full capacity of the model will not be utilized
0.12.604.320 I common_init_from_params: warming up the model with an empty run - please wait ... (--no-warmup to disable)
/app/ggml/src/ggml-cuda/ggml-cuda.cu:103: CUDA error
0.13.277.104 E CUDA error: unhandled system error (run with NCCL_DEBUG=INFO for details)
0.13.277.108 E current device: 0, in function ggml_backend_cuda_comm_allreduce_nccl at /app/ggml/src/ggml-cuda/ggml-cuda.cu:1217
0.13.277.108 E ncclGroupEnd()
...
```
相似文章
Llama.cpp:拆分模式张量修复即将到来?
Llama.cpp 预计将获得针对多 GPU 配置下拆分模式张量崩溃问题的修复,该问题目前每 90-120 分钟导致 VRAM 耗尽。据称,该修复还能带来约 35% 的吞吐量提升,优于分层模式。
双GPU llama.cpp加速
llama.cpp的一个分支修复了量化KV缓存中的--split-mode tensor问题,在双GPU配置上实现高达40%的速度提升,且无质量损失。
@leopardracer: https://x.com/leopardracer/status/2055341758523883631
一位用户分享了他们搭建双GPU本地AI实验室的经验,使用了RTX 4080 Super和5060 Ti,通过llama.cpp和llama-swap运行Qwen 3.6模型,以降低API成本并实现无限制的实验。
RTX Pro 4500 Blackwell - Qwen 3.6 27B?
一位开发者分享了在搭载 NVIDIA RTX Pro 4500 Blackwell 显卡的服务器上,使用 llama.cpp 运行 Qwen3.6-27B 模型的本地推理基准测试数据及 systemd 配置。该帖文征集了提升吞吐量的优化建议,并探讨了更大模型的潜在应用场景。
Qwen3.6-35B-A3B Q4 262k上下文,8GB 3070 Ti上可达+30tps
作者分享了在8GB RTX 3070 Ti上使用llama.cpp运行Qwen3.6-35B-A3B MoE模型,实现高达262k上下文、30+tps的详细调优技巧,并指出从Windows切换到Ubuntu Server后速度提升了25%。