张量拆分模式:在最新版 llama.cpp 中使用 Qwen-3.6-27b 时出现 CUDA 错误

Reddit r/LocalLLaMA 新闻

摘要

用户在最新的llama.cpp和Qwen-3.6-27b模型下使用tensor split模式时,在配备双RTX 3090、Ubuntu Server 24.04和Docker的环境中报告了CUDA错误。

大家好,我在加载 Unsloth UD-Q8\_K\_XL 量化版本时遇到了问题,想问问是否有人遇到过。我已经更新配置添加了 `--split-mode tensor`,但想确认是否需要更新驱动/CUDA 才能正常使用,因为我知道张量拆分模式的修复已经合并到 llama.cpp 中。目前我在 Ubuntu Server 24.04 上运行双 3090。`NVIDIA-SMI 580.159.03 Driver Version: 580.159.03 CUDA Version: 13.0` 以下是在 Docker 中使用最新 llama.cpp 镜像的配置。 ``` -c 32768 --flash-attn on --n-gpu-layers 999 --split-mode tensor --parallel 1 --tensor-split 1,1 --jinja --temp 0.6 --top-p 0.95 --min-p 0.01 --top-k 20 --presence-penalty 0.0 --spec-type draft-mtp --spec-draft-n-max 2 --no-mmap -np 1 ``` 启动时出现以下错误: ``` 0.01.790.389 I common_init_result: fitting params to device memory ... 0.01.790.389 I common_init_result: (for bugs during this step try to reproduce them with -fit off, or provide --verbose logs if the bug only occurs with -fit on) 0.01.790.459 W common_fit_params: failed to fit params to free device memory: llama_params_fit is not implemented for SPLIT_MODE_TENSOR, abort 0.12.433.663 W llama_context: n_ctx_seq (32768) < n_ctx_train (262144) -- the full capacity of the model will not be utilized 0.12.604.320 I common_init_from_params: warming up the model with an empty run - please wait ... (--no-warmup to disable) /app/ggml/src/ggml-cuda/ggml-cuda.cu:103: CUDA error 0.13.277.104 E CUDA error: unhandled system error (run with NCCL_DEBUG=INFO for details) 0.13.277.108 E current device: 0, in function ggml_backend_cuda_comm_allreduce_nccl at /app/ggml/src/ggml-cuda/ggml-cuda.cu:1217 0.13.277.108 E ncclGroupEnd() ... ```
查看原文

相似文章

Llama.cpp:拆分模式张量修复即将到来?

Reddit r/LocalLLaMA

Llama.cpp 预计将获得针对多 GPU 配置下拆分模式张量崩溃问题的修复,该问题目前每 90-120 分钟导致 VRAM 耗尽。据称,该修复还能带来约 35% 的吞吐量提升,优于分层模式。

双GPU llama.cpp加速

Reddit r/LocalLLaMA

llama.cpp的一个分支修复了量化KV缓存中的--split-mode tensor问题,在双GPU配置上实现高达40%的速度提升,且无质量损失。

RTX Pro 4500 Blackwell - Qwen 3.6 27B?

Reddit r/LocalLLaMA

一位开发者分享了在搭载 NVIDIA RTX Pro 4500 Blackwell 显卡的服务器上,使用 llama.cpp 运行 Qwen3.6-27B 模型的本地推理基准测试数据及 systemd 配置。该帖文征集了提升吞吐量的优化建议,并探讨了更大模型的潜在应用场景。