双GPU llama.cpp加速

Reddit r/LocalLLaMA 2026/05/17 10:24 工具

llama-cpp dual-gpu tensor-parallelism speedup open-source cuda

摘要

llama.cpp的一个分支修复了量化KV缓存中的--split-mode tensor问题，在双GPU配置上实现高达40%的速度提升，且无质量损失。

llama.cpp 长期以来存在 "--split-mode tensor" 的问题，使用该模式能获得极佳效果，但仅支持非量化 KV 缓存。正因如此，许多人选择配置足够大小的 KV 缓存而放弃张量并行。  我在此处尝试修复了该问题 - [https://github.com/RedToasty/llama.cpp_qts](https://github.com/RedToasty/llama.cpp_qts) \- 该分支基于当前主线，改动极小。  我本人在使用 3060 12GB + 4070 Super 12GB 的双卡组合，总计 24GB 显存。  以下是使用 Q8_0/Q8_0 和 "-sm tensor" 的测试结果：  **llama-bench.exe -m Qwen3.6-27B-Q4_K_M.gguf -sm tensor -fa 1 -ctk q8_0 -ctv q8_0 -p 128 -n 32 -b 128 -ub 128**   | Model | Size | Params | Backend | NGL | Batch | UBatch | Type K | Type V | SM | FA | Test | Tokens/s | |--------------------------|-----------:|---------:|---------|----:|------:|--------:|-------:|-------:|--------|---:|------|-----------------:| | Qwen3.5 27B Q4_K Medium | 15.65 GiB | 26.90 B | CUDA | 99 | 128 | 128 | q8_0 | q8_0 | tensor | 1 | pp128 | 544.82 ± 6.01 | | Qwen3.5 27B Q4_K Medium | 15.65 GiB | 26.90 B | CUDA | 99 | 128 | 128 | q8_0 | q8_0 | tensor | 1 | tg32 | 30.05 ± 0.38 | 以下是不使用张量拆分的测试结果：  **llama-bench.exe -m Qwen3.6-27B-Q4_K_M.gguf -fa 1 -ctk q8_0 -ctv q8_0 -p 128 -n 32 -b 128 -ub 128**   | Model | Size | Params | Backend | NGL | Batch | UBatch | Type K | Type V | FA | Test | Tokens/s | |--------------------------|-----------:|---------:|---------|----:|------:|--------:|-------:|-------:|---:|------|------------------:| | Qwen3.5 27B Q4_K Medium | 15.65 GiB | 26.90 B | CUDA | 99 | 128 | 128 | q8_0 | q8_0 | 1 | pp128 | 582.60 ± 28.57 | | Qwen3.5 27B Q4_K Medium | 15.65 GiB | 26.90 B | CUDA | 99 | 128 | 128 | q8_0 | q8_0 | 1 | tg32 | 21.22 ± 0.52 | 速度提升超过 **40%，且无质量损失**。此分支还 **支持最新的 mtp 变更**，我个人一直在使用：  **--spec-type draft-mtp --spec-draft-p-min 0.75 --spec-draft-n-max 2**   实际使用中，我的每秒 token 数从约 25tps 提升到约 40tps，在类似“写一个故事”的长文本生成场景中。我认为这得益于受限的显存，但在使用 agentic 编码和更长上下文时，我个人更青睐 ngram-mod。  非常希望听到使用双 5060 Ti 或类似配置的用户的反馈。另外，双 Vulkan 配置的任何反馈也很有趣，我正关注相关问题。  **简而言之**：如果你使用双 GPU，请获取/构建此分支，在命令行中添加 "-sm tensor"，看看速度是否提升 50%！**注意**：我刚刚发现 MoE 模型与 "-sm tensor" 存在一个问题，与本修复无关。目前建议在密集模型上测试，例如 Qwen3.6 27b/9b 等。张量拆分似乎很不受重视，但它可是免费提升 50% 的性能啊！如果反响不错，我将着手修复 MoE 问题并引入 Turboquants。

查看原文

双GPU llama.cpp加速

相似文章

比较 llama.cpp 行/张量分割与 ik_llama 图分割的双GPU推理速度

Llama.cpp：拆分模式张量修复即将到来？

@analogalok：别再盲目信任本地 LLM 的默认多 GPU 设置了，你实际上正浪费 25% 的性能……

双GPU下流水线与张量并行的llama.cpp中测量PCIe传输

ICYM: llama.cpp b9455 --SM Tensor KV 缓存修复已合并

提交意见反馈