真不敢相信我成功了！双GPU - 48GB显存 llama-cpp服务器 - R7900 + 7800XT

Reddit r/LocalLLaMA 2026/05/22 19:52 新闻

dual-gpu amd vulkan llama-cpp vram docker ai-inference

摘要

一位用户成功在Kubuntu 24.04上通过Docker中的Vulkan设置了一个双GPU llama-cpp服务器，使用AMD Radeon PRO和7800 XT，拥有48GB显存。

配置：Kubuntu 24.04 - AMD显卡 - R9700 AI PRO 和 7800XT（32GB + 16GB）- llama-cpp服务器 - 在Docker中堆叠设置 - Vulkan镜像。我试过ROCM，但它与RDNA4 + RDNA3混合不兼容。Vulkan似乎可行。我快速测试了一个提示，希望它稳定，因为如果稳定，我就有48GB显存可以玩了。不得不买一个新电源，但花了300美元就能利用我旧的7800XT，我觉得非常值得。

查看原文

相似文章

@leopardracer: https://x.com/leopardracer/status/2055341758523883631

X AI KOLs Timeline

一位用户分享了他们搭建双GPU本地AI实验室的经验，使用了RTX 4080 Super和5060 Ti，通过llama.cpp和llama-swap运行Qwen 3.6模型，以降低API成本并实现无限制的实验。

两块旧款RTX 2080 Ti，每块22GB显存，运行Qwen3.6 27B，使用f16 KV缓存达到38 token/s

Reddit r/LocalLLaMA

一位用户分享其配置：使用两块改装版RTX 2080 Ti GPU（每块22GB显存）通过llama.cpp以38 token/s运行Qwen 3.6 27B，并包含关于功耗限制、张量分割模式和KV缓存设置的技巧。

双GPU llama.cpp加速

Reddit r/LocalLLaMA

llama.cpp的一个分支修复了量化KV缓存中的--split-mode tensor问题，在双GPU配置上实现高达40%的速度提升，且无质量损失。

我们真的都能搞定，对吧？双3090配置。

Reddit r/LocalLLaMA

一位用户分享了他们搭建双3090 GPU系统以本地运行Qwen 3.6 27b模型的经验，在切换到Ubuntu并使用带有自定义补丁的club-3090工具后，实现了超过100 tokens/秒的速度。他们对本地AI的未来感到兴奋。

club-5060ti: 实用的RTX 5060 Ti本地LLM笔记与配置

Reddit r/LocalLLaMA

一个GitHub仓库，提供在双RTX 5060 Ti 16GB显卡上使用vLLM和llama.cpp运行本地LLM（如Qwen3.6 27B）的实用配置和基准测试。

提交意见反馈