真不敢相信我成功了!双GPU - 48GB显存 llama-cpp服务器 - R7900 + 7800XT
摘要
一位用户成功在Kubuntu 24.04上通过Docker中的Vulkan设置了一个双GPU llama-cpp服务器,使用AMD Radeon PRO和7800 XT,拥有48GB显存。
配置:Kubuntu 24.04 - AMD显卡 - R9700 AI PRO 和 7800XT(32GB + 16GB)- llama-cpp服务器 - 在Docker中堆叠设置 - Vulkan镜像。我试过ROCM,但它与RDNA4 + RDNA3混合不兼容。Vulkan似乎可行。我快速测试了一个提示,希望它稳定,因为如果稳定,我就有48GB显存可以玩了。不得不买一个新电源,但花了300美元就能利用我旧的7800XT,我觉得非常值得。
相似文章
@leopardracer: https://x.com/leopardracer/status/2055341758523883631
一位用户分享了他们搭建双GPU本地AI实验室的经验,使用了RTX 4080 Super和5060 Ti,通过llama.cpp和llama-swap运行Qwen 3.6模型,以降低API成本并实现无限制的实验。
两块旧款RTX 2080 Ti,每块22GB显存,运行Qwen3.6 27B,使用f16 KV缓存达到38 token/s
一位用户分享其配置:使用两块改装版RTX 2080 Ti GPU(每块22GB显存)通过llama.cpp以38 token/s运行Qwen 3.6 27B,并包含关于功耗限制、张量分割模式和KV缓存设置的技巧。
双GPU llama.cpp加速
llama.cpp的一个分支修复了量化KV缓存中的--split-mode tensor问题,在双GPU配置上实现高达40%的速度提升,且无质量损失。
我们真的都能搞定,对吧?双3090配置。
一位用户分享了他们搭建双3090 GPU系统以本地运行Qwen 3.6 27b模型的经验,在切换到Ubuntu并使用带有自定义补丁的club-3090工具后,实现了超过100 tokens/秒的速度。他们对本地AI的未来感到兴奋。
club-5060ti: 实用的RTX 5060 Ti本地LLM笔记与配置
一个GitHub仓库,提供在双RTX 5060 Ti 16GB显卡上使用vLLM和llama.cpp运行本地LLM(如Qwen3.6 27B)的实用配置和基准测试。