标签
一位用户成功在Kubuntu 24.04上通过Docker中的Vulkan设置了一个双GPU llama-cpp服务器,使用AMD Radeon PRO和7800 XT,拥有48GB显存。
llama.cpp的一个分支修复了量化KV缓存中的--split-mode tensor问题,在双GPU配置上实现高达40%的速度提升,且无质量损失。