我不知道居然可以同时编译llamacpp来运行CUDA和Vulkan..

Reddit r/LocalLLaMA 新闻

摘要

作者发现同时使用CUDA和Vulkan后端编译llama.cpp是可行的,解码速度提升了约10% tokens/秒。他们计划运行进一步基准测试来评估其优势。

cmake -B build -G "Visual Studio 17 2022" -A x64 -DCUDAToolkit\_ROOT="C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1" -DGGML\_CUDA=ON -DGGML\_VULKAN=ON -DGGML\_FLASH\_ATTN=ON -DGGML\_BLAS=OFF -DGGML\_NATIVE=OFF -DGGML\_RPC=ON -DGGML\_BACKEND\_DL=ON -DCMAKE\_CUDA\_ARCHITECTURES="120a" -DGGML\_CUDA\_FA\_ALL\_QUANTS=true 我原本在用w7800优化Vulkan,使用opencode的ds4时,ds4建议我“同时编译cuda和vulkan”以利用两张显卡。我之前试过cuda+hip但没有试过vulkan。现在很晚了,但明天我会尝试一些基准测试来了解实际收益。有人试过吗?我使用MiniMax-M3-UD-IQ2_M-00001-of-00004.gguf获得了大约+10%的tokens/秒(解码)。
查看原文

相似文章

双GPU llama.cpp加速

Reddit r/LocalLLaMA

llama.cpp的一个分支修复了量化KV缓存中的--split-mode tensor问题,在双GPU配置上实现高达40%的速度提升,且无质量损失。