@ggerganov:强调 llama.cpp 在多GPU和张量并行支持方面的最新进展 过去几个月来,llama.cpp 取得了多项…
摘要
llama.cpp 维护者与 NVIDIA 工程师合作,显著提升了 ggml 中的多GPU性能,实现了硬件无关的张量并行,并在 RTX 系统上获得了显著的性能提升。
强调 llama.cpp 在多GPU和张量并行支持方面的最新进展。过去几个月里,llama.cpp 维护者与 NVIDIA 工程师合作,改进了 ggml 中的多GPU性能。这在 RTX 系统上带来了显著的性能提升,并为 ggml 中硬件无关的张量并行奠定了基础。欲了解有关此内容以及 llama.cpp 底层推理引擎其他进展的更多信息,请查看下方 @NVIDIARTXSpark 的技术博客。
相似文章
llama.cpp b9095 发布!支持双 Blackwell PCIe 显卡无需 NCCL 的张量并行
llama.cpp b9095 版本引入了针对双 Blackwell PCIe GPU 的免 NCCL 张量并行功能,使得在不依赖 NCCL 的情况下也能实现高效的多 GPU 推理。
比较 llama.cpp 行/张量分割与 ik_llama 图分割的双GPU推理速度
一位用户使用llama.cpp(行/张量切分)和ik_llama(图切分)在两张RTX 3080 20GB上对双GPU推理速度进行了基准测试,使用Qwen3.6-27B GGUF模型,比较了token生成和提示处理速度。
CUDA: 添加快速 Walsh-Hadamard 变换(作者 am17an)· Pull Request #23615 · ggml-org/llama.cpp
此拉取请求为 llama.cpp(一个流行的开源 LLM 推理引擎)添加了 CUDA 上的快速 Walsh-Hadamard 变换实现。该优化提升了在 NVIDIA GPU 上某些计算操作的性能。
@binsquares:天哪,smolvm 上的 GPU 加速效果远比我预想的好。可以在 smol 机器内运行 llama.cpp,性能接近……
用户 @binsquares 报告称,smolvm 上的 GPU 加速通过 Vulkan 后端运行 llama.cpp 时,可获得接近 90% 的主机性能。
@ggerganov: llama.cpp 为 Qwen3.6 系列添加 MTP 支持,这是本地AI生态系统的一个重要里程碑。性能提…
llama.cpp 为 Qwen3.6 系列添加了多令牌预测(MTP)支持,为在普通硬件上进行本地AI推理带来了巨大的性能提升。