@ggerganov：强调 llama.cpp 在多GPU和张量并行支持方面的最新进展过去几个月来，llama.cpp 取得了多项…

X AI KOLs Following 2026/06/04 07:55 工具

llama-cpp multi-gpu tensor-parallelism inference open-source performance

摘要

llama.cpp 维护者与 NVIDIA 工程师合作，显著提升了 ggml 中的多GPU性能，实现了硬件无关的张量并行，并在 RTX 系统上获得了显著的性能提升。

强调 llama.cpp 在多GPU和张量并行支持方面的最新进展。过去几个月里，llama.cpp 维护者与 NVIDIA 工程师合作，改进了 ggml 中的多GPU性能。这在 RTX 系统上带来了显著的性能提升，并为 ggml 中硬件无关的张量并行奠定了基础。欲了解有关此内容以及 llama.cpp 底层推理引擎其他进展的更多信息，请查看下方 @NVIDIARTXSpark 的技术博客。

查看原文

相似文章

llama.cpp b9095 发布！支持双 Blackwell PCIe 显卡无需 NCCL 的张量并行

Reddit r/LocalLLaMA

llama.cpp b9095 版本引入了针对双 Blackwell PCIe GPU 的免 NCCL 张量并行功能，使得在不依赖 NCCL 的情况下也能实现高效的多 GPU 推理。

比较 llama.cpp 行/张量分割与 ik_llama 图分割的双GPU推理速度

Reddit r/LocalLLaMA

一位用户使用llama.cpp（行/张量切分）和ik_llama（图切分）在两张RTX 3080 20GB上对双GPU推理速度进行了基准测试，使用Qwen3.6-27B GGUF模型，比较了token生成和提示处理速度。

CUDA: 添加快速 Walsh-Hadamard 变换（作者 am17an）· Pull Request #23615 · ggml-org/llama.cpp

Reddit r/LocalLLaMA

此拉取请求为 llama.cpp（一个流行的开源 LLM 推理引擎）添加了 CUDA 上的快速 Walsh-Hadamard 变换实现。该优化提升了在 NVIDIA GPU 上某些计算操作的性能。

@binsquares：天哪，smolvm 上的 GPU 加速效果远比我预想的好。可以在 smol 机器内运行 llama.cpp，性能接近……

X AI KOLs Following

用户 @binsquares 报告称，smolvm 上的 GPU 加速通过 Vulkan 后端运行 llama.cpp 时，可获得接近 90% 的主机性能。

@ggerganov: llama.cpp 为 Qwen3.6 系列添加 MTP 支持，这是本地AI生态系统的一个重要里程碑。性能提…

X AI KOLs Following

llama.cpp 为 Qwen3.6 系列添加了多令牌预测（MTP）支持，为在普通硬件上进行本地AI推理带来了巨大的性能提升。

提交意见反馈