llama.cpp b9095 发布！支持双 Blackwell PCIe 显卡无需 NCCL 的张量并行

Reddit r/LocalLLaMA 2026/05/10 13:12 工具

llama-cpp tensor-parallelism nvidia-blackwell multi-gpu nccl-free inference

摘要

llama.cpp b9095 版本引入了针对双 Blackwell PCIe GPU 的免 NCCL 张量并行功能，使得在不依赖 NCCL 的情况下也能实现高效的多 GPU 推理。

b9095 终于让 -sm tensor 功能在双消费级 Blackwell PCIe GPU 上无需 NCCL 即可正常工作。如果你使用的是双 Blackwell GPU，这可能会带来显著的提升。我会在第一时间分享基于 2 张 RTX 5060 Ti 的测试结果。

查看原文

相似文章

Reddit r/LocalLLaMA

一位开发者分享了在搭载 NVIDIA RTX Pro 4500 Blackwell 显卡的服务器上，使用 llama.cpp 运行 Qwen3.6-27B 模型的本地推理基准测试数据及 systemd 配置。该帖文征集了提升吞吐量的优化建议，并探讨了更大模型的潜在应用场景。

X AI KOLs Timeline

解释了llama.cpp中的-ncmoe标志如何通过将部分专家层卸载到CPU+内存，在有限显存（8-12GB）上提升MoE模型（如Qwen3.6 35B A3B）的性能，基准测试显示在RTX 3070Ti上可实现高达5倍的加速。

Reddit r/LocalLLaMA

该 PR 为 ggml-cpu 加入针对 x86 及通用 CPU 优化的 q1_0 点积内核，提升量化 LLM 推理速度。

Reddit r/artificial

Intel LLM-Scaler vllm-0.14.0-b8.2 新增对 Arc Pro B70 GPU 的官方支持，可在 Battlemage 硬件上基于 Docker 运行大模型推理。

OpenAI Blog

OpenAI 发布 block-sparse GPU kernels，这是一款用于在 GPU 上进行高效稀疏矩阵乘法的工具，可以减少神经网络操作的计算量和内存占用。