llama.cpp b9095 发布!支持双 Blackwell PCIe 显卡无需 NCCL 的张量并行

Reddit r/LocalLLaMA 工具

摘要

llama.cpp b9095 版本引入了针对双 Blackwell PCIe GPU 的免 NCCL 张量并行功能,使得在不依赖 NCCL 的情况下也能实现高效的多 GPU 推理。

b9095 终于让 -sm tensor 功能在双消费级 Blackwell PCIe GPU 上无需 NCCL 即可正常工作。如果你使用的是双 Blackwell GPU,这可能会带来显著的提升。我会在第一时间分享基于 2 张 RTX 5060 Ti 的测试结果。
查看原文

相似文章

RTX Pro 4500 Blackwell - Qwen 3.6 27B?

Reddit r/LocalLLaMA

一位开发者分享了在搭载 NVIDIA RTX Pro 4500 Blackwell 显卡的服务器上,使用 llama.cpp 运行 Qwen3.6-27B 模型的本地推理基准测试数据及 systemd 配置。该帖文征集了提升吞吐量的优化建议,并探讨了更大模型的潜在应用场景。

Block-sparse GPU kernels

OpenAI Blog

OpenAI 发布 block-sparse GPU kernels,这是一款用于在 GPU 上进行高效稀疏矩阵乘法的工具,可以减少神经网络操作的计算量和内存占用。