llama.cpp b9095 发布!支持双 Blackwell PCIe 显卡无需 NCCL 的张量并行
摘要
llama.cpp b9095 版本引入了针对双 Blackwell PCIe GPU 的免 NCCL 张量并行功能,使得在不依赖 NCCL 的情况下也能实现高效的多 GPU 推理。
b9095 终于让 -sm tensor 功能在双消费级 Blackwell PCIe GPU 上无需 NCCL 即可正常工作。如果你使用的是双 Blackwell GPU,这可能会带来显著的提升。我会在第一时间分享基于 2 张 RTX 5060 Ti 的测试结果。
相似文章
RTX Pro 4500 Blackwell - Qwen 3.6 27B?
一位开发者分享了在搭载 NVIDIA RTX Pro 4500 Blackwell 显卡的服务器上,使用 llama.cpp 运行 Qwen3.6-27B 模型的本地推理基准测试数据及 systemd 配置。该帖文征集了提升吞吐量的优化建议,并探讨了更大模型的潜在应用场景。
@leftcurvedev_: 任何拥有8GB或12GB显存配置的用户都需要明白,“-ncmoe”是在llama.cpp上提升性能的关键标志…
解释了llama.cpp中的-ncmoe标志如何通过将部分专家层卸载到CPU+内存,在有限显存(8-12GB)上提升MoE模型(如Qwen3.6 35B A3B)的性能,基准测试显示在RTX 3070Ti上可实现高达5倍的加速。
ggml-cpu:pl752 提交的 x86 与通用 CPU q1_0 点积优化(后续)· Pull Request #21636 · ggml-org/llama.cpp
该 PR 为 ggml-cpu 加入针对 x86 及通用 CPU 优化的 q1_0 点积内核,提升量化 LLM 推理速度。
Intel LLM-Scaler vllm-0.14.0-b8.2 发布,正式支持 Arc Pro B70
Intel LLM-Scaler vllm-0.14.0-b8.2 新增对 Arc Pro B70 GPU 的官方支持,可在 Battlemage 硬件上基于 Docker 运行大模型推理。
Block-sparse GPU kernels
OpenAI 发布 block-sparse GPU kernels,这是一款用于在 GPU 上进行高效稀疏矩阵乘法的工具,可以减少神经网络操作的计算量和内存占用。