再加一张GPU就获得近乎线性的扩展?有点奇怪
摘要
一位用户报告称,在使用Qwen模型进行推理时,添加第二张RTX 3090后实现了近乎线性的性能扩展,在没有NVLink的情况下,解码TPS提升了约1.8倍。
单流基准测试 (club-3090) 模型: qwen3.6-27b-autoround-int4 **之前:** 1x3090 \*他们针对单张3090的默认脚本方案'\*s *(4位量化与4位KV缓存, mtp=2)* NARRATIVE decode\_TPS: 平均值 = **53** 标准差 = **0.6** CODE decode\_TPS: 平均值 = **62** 标准差= **1.4** **之后:** 2x3090 *他们针对双3090的默认脚本方案 (4位量化与8位KV缓存, mpt=3)* NARRATIVE decode\_TPS: 平均值= **94** 标准差= **1.3** CODE decode\_TPS: 平均值= **120** 标准差= **2.1** 这是在无NVLink的情况下运行的,主板为8x/8x,不知为何P2P已自动启用(无需驱动破解),张量并行度 = 2 我真的很惊讶,性能几乎实现了线性扩展。在Agent模式(VSCode)下编辑大型代码文件时,我仍然遇到奇怪的解析错误(但和之前不同),强制模型使用CLI编辑工具比VSCode的Agent模式可靠得多。我很可能会转而使用他们的8位权重模型方案。
相似文章
在 2x3090 NVLINK 上对 Qwen 3.6 27B MTP 进行基准测试
对 Qwen 3.6 27B MTP 在 4 张 RTX 3090 GPU 上的基准分析表明,基于 NVLink 的张量并行相较于 PCIe 配置可实现显著的吞吐量提升(最高达 +53%)。
@rumgewieselt:现在变得疯狂了……三块 1080 Ti(Pascal架构,33GB VRAM)Qwen 3.6 27B MTP 搭配 196K TurboQuant,持续 ~28-30 t/s
一位用户成功在三个 GTX 1080 Ti GPU 上对 27B 参数的 Qwen 模型进行本地推理,通过 TurboQuant 优化达到了约 28-30 tokens/秒的速度。
RTX Pro 4500 Blackwell 性能实测
一位用户分享了将 Nvidia RTX Pro 4500 Blackwell 32GB GPU 与 RTX 5060 Ti 16GB 进行 AI 推理性能对比的基准测试结果,显示根据模型大小和量化水平,速度提升了 1.6 到 6 倍。
@leopardracer: https://x.com/leopardracer/status/2055341758523883631
一位用户分享了他们搭建双GPU本地AI实验室的经验,使用了RTX 4080 Super和5060 Ti,通过llama.cpp和llama-swap运行Qwen 3.6模型,以降低API成本并实现无限制的实验。
我意外地用一条隐藏的PCIe 2.0 x4插槽削弱了4x RTX 3090 LLM设备的性能,修复后使Mistral 128B的性能翻倍。
用户发现,Threadripper 工作站主板上一处隐藏的 PCIe 2.0 x4 电气限制导致四块 RTX 3090 中的一块性能受限,从而影响了多 GPU 大语言模型推理性能。通过调整插槽布局并切换至张量分裂模式,Mistral 128B 的吞吐量从约 11 tok/s 翻倍至约 24.7 tok/s。