再加一张GPU就获得近乎线性的扩展？有点奇怪

Reddit r/LocalLLaMA 2026/06/08 08:26 新闻

gpu-scaling inference-benchmark qwen3 tensor-parallelism decode-tps 3090

摘要

一位用户报告称，在使用Qwen模型进行推理时，添加第二张RTX 3090后实现了近乎线性的性能扩展，在没有NVLink的情况下，解码TPS提升了约1.8倍。

单流基准测试 (club-3090) 模型: qwen3.6-27b-autoround-int4 **之前:** 1x3090 \*他们针对单张3090的默认脚本方案'\*s *(4位量化与4位KV缓存, mtp=2)* NARRATIVE decode\_TPS: 平均值 = **53** 标准差 = **0.6** CODE decode\_TPS: 平均值 = **62** 标准差= **1.4** **之后:** 2x3090 *他们针对双3090的默认脚本方案 (4位量化与8位KV缓存, mpt=3)* NARRATIVE decode\_TPS: 平均值= **94** 标准差= **1.3** CODE decode\_TPS: 平均值= **120** 标准差= **2.1** 这是在无NVLink的情况下运行的，主板为8x/8x，不知为何P2P已自动启用（无需驱动破解），张量并行度 = 2 我真的很惊讶，性能几乎实现了线性扩展。在Agent模式（VSCode）下编辑大型代码文件时，我仍然遇到奇怪的解析错误（但和之前不同），强制模型使用CLI编辑工具比VSCode的Agent模式可靠得多。我很可能会转而使用他们的8位权重模型方案。

查看原文

再加一张GPU就获得近乎线性的扩展？有点奇怪

相似文章

在 2x3090 NVLINK 上对 Qwen 3.6 27B MTP 进行基准测试

@rumgewieselt：现在变得疯狂了……三块 1080 Ti（Pascal架构，33GB VRAM）Qwen 3.6 27B MTP 搭配 196K TurboQuant，持续 ~28-30 t/s

RTX Pro 4500 Blackwell 性能实测

@leopardracer: https://x.com/leopardracer/status/2055341758523883631

我意外地用一条隐藏的PCIe 2.0 x4插槽削弱了4x RTX 3090 LLM设备的性能，修复后使Mistral 128B的性能翻倍。

提交意见反馈