在Strix Halo、RTX 3090和RTX 5070上运行相同模型,只为获得自己的数据
摘要
作者在Strix Halo、RTX 3090和RTX 5070上使用了多个后端,进行了55次推理基准测试。结果揭示,显存带宽主导解码速度,RTX 5070在小模型上击败RTX 3090,而推理模型因隐藏的推理内容看起来慢约5倍。
我一直看到这些模型的推理速度宣称,想知道在我实际拥有的硬件上进行同类比较。于是我构建了一个测试框架和一个公开页面,将每次运行结果导出为YAML。数据集:55次运行、三台设备、五个后端(rocm、vulkan、cpu、cuda、vllm-cuda),模型从0.35B(LFM2.5)到35B-A3B(Qwen3.5 MoE)。工作负载:短提示聊天、长上下文RAG、长输出代码生成,以及并发数为1和4的代理场景。每次预热后测量三次迭代,温度设为0,每次运行前验证VRAM是否足够。从数据中看到几个规律:**解码速度主要取决于内存带宽。** RTX 5070(12 GiB GDDR7,Vulkan)在所有可装入12 GiB的模型上确实击败了RTX 3090(24 GiB GDDR6X,CUDA):Gemma-3-4b聊天:5070 = 156.6 vs 3090 = 142.0 tok/s;Gemma-4-E4B聊天:5070 = 124.3 vs 3090 = 118.4 tok/s;LFM2-8B-A1B聊天:5070 = 336.1 vs 3090 = 318.7 tok/s。**在14-31B范围内,3090明显胜出**,因为模型能装入24 GiB但装不进12 GiB:Gemma-4-26B-A4B聊天:3090 = 100.5 | Strix ROCm = 43.7 | Strix Vulkan = 47.7 tok/s;Qwen3.6-27B聊天:3090 = 21.1 | Strix ROCm = 11.2 | Strix Vulkan = 11.6 tok/s。**在相同硬件/模型上,Strix Vulkan通常比Strix ROCm稍快一点。** 我看到的最大差距是Gemma-4-26B-A4B提高了9%(43.7 → 47.7)。有些模型基本持平。可能是捆绑的ROCm版本上gfx1151内核调优差距;尚未深入研究。**3090上Qwen3.6-27B聊天的量化成本:** Q2_K = 24.0;Q3_K_M = 20.5;Q4_K_M = 21.1;Q5_K_M = 18.6;Q6_K = 15.3 tok/s。Q2到Q6的范围是1.6倍。Q4是最佳点。Q2以质量损失换取约14%的提升;Q6为质量提升付出约28%的代价。令人惊讶的是曲线并不更陡。**推理模型看起来比实际慢约5倍**,如果你只看输出tok/s。Qwen3.5/3.6将大部分输出通过隐藏的`reasoning_content`通道传输,该通道计入解码速率,但不属于用户可见的回答。在选择编码助手时值得注意。**Strix上的CPU并非毫无用处。** 得益于统一内存和活跃参数路由,Gemma-4-26B-A4B MoE在纯CPU上运行约5-9 tok/s。不算快,但对于不需要GPU的批量工作来说是可用的。网站包含每次运行以及其余模型,如果你想深入了解:https://calebcoffie.com/benchmarks。方法论和其余文章:https://calebcoffie.com/blog/introducing-open-weight-model-benchmarks。我知道我尚未完成的事项:Strix上的vLLM(lemonade的后端就绪超时导致FP8自动调优失败;修复已排队)以及70-130B的Strix独占模型(v2已排队)。我没有4090/5080/5090,因此这些未被展示;文章中有粗略的带宽外推。并非试图取代现有基准测试网站。只是想为自己的设置提供另一个数据点,并认为同样的设备组合可能对其他人有用。如果有人发现方法论中的缺陷,乐意接受指正。
相似文章
Nvidia RTX 3090 与 Intel Arc Pro B70 llama.cpp 基准对比
社区实测显示,在 llama.cpp 下 Intel Arc Pro B70 的提示词处理平均慢约 71%,Token 生成平均慢约 54%;同一张卡 SYCL 后端有时比 Vulkan 更快。
[基准测试] 5090RTX:提示解析、Token 生成与功耗等级
一位用户使用 llama.cpp 对 Nvidia 5090 RTX GPU 进行 LLM 推理基准测试,测量了不同功耗水平下的提示处理和 token 生成情况,发现提示处理对功耗限制更为敏感,而 token 生成相对不敏感,并指出了与 4090 RTX 的差异。
Strix Halo ROCm + MTP 笔记 (2026年5月)
技术基准测试,比较 ROCm 和 Vulkan 后端在 Strix Halo 硬件上运行 LLM 推理的性能,MTP 合并到 llama.cpp 之后,结果显示 ROCm 在全上下文时性能严重下降,而 Vulkan 保持稳定。
RTX 5000 PRO (48GB) 到货了,比我想象的要好。
一位用户分享了购买和设置 RTX 5000 Pro (48GB) GPU 用于本地 LLM 推理的体验,在使用 Qwen3.6-27B-FP8 时获得了令人印象深刻的提示处理速度和 token 生成,并将其与 Mac Studio 和 RTX 5090 等替代方案进行了比较。
Strix Halo上的llama.cpp多令牌预测(MTP)基准测试:27B模型大幅提速,35B模型表现不一
在Strix Halo上对llama.cpp中的多令牌预测(MTP)进行的基准测试显示,长上下文聊天场景下27B Qwen模型显著加速,而35B模型则表现不一。