在Strix Halo、RTX 3090和RTX 5070上运行相同模型，只为获得自己的数据

Reddit r/LocalLLaMA 2026/05/16 23:57 新闻

benchmarking inference hardware-comparison memory-bandwidth open-weight-models gpu-comparison

摘要

作者在Strix Halo、RTX 3090和RTX 5070上使用了多个后端，进行了55次推理基准测试。结果揭示，显存带宽主导解码速度，RTX 5070在小模型上击败RTX 3090，而推理模型因隐藏的推理内容看起来慢约5倍。

我一直看到这些模型的推理速度宣称，想知道在我实际拥有的硬件上进行同类比较。于是我构建了一个测试框架和一个公开页面，将每次运行结果导出为YAML。数据集：55次运行、三台设备、五个后端（rocm、vulkan、cpu、cuda、vllm-cuda），模型从0.35B（LFM2.5）到35B-A3B（Qwen3.5 MoE）。工作负载：短提示聊天、长上下文RAG、长输出代码生成，以及并发数为1和4的代理场景。每次预热后测量三次迭代，温度设为0，每次运行前验证VRAM是否足够。从数据中看到几个规律：**解码速度主要取决于内存带宽。** RTX 5070（12 GiB GDDR7，Vulkan）在所有可装入12 GiB的模型上确实击败了RTX 3090（24 GiB GDDR6X，CUDA）：Gemma-3-4b聊天：5070 = 156.6 vs 3090 = 142.0 tok/s；Gemma-4-E4B聊天：5070 = 124.3 vs 3090 = 118.4 tok/s；LFM2-8B-A1B聊天：5070 = 336.1 vs 3090 = 318.7 tok/s。**在14-31B范围内，3090明显胜出**，因为模型能装入24 GiB但装不进12 GiB：Gemma-4-26B-A4B聊天：3090 = 100.5 | Strix ROCm = 43.7 | Strix Vulkan = 47.7 tok/s；Qwen3.6-27B聊天：3090 = 21.1 | Strix ROCm = 11.2 | Strix Vulkan = 11.6 tok/s。**在相同硬件/模型上，Strix Vulkan通常比Strix ROCm稍快一点。** 我看到的最大差距是Gemma-4-26B-A4B提高了9%（43.7 → 47.7）。有些模型基本持平。可能是捆绑的ROCm版本上gfx1151内核调优差距；尚未深入研究。**3090上Qwen3.6-27B聊天的量化成本：** Q2_K = 24.0；Q3_K_M = 20.5；Q4_K_M = 21.1；Q5_K_M = 18.6；Q6_K = 15.3 tok/s。Q2到Q6的范围是1.6倍。Q4是最佳点。Q2以质量损失换取约14%的提升；Q6为质量提升付出约28%的代价。令人惊讶的是曲线并不更陡。**推理模型看起来比实际慢约5倍**，如果你只看输出tok/s。Qwen3.5/3.6将大部分输出通过隐藏的`reasoning_content`通道传输，该通道计入解码速率，但不属于用户可见的回答。在选择编码助手时值得注意。**Strix上的CPU并非毫无用处。** 得益于统一内存和活跃参数路由，Gemma-4-26B-A4B MoE在纯CPU上运行约5-9 tok/s。不算快，但对于不需要GPU的批量工作来说是可用的。网站包含每次运行以及其余模型，如果你想深入了解：https://calebcoffie.com/benchmarks。方法论和其余文章：https://calebcoffie.com/blog/introducing-open-weight-model-benchmarks。我知道我尚未完成的事项：Strix上的vLLM（lemonade的后端就绪超时导致FP8自动调优失败；修复已排队）以及70-130B的Strix独占模型（v2已排队）。我没有4090/5080/5090，因此这些未被展示；文章中有粗略的带宽外推。并非试图取代现有基准测试网站。只是想为自己的设置提供另一个数据点，并认为同样的设备组合可能对其他人有用。如果有人发现方法论中的缺陷，乐意接受指正。

查看原文

在Strix Halo、RTX 3090和RTX 5070上运行相同模型，只为获得自己的数据

相似文章

Nvidia RTX 3090 与 Intel Arc Pro B70 llama.cpp 基准对比

[基准测试] 5090RTX：提示解析、Token 生成与功耗等级

Strix Halo ROCm + MTP 笔记 (2026年5月)

RTX 5000 PRO (48GB) 到货了，比我想象的要好。

Strix Halo上的llama.cpp多令牌预测（MTP）基准测试：27B模型大幅提速，35B模型表现不一

提交意见反馈