Strix Halo 用户：一个被拒绝的 PR 可使 MOE 的 PP 速度提升高达 30%。

Reddit r/LocalLLaMA 2026/05/26 07:50 工具

strix-halo llama-cpp performance moe rocm amd pull-request

摘要

一个针对 llama.cpp 的被拒绝的 PR 可在 AMD Strix Halo 硬件上为 MOE 模型提供高达 30% 的提示处理速度提升，但增益会随上下文长度增加而递减。

这是 pedapudi 提交的 PR。https://github.com/ggml-org/llama.cpp/pull/21344 该合并请求已被拒绝，因此不会进入 llama.cpp 主分支。改动非常小，我直接将其应用到当前版本的 llama.cpp 中。更多信息请查阅该 PR。它仅适用于 MOE 模型。此外，在低上下文长度时提升最大，随着上下文增加，增益递减。Pedapudi 在 PR 中解释了原因。以下是一些数据。效果确实很好。将代码应用到当前 llama.cpp 版本所花费的那点时间非常值得。 main ggml_cuda_init: found 1 ROCm devices (Total VRAM: 128000 MiB): Device 0: AMD Radeon Graphics, gfx1151 (0x1151), VMM: no, Wave Size: 32, VRAM: 128000 MiB | model | size | params | backend | ngl | mmap | test | t/s | | ------------------------------ | ---------: | ---------: | ---------- | --: | ---: | --------------: | -------------------: | | qwen35moe 35B.A3B Q4_K - Small | 19.45 GiB | 34.66 B | ROCm | 99 | 0 | pp512 | 1106.11 ± 8.60 | | qwen35moe 35B.A3B Q4_K - Small | 19.45 GiB | 34.66 B | ROCm | 99 | 0 | pp512 @ d10000 | 755.79 ± 2.58 | | qwen35moe 35B.A3B Q4_K - Small | 19.45 GiB | 34.66 B | ROCm | 99 | 0 | pp512 @ d20000 | 587.61 ± 1.52 | | qwen35moe 35B.A3B Q4_K - Small | 19.45 GiB | 34.66 B | ROCm | 99 | 0 | pp512 @ d40000 | 415.09 ± 2.45 | | qwen35moe 35B.A3B Q4_K - Small | 19.45 GiB | 34.66 B | ROCm | 99 | 0 | pp512 @ d60000 | 316.89 ± 2.35 | PR ggml_cuda_init: found 1 ROCm devices (Total VRAM: 128000 MiB): Device 0: AMD Radeon Graphics, gfx1151 (0x1151), VMM: no, Wave Size: 32, VRAM: 128000 MiB | model | size | params | backend | ngl | mmap | test | t/s | | ------------------------------ | ---------: | ---------: | ---------- | --: | ---: | --------------: | -------------------: | | qwen35moe 35B.A3B Q4_K - Small | 19.45 GiB | 34.66 B | ROCm | 99 | 0 | pp512 | 1447.62 ± 7.10 | **+31%** | | qwen35moe 35B.A3B Q4_K - Small | 19.45 GiB | 34.66 B | ROCm | 99 | 0 | pp512 @ d10000 | 905.60 ± 3.53 | **+20%** | | qwen35moe 35B.A3B Q4_K - Small | 19.45 GiB | 34.66 B | ROCm | 99 | 0 | pp512 @ d20000 | 685.23 ± 3.03 | **+16%** | | qwen35moe 35B.A3B Q4_K - Small | 19.45 GiB | 34.66 B | ROCm | 99 | 0 | pp512 @ d40000 | 459.42 ± 2.70 | **+11%** | | qwen35moe 35B.A3B Q4_K - Small | 19.45 GiB | 34.66 B | ROCm | 99 | 0 | pp512 @ d60000 | 342.41 ± 2.43 | **+8%** |

查看原文

Strix Halo 用户：一个被拒绝的 PR 可使 MOE 的 PP 速度提升高达 30%。

相似文章

Strix Halo上的llama.cpp多令牌预测（MTP）基准测试：27B模型大幅提速，35B模型表现不一

Strix Halo ROCm + MTP 笔记 (2026年5月)

AMD Strix Halo 上的 Luce DFlash + PFlash：Qwen3.6-27B 解码速度提升 2.23 倍，预填充速度提升 3.05 倍（相较于 llama.cpp HIP）

@pupposandro：在 Strix Halo 上比 llama.cpp 快 2.5 倍。我们刚刚为 AMD Ryzen AI MAX+ 395 iGPU（gfx1151，……）发布了 DFlash + PFlash

HIPfire 是否值得用于 Strix Halo？

提交意见反馈