我刚刚买了华硕 Ascent: Nvidia GB10 (DGX),但它比我的 Ryzen Ai Max 慢。
摘要
用户报告称,其搭载Nvidia GB10(DGX)的Asus Ascent在运行Gemma4-31B等大语言模型时,速度比Ryzen AI Max还要慢(预期应有2-4倍加速),并分享了他们的llama-cpp配置以供调试。
按理说应该快2-4倍,但我用Gemma4-31B只得到6 TK/s。我哪里做错了?
- 推理引擎:llama-cpp 最新版(2026年5月15日),通过 https://ggml.ai/dgx-spark.sh 自行编译
- 测试过的模型:Step3.5-Apex-I-Quality - DGX - 27 tk/s,AI-Max 30 tk/s
- gemma-4-31B-it-UD-Q8_K_XL - 6.19 tk/s,AI-Max 7.10 tk/s
命令:
```
llama-server --models-preset /home/dgx/models/models.ini --models-dir /home/dgx/models/ --host 0.0.0.0 --port 8080 --models-max 1 --parallel 1
```
model.ini 文件:
```
[*]
threads = 12
flash-attn = on
mlock = off
mmap = off
fit = on
warmup = on
; batch-size = 4096
; ubatch-size = 512
cache-type-k = q8_0
cache-type-v = q8_0
jinja = true
direct-io = on
cache-prompt = true
cache-reuse = 256
cache-ram = 32768
reasoning-format = auto
n-gpu-layers = 999
```
相似文章
@pupposandro:在 Strix Halo 上比 llama.cpp 快 2.5 倍。我们刚刚为 AMD Ryzen AI MAX+ 395 iGPU(gfx1151,……)发布了 DFlash + PFlash
一套新工具集(DFlash + PFlash)在 AMD Ryzen AI MAX+ 395 iGPU 上实现了比 llama.cpp 快 2.5 倍的推理速度,展示了 Qwen3.6-27B 在 128 GiB 统一内存下的显著加速效果。
双 DGX Spark(华硕 GX10)MiniMax M2.7 实测
用户实测两台华硕 GX10(DGX Spark)运行 MiniMax-M2.7-AWQ-4bit,每块仅约 100 W,生成速度 30–40 tokens/s,彻底替代嘈杂的多 GPU 机架。
Nvidia RTX 3090 与 Intel Arc Pro B70 llama.cpp 基准对比
社区实测显示,在 llama.cpp 下 Intel Arc Pro B70 的提示词处理平均慢约 71%,Token 生成平均慢约 54%;同一张卡 SYCL 后端有时比 Vulkan 更快。
Gemma 4 26B 在单块 RTX 5090 上达到 600 Tok/s
一项基准测试显示,使用 vLLM 搭配 DFlash 投机解码,在单块 RTX 5090 上将 Gemma 4 26B 的推理速度提升至约 578 tokens/s,相比基线实现了 2.56 倍的加速。
@antirez: DS4 正在 DGX Spark (GB10 / CUDA) 上运行,目前为私有分支。12 tokens/sec,此系统的内存带宽受限……
Antirez 报告了在 DGX Spark (GB10) 上对 DS4 推理进行的基准测试,指出生成速度为 12 tokens/sec,预填充性能较高,并计划在该代码库成熟后将其合并。