我刚刚买了华硕 Ascent: Nvidia GB10 (DGX),但它比我的 Ryzen Ai Max 慢。
摘要
用户报告称,其搭载Nvidia GB10(DGX)的Asus Ascent在运行Gemma4-31B等大语言模型时,速度比Ryzen AI Max还要慢(预期应有2-4倍加速),并分享了他们的llama-cpp配置以供调试。
按理说应该快2-4倍,但我用Gemma4-31B只得到6 TK/s。我哪里做错了?
- 推理引擎:llama-cpp 最新版(2026年5月15日),通过 https://ggml.ai/dgx-spark.sh 自行编译
- 测试过的模型:Step3.5-Apex-I-Quality - DGX - 27 tk/s,AI-Max 30 tk/s
- gemma-4-31B-it-UD-Q8_K_XL - 6.19 tk/s,AI-Max 7.10 tk/s
命令:
```
llama-server --models-preset /home/dgx/models/models.ini --models-dir /home/dgx/models/ --host 0.0.0.0 --port 8080 --models-max 1 --parallel 1
```
model.ini 文件:
```
[*]
threads = 12
flash-attn = on
mlock = off
mmap = off
fit = on
warmup = on
; batch-size = 4096
; ubatch-size = 512
cache-type-k = q8_0
cache-type-v = q8_0
jinja = true
direct-io = on
cache-prompt = true
cache-reuse = 256
cache-ram = 32768
reasoning-format = auto
n-gpu-layers = 999
```
相似文章
@pupposandro:在 Strix Halo 上比 llama.cpp 快 2.5 倍。我们刚刚为 AMD Ryzen AI MAX+ 395 iGPU(gfx1151,……)发布了 DFlash + PFlash
一套新工具集(DFlash + PFlash)在 AMD Ryzen AI MAX+ 395 iGPU 上实现了比 llama.cpp 快 2.5 倍的推理速度,展示了 Qwen3.6-27B 在 128 GiB 统一内存下的显著加速效果。
双 DGX Spark(华硕 GX10)MiniMax M2.7 实测
用户实测两台华硕 GX10(DGX Spark)运行 MiniMax-M2.7-AWQ-4bit,每块仅约 100 W,生成速度 30–40 tokens/s,彻底替代嘈杂的多 GPU 机架。
@analogalok: 我刚刚在我的 RTX 4060 上用 llama.cpp + CUDA 13.2 跑了 Google 全新的 Unsloth Gemma4 12B 密集 GGUF,每秒 21 个 token…
Google 新推出的 Gemma 4 12B 是一个纯解码器 transformer,采用无编码器的多模态输入,在达到强大基准性能的同时,尺寸足够小,可以在廉价 GPU 上本地运行。它采用 Apache 2.0 许可证发布。
一台10年前的Xeon就够了
一篇博客文章,详细介绍了如何仅使用CPU和DDR3内存,在10年前的Xeon服务器上运行Gemma 4 AI模型,并使用了自定义的llama.cpp优化。
全新Google Gemma 4 12B自称性能接近26B模型——我们实测了这两款!
Google全新Gemma 4 12B模型宣称性能接近26B模型。在RTX 4090的本地测试中,26B-A4B模型更快且表现更佳,但12B模型显存占用更少,适合笔记本电脑使用。