我刚刚买了华硕 Ascent: Nvidia GB10 (DGX),但它比我的 Ryzen Ai Max 慢。

Reddit r/LocalLLaMA 新闻

摘要

用户报告称,其搭载Nvidia GB10(DGX)的Asus Ascent在运行Gemma4-31B等大语言模型时,速度比Ryzen AI Max还要慢(预期应有2-4倍加速),并分享了他们的llama-cpp配置以供调试。

按理说应该快2-4倍,但我用Gemma4-31B只得到6 TK/s。我哪里做错了? - 推理引擎:llama-cpp 最新版(2026年5月15日),通过 https://ggml.ai/dgx-spark.sh 自行编译 - 测试过的模型:Step3.5-Apex-I-Quality - DGX - 27 tk/s,AI-Max 30 tk/s - gemma-4-31B-it-UD-Q8_K_XL - 6.19 tk/s,AI-Max 7.10 tk/s 命令: ``` llama-server --models-preset /home/dgx/models/models.ini --models-dir /home/dgx/models/ --host 0.0.0.0 --port 8080 --models-max 1 --parallel 1 ``` model.ini 文件: ``` [*] threads = 12 flash-attn = on mlock = off mmap = off fit = on warmup = on ; batch-size = 4096 ; ubatch-size = 512 cache-type-k = q8_0 cache-type-v = q8_0 jinja = true direct-io = on cache-prompt = true cache-reuse = 256 cache-ram = 32768 reasoning-format = auto n-gpu-layers = 999 ```
查看原文

相似文章

Gemma 4 26B 在单块 RTX 5090 上达到 600 Tok/s

Reddit r/LocalLLaMA

一项基准测试显示,使用 vLLM 搭配 DFlash 投机解码,在单块 RTX 5090 上将 Gemma 4 26B 的推理速度提升至约 578 tokens/s,相比基线实现了 2.56 倍的加速。