@antirez: DS4 正在 DGX Spark (GB10 / CUDA) 上运行,目前为私有分支。12 tokens/sec,此系统的内存带宽受限……
摘要
Antirez 报告了在 DGX Spark (GB10) 上对 DS4 推理进行的基准测试,指出生成速度为 12 tokens/sec,预填充性能较高,并计划在该代码库成熟后将其合并。
查看缓存全文
缓存时间: 2026/05/10 10:23
DS4 正在 DGX Spark(GB10 / CUDA)上运行,目前处于私有分支阶段。推理速度达到 12 tokens/秒,该系统内存带宽有限,为 270 GB/秒。但在预填充阶段,其性能远超 M3 Max,约为 200 t/s。我会在项目更加成熟时发布,但目前看来合并几乎已成定局。https://t.co/LVYSDQ4Hnp
相似文章
@antirez: 致DGX Spark用户。这就是你在硬件上使用DS4得到的效果。我想发布这个以展示,尽管生成速度不快,但快速的预填充使得系统仍然非常好用。
antirez分享了一个在DGX Spark上使用DS4的演示,展示了尽管生成速度慢,但快速的预填充保持了系统的可用性。
@onusoz: 16路并行 Gemma-4-26B-A4B-NVFP4 运行,每路18输出 token/s,合计300 tok/s 一台配备128GB统一内存的DGX Spark…
@onusoz 展示了在单一 DGX Spark(128GB统一内存)上运行16个并行实例的 NVIDIA 量化版 Gemma-4-26B-A4B-NVFP4 模型,合计达到300 tok/s,展示高并发能力且未使用 flashinfer。
Deepseek V4 flash 在 DGX Spark 上的性能
一位 Reddit 用户分享了在双华硕 GX10 DGX Spark 配置上运行 DeepSeek V4 Flash 的经验,详细介绍了性能指标、配置和功耗,并提供了不同上下文长度下的吞吐量基准测试结果。
@antirez:我刚刚推送了对 DS4 后端的大规模重构,新增了 CUDA 支持和单方向激活转向。Metal 路径……
antirez 推送了对 DS4 后端的一次重大重构,加入了 CUDA 支持和单方向激活转向,同时保留了 Metal 路径。目前仅支持 M3 和 DGX Spark 硬件。
双 DGX Spark(华硕 GX10)MiniMax M2.7 实测
用户实测两台华硕 GX10(DGX Spark)运行 MiniMax-M2.7-AWQ-4bit,每块仅约 100 W,生成速度 30–40 tokens/s,彻底替代嘈杂的多 GPU 机架。