@antirez: DS4 正在 DGX Spark (GB10 / CUDA) 上运行，目前为私有分支。12 tokens/sec，此系统的内存带宽受限……

X AI KOLs Timeline 2026/05/10 07:49 新闻

摘要

Antirez 报告了在 DGX Spark (GB10) 上对 DS4 推理进行的基准测试，指出生成速度为 12 tokens/sec，预填充性能较高，并计划在该代码库成熟后将其合并。

DS4 正在 DGX Spark (GB10 / CUDA) 上运行，目前为私有分支。速度为 12 tokens/sec，此系统中的内存带宽受限，仅为 270GB/sec。但预填充性能远高于 M3 Max，约为 200 t/s。我会在它更成熟时发布，但几乎可以肯定它将被合并。 https://t.co/LVYSDQ4Hnp

查看原文

查看缓存全文

缓存时间: 2026/05/10 10:23

DS4 正在 DGX Spark（GB10 / CUDA）上运行，目前处于私有分支阶段。推理速度达到 12 tokens/秒，该系统内存带宽有限，为 270 GB/秒。但在预填充阶段，其性能远超 M3 Max，约为 200 t/s。我会在项目更加成熟时发布，但目前看来合并几乎已成定局。https://t.co/LVYSDQ4Hnp

@antirez: DS4 正在 DGX Spark (GB10 / CUDA) 上运行，目前为私有分支。12 tokens/sec，此系统的内存带宽受限……

相似文章

@antirez: 致DGX Spark用户。这就是你在硬件上使用DS4得到的效果。我想发布这个以展示，尽管生成速度不快，但快速的预填充使得系统仍然非常好用。

@onusoz: 16路并行 Gemma-4-26B-A4B-NVFP4 运行，每路18输出 token/s，合计300 tok/s 🫪 一台配备128GB统一内存的DGX Spark…

Deepseek V4 flash 在 DGX Spark 上的性能

@antirez：我刚刚推送了对 DS4 后端的大规模重构，新增了 CUDA 支持和单方向激活转向。Metal 路径……

双 DGX Spark（华硕 GX10）MiniMax M2.7 实测

提交意见反馈