@antirez: DS4 正在 DGX Spark (GB10 / CUDA) 上运行,目前为私有分支。12 tokens/sec,此系统的内存带宽受限……

X AI KOLs Timeline 新闻

摘要

Antirez 报告了在 DGX Spark (GB10) 上对 DS4 推理进行的基准测试,指出生成速度为 12 tokens/sec,预填充性能较高,并计划在该代码库成熟后将其合并。

DS4 正在 DGX Spark (GB10 / CUDA) 上运行,目前为私有分支。速度为 12 tokens/sec,此系统中的内存带宽受限,仅为 270GB/sec。但预填充性能远高于 M3 Max,约为 200 t/s。我会在它更成熟时发布,但几乎可以肯定它将被合并。 https://t.co/LVYSDQ4Hnp
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/10 10:23

DS4 正在 DGX Spark(GB10 / CUDA)上运行,目前处于私有分支阶段。推理速度达到 12 tokens/秒,该系统内存带宽有限,为 270 GB/秒。但在预填充阶段,其性能远超 M3 Max,约为 200 t/s。我会在项目更加成熟时发布,但目前看来合并几乎已成定局。https://t.co/LVYSDQ4Hnp

相似文章

Gemma 4 26B 在单块 RTX 5090 上达到 600 Tok/s

Reddit r/LocalLLaMA

一项基准测试显示,使用 vLLM 搭配 DFlash 投机解码,在单块 RTX 5090 上将 Gemma 4 26B 的推理速度提升至约 578 tokens/s,相比基线实现了 2.56 倍的加速。