@antirez: DS4 正在 DGX Spark (GB10 / CUDA) 上运行,目前为私有分支。12 tokens/sec,此系统的内存带宽受限……
摘要
Antirez 报告了在 DGX Spark (GB10) 上对 DS4 推理进行的基准测试,指出生成速度为 12 tokens/sec,预填充性能较高,并计划在该代码库成熟后将其合并。
查看缓存全文
缓存时间: 2026/05/10 10:23
DS4 正在 DGX Spark(GB10 / CUDA)上运行,目前处于私有分支阶段。推理速度达到 12 tokens/秒,该系统内存带宽有限,为 270 GB/秒。但在预填充阶段,其性能远超 M3 Max,约为 200 t/s。我会在项目更加成熟时发布,但目前看来合并几乎已成定局。https://t.co/LVYSDQ4Hnp
相似文章
@antirez:我刚刚推送了对 DS4 后端的大规模重构,新增了 CUDA 支持和单方向激活转向。Metal 路径……
antirez 推送了对 DS4 后端的一次重大重构,加入了 CUDA 支持和单方向激活转向,同时保留了 Metal 路径。目前仅支持 M3 和 DGX Spark 硬件。
双 DGX Spark(华硕 GX10)MiniMax M2.7 实测
用户实测两台华硕 GX10(DGX Spark)运行 MiniMax-M2.7-AWQ-4bit,每块仅约 100 W,生成速度 30–40 tokens/s,彻底替代嘈杂的多 GPU 机架。
@ttasanen: 刚刚在我的 Mac Studio M3 Ultra 256GB 上运行了 @antirez 开发的 DS4,天哪,真的令人印象深刻。一个简洁、专为……
DS4 是由 antirez 开发的专业推理引擎,专为在高端 Mac 硬件上本地运行 DeepSeek V4 Flash 而设计,具有优化的 KV 缓存处理和 100 万上下文支持。
Gemma 4 26B 在单块 RTX 5090 上达到 600 Tok/s
一项基准测试显示,使用 vLLM 搭配 DFlash 投机解码,在单块 RTX 5090 上将 Gemma 4 26B 的推理速度提升至约 578 tokens/s,相比基线实现了 2.56 倍的加速。
@mitsuhiko: 而且 ds4 SSD 缓存表现非常出色。这是在服务器关机后继续一个已经处理了 63k 令牌的会话……
一名用户反馈,在恢复包含 63k 令牌的长周期 LLM 推理会话时,ds4 SSD 缓存的性能表现良好,并指出启动时间尚可接受。