@antirez:我刚刚推送了对 DS4 后端的大规模重构,新增了 CUDA 支持和单方向激活转向。Metal 路径……
摘要
antirez 推送了对 DS4 后端的一次重大重构,加入了 CUDA 支持和单方向激活转向,同时保留了 Metal 路径。目前仅支持 M3 和 DGX Spark 硬件。
我刚刚推送了对 DS4 后端的大规模重构,新增了 CUDA 支持和单方向激活转向。Metal 路径应该不会受到影响。注意:我只支持我拥有的(或能完全访问的)硬件:所以目前只支持 M3(暂无 M5 NE)和 DGX Spark。
相似文章
@antirez: DS4 正在 DGX Spark (GB10 / CUDA) 上运行,目前为私有分支。12 tokens/sec,此系统的内存带宽受限……
Antirez 报告了在 DGX Spark (GB10) 上对 DS4 推理进行的基准测试,指出生成速度为 12 tokens/sec,预填充性能较高,并计划在该代码库成熟后将其合并。
关于 DS4 的几句话
Antirez 宣布了 DwarfStar 4 (DS4),这是一个本地AI工具,它采用非对称 2/8 位量化,在高端消费级硬件上运行 DeepSeek v4 Flash,实现接近前沿的性能。他谈到了该项目的迅速流行、未来的模型更新和分布式推理计划,以及本地AI对严肃任务的重要性。
DS4
Salvatore Sanfilippo 发布了 DS4 项目,使 DeepSeek V3(文中称为 V4)Flash 能够在 Mac Metal 硬件上运行 100 万(1M)上下文窗口,并有望支持 DGX 和 AMD 芯片。
@ttasanen: 刚刚在我的 Mac Studio M3 Ultra 256GB 上运行了 @antirez 开发的 DS4,天哪,真的令人印象深刻。一个简洁、专为……
DS4 是由 antirez 开发的专业推理引擎,专为在高端 Mac 硬件上本地运行 DeepSeek V4 Flash 而设计,具有优化的 KV 缓存处理和 100 万上下文支持。
@antirez: 致DGX Spark用户。这就是你在硬件上使用DS4得到的效果。我想发布这个以展示,尽管生成速度不快,但快速的预填充使得系统仍然非常好用。
antirez分享了一个在DGX Spark上使用DS4的演示,展示了尽管生成速度慢,但快速的预填充保持了系统的可用性。