@antirez: 我没想到 DeepSeek v4 PRO(非 Flash 版本)能在配备 512GB 内存的 Mac Studio M3 Ultra 上流畅运行。这是 2 位量化的……
摘要
Antirez 报告称,DeepSeek v4 PRO 在配备 512GB 内存的 Mac Studio M3 Ultra 上使用 2 位量化运行良好,预填充速度达到 130 t/s,生成速度达到 13 t/s。
查看缓存全文
缓存时间: 2026/05/17 11:32
没想到DeepSeek v4 PRO(不是Flash版)在512GB内存的Mac Studio M3 Ultra上跑得这么顺畅。这是采用与Flash版相同的DwarfStar方案的2位量化版本,GGUF文件大小433GB。预填充速度130 t/s,生成速度13 t/s。视频里预填充偏低是因为提示词较短。https://t.co/ciyx0XCSh7
相似文章
你可以在 Mac (M3 Max, 96GB) 上运行 Deepseek 4 flash
介绍如何在配备 96GB 内存的 Mac M3 Max 上,使用 Antirez 的 ds4 引擎和 SSD 流式传输运行 DeepSeek 4 flash,实现约每秒 12 token 的推理速度。
@antirez: DeepSeek v4 PRO 通过SSD流式传输在我的128GB MacBook m5 max上运行。1.6万亿参数。
DeepSeek v4 PRO,一个拥有1.6万亿参数的模型,通过SSD流式传输在128GB MacBook m5 max上运行,展示了本地运行大规模模型的能力。
@Snixtp: DeepSeek V4 Flash 能否在单张 RTX Pro 6000 上运行?
antirez 已发布 DeepSeek V4 Flash 的 GGUF 量化版本,使该模型能够在单张 GPU(如 RTX Pro 6000)以及 128GB 以上内存的 Mac 上运行。量化文件已上传至 Hugging Face,并附有 DS4 推理引擎的使用说明。
@ttasanen: 刚刚在我的 Mac Studio M3 Ultra 256GB 上运行了 @antirez 开发的 DS4,天哪,真的令人印象深刻。一个简洁、专为……
DS4 是由 antirez 开发的专业推理引擎,专为在高端 Mac 硬件上本地运行 DeepSeek V4 Flash 而设计,具有优化的 KV 缓存处理和 100 万上下文支持。
后续:DeepSeek V4 Flash 在双 RTX PRO 6000 上完成真实编程任务的速度快于 Sonnet 和 Opus,质量与 Sonnet 相当
DeepSeek V4 Flash 在双 RTX PRO 6000 GPU 上完成真实编程任务的速度快于 Anthropic 的 Sonnet 和 Opus 模型,同时达到与 Sonnet 相近的质量。