标签
无审查版 GLM5.2 754B 参数模型(231GB GGUF)已成功部署在配备512GB内存的 Mac Studio M3 Ultra 上,实现了约3.6 tokens/s的速度。
有用户报告称,在 M3 Ultra 上本地运行 Hermes Agent(使用 DeepSeek V4 Flash 作为游戏主持人),其质量与在线版本几乎相同。
AWS为云服务获得了大量苹果M3 Ultra Mac Studio设备,而普通消费者则面临持续的缺货和有限的供应。
Antirez 报告称,DeepSeek v4 PRO 在配备 512GB 内存的 Mac Studio M3 Ultra 上使用 2 位量化运行良好,预填充速度达到 130 t/s,生成速度达到 13 t/s。
一位研究人员分享了用于 MLX 和 AI 研究的家用计算配置,包含配备 512GB 的 M3 Ultra、配备 96GB 的 RTX PRO 6000,以及用于模型移植与压力测试的配备 96GB 的 M3 Max。