@Prince_Canuma:我的 MLX 与研究家用计算平台:• M3 Ultra — 512GB(由社区与 @wai_protocol 赞助)• RTX PRO 6000 — 96GB…
摘要
一位研究人员分享了用于 MLX 和 AI 研究的家用计算配置,包含配备 512GB 的 M3 Ultra、配备 96GB 的 RTX PRO 6000,以及用于模型移植与压力测试的配备 96GB 的 M3 Max。
相似文章
2台配备 512GB 内存的 M3 Ultra Mac Studio
硬件投入约 2.5 万美元。告诉我你们希望我在这两台设备上部署什么模型,我会协助测试。目前我已通过 Exo 后端跑通了 DeepSeek v3.2 Q8 版本;当前每台设备均在运行 GLM 5.1 Q4(正在排查为何 Exo 无法加载 Q8 版本)。静候社区完成 Kimi 2.6 针对 MLX/mmap 的优化适配。
@Prince_Canuma: 关于进水情况的快速更新:M3 Ultra和Titan(RTX6000 Pro)似乎已恢复,几乎没有可见损坏……
关于硬件进水损坏修复的个人更新,展示MLX-VLM在本地RTX6000 Pro上运行Qwen3-4B-Instruct,以约300 tok/s的速度通过Zed IDE实现自动补全和git提交信息生成。
@leopardracer: https://x.com/leopardracer/status/2055341758523883631
一位用户分享了他们搭建双GPU本地AI实验室的经验,使用了RTX 4080 Super和5060 Ti,通过llama.cpp和llama-swap运行Qwen 3.6模型,以降低API成本并实现无限制的实验。
@0xSero: Minimax-M3 在 4 块 RTX Pro 6000 上运行 - 800k 上下文 - 4 路并发 (250k) - 70-120 tok/s - 2000 tok/s 预填充无缓存…
Minimax-M3 被演示在 4 块 RTX Pro 6000 GPU 上运行,具备 800k 上下文,在 4 路并发下达到 70-120 tok/s 推理速度和 2000 tok/s 预填充速度,使用 376GB VRAM 和 mxfp4 格式。
@stevibe:MiniMax M2.7 有 230B 参数,家里真能跑?我用 Unsloth 的 UD-IQ3_XXS(80 GB)在 4 套配置上实测:…
MiniMax M2.7 有 230B 参数,家里真能跑?我用 Unsloth 的 UD-IQ3_XXS(80 GB)在 4 套配置上实测:4×RTX 4090(96 GB):71.52 tok/s,首 token 延迟 1045 ms;4×RTX 5090(128 GB):120.54 tok/s,首 token 延迟 725 ms;1×RTX PRO 6000(96 GB):118.74 tok/s,首 token 延迟 765 ms;DGX