2台配备 512GB 内存的 M3 Ultra Mac Studio

Reddit r/LocalLLaMA 2026/04/21 01:58 新闻

local-inference apple-silicon llm-inference open-source hardware distributed-inference

摘要

硬件投入约 2.5 万美元。告诉我你们希望我在这两台设备上部署什么模型，我会协助测试。目前我已通过 Exo 后端跑通了 DeepSeek v3.2 Q8 版本；当前每台设备均在运行 GLM 5.1 Q4（正在排查为何 Exo 无法加载 Q8 版本）。静候社区完成 Kimi 2.6 针对 MLX/mmap 的优化适配。

查看原文

相似文章

@Prince_Canuma：我的 MLX 与研究家用计算平台：• M3 Ultra — 512GB（由社区与 @wai_protocol 赞助）• RTX PRO 6000 — 96GB…

X AI KOLs Timeline

一位研究人员分享了用于 MLX 和 AI 研究的家用计算配置，包含配备 512GB 的 M3 Ultra、配备 96GB 的 RTX PRO 6000，以及用于模型移植与压力测试的配备 96GB 的 M3 Max。

@songjunkr：分享我的个人本地LLM配置：设备：MacStudio M2 Ultra 64GB，加载模型：SuperQwen3.6 35b mlx 4bit…

X AI KOLs Timeline

一位用户展示了在MacStudio M2 Ultra 64GB上运行的个人本地LLM栈，组合了SuperQwen3.6-35b-mlx-4bit、Ernie Image Turbo及多款辅助模型，用于编程与聊天。

有人在32GB Mac上使用opencode、claude code或类似工具，通过Qwen3.6-35B-A3B-UD-Q4_K_M实际完成编码工作吗？

Reddit r/LocalLLaMA

我在一台配备32GB RAM的M2 Macbook Pro上运行Qwen3.6-35B-A3B-UD-Q4_K_M。我使用的是相当新版本的llama.cpp和opencode。为了避免llama-server因内存耗尽而直接崩溃，我必须将上下文窗口设置为32768个token。这一点后来被证明很重要。作为一次希望能有些参考价值的测试，我给opcode布置了一个之前Claude Code配合Opus 4.7能够完成的任务。项目不算大，但任务涉及深入挖掘应用程序的前后端，并找出一个连我（作为原始开发者，在AI之前）都没有一眼看出的问题。

我在 MacBook Air M5 上对 21 款本地大模型进行了代码质量与速度的性能评测

Reddit r/LocalLLaMA

一位开发者在 MacBook Air M5 上使用 HumanEval+ 对 21 款本地大模型进行了基准测试，发现 Qwen 3.6 35B-A3B (MoE) 以 89.6% 的得分和 16.9 tok/s 的速度位居榜首，而 Qwen 2.5 Coder 7B 仅需 4.5 GB 内存即可达到 84.2% 的性能，拥有最佳的内存性价比。值得注意的是，Gemma 4 系列的表现远低于预期（31B 版本仅得 31.1%），这可能是受 Q4_K_M 量化策略的影响。

为本地运行大语言模型挑选 Mac Mini——你实际会买哪款？

Reddit r/LocalLLaMA

一篇社区讨论帖，征求关于购买哪种 Mac Mini 配置（M4、M2 Pro 或 M1 Max）以配合 Ollama 和编程助手运行本地大语言模型的建议；由于传闻 M5 即将发布且当前存在供应短缺，使得选购决策变得复杂。

相似文章

@Prince_Canuma：我的 MLX 与研究家用计算平台：• M3 Ultra — 512GB（由社区与 @wai_protocol 赞助）• RTX PRO 6000 — 96GB…

@songjunkr：分享我的个人本地LLM配置：设备：MacStudio M2 Ultra 64GB，加载模型：SuperQwen3.6 35b mlx 4bit…

有人在32GB Mac上使用opencode、claude code或类似工具，通过Qwen3.6-35B-A3B-UD-Q4_K_M实际完成编码工作吗？

我在 MacBook Air M5 上对 21 款本地大模型进行了代码质量与速度的性能评测

为本地运行大语言模型挑选 Mac Mini——你实际会买哪款？

提交意见反馈