@songjunkr:分享我的个人本地LLM配置:设备:MacStudio M2 Ultra 64GB,加载模型:SuperQwen3.6 35b mlx 4bit…
摘要
一位用户展示了在MacStudio M2 Ultra 64GB上运行的个人本地LLM栈,组合了SuperQwen3.6-35b-mlx-4bit、Ernie Image Turbo及多款辅助模型,用于编程与聊天。
查看缓存全文
缓存时间: 2026/04/21 10:32
分享我的本地大模型个人配置:
设备:Mac Studio M2 Ultra 64 GB
已加载模型
- SuperQwen3.6 35B MLX 4bit(90 tok/s)
- Ernie Image Turbo(文生图模型)
Hermes Agent + MLX-LM + GPT Codex(编程)
Gemini(对话、图像)
相似文章
2台配备 512GB 内存的 M3 Ultra Mac Studio
硬件投入约 2.5 万美元。告诉我你们希望我在这两台设备上部署什么模型,我会协助测试。目前我已通过 Exo 后端跑通了 DeepSeek v3.2 Q8 版本;当前每台设备均在运行 GLM 5.1 Q4(正在排查为何 Exo 无法加载 Q8 版本)。静候社区完成 Kimi 2.6 针对 MLX/mmap 的优化适配。
@jun_song: 最佳中端本地LLM硬件:DGX Spark 对比 Mac Studio M5 Max 128GB(即将推出)价格:4700美元(二手或OEM更便宜)…
DGX Spark与Mac Studio M5 Max在本地运行LLM的对比,重点比较了解码速度、预填充性能、内存、功耗和成本。Mac在解码带宽上胜出,但DGX在预填充方面更快并支持批处理。
我在 MacBook Air M5 上对 21 款本地大模型进行了代码质量与速度的性能评测
一位开发者在 MacBook Air M5 上使用 HumanEval+ 对 21 款本地大模型进行了基准测试,发现 Qwen 3.6 35B-A3B (MoE) 以 89.6% 的得分和 16.9 tok/s 的速度位居榜首,而 Qwen 2.5 Coder 7B 仅需 4.5 GB 内存即可达到 84.2% 的性能,拥有最佳的内存性价比。值得注意的是,Gemma 4 系列的表现远低于预期(31B 版本仅得 31.1%),这可能是受 Q4_K_M 量化策略的影响。
@Michaelzsguo: 两天前,我询问是否应该购买 Mac Studio 用于本地运行 LLM。我由衷地感叹收到的反馈如此优质且丰…
作者分享了一份针对本地运行大语言模型(LLM)的硬件购买指南,综合了社区反馈,对比了 Mac Studio、NVIDIA 和 AMD 的选项。
@AlexFinn:我简直不敢相信这是真的,我的 Mac Studio 上 100% 本地运行 GLM 5.2(2比特量化),得到的结果……
用户报告在 Mac Studio 上本地运行 GLM 5.2(2比特量化),声称其性能优于 Opus 4.8,并实现免费、私密的超级智能,用于编程和智能体任务。