@songjunkr：分享我的个人本地LLM配置：设备：MacStudio M2 Ultra 64GB，加载模型：SuperQwen3.6 35b mlx 4bit…

X AI KOLs Timeline 2026/04/20 12:50 工具

摘要

一位用户展示了在MacStudio M2 Ultra 64GB上运行的个人本地LLM栈，组合了SuperQwen3.6-35b-mlx-4bit、Ernie Image Turbo及多款辅助模型，用于编程与聊天。

分享我的个人本地LLM配置：设备：MacStudio M2 Ultra 64GB 加载模型： - SuperQwen3.6 35b mlx 4bit（90 tok/s） - Ernie Image Turbo（图像生成模型） Hermes Agent + MLX-LM + GPT Codex（编程） Gemini（对话、图像）

查看原文

查看缓存全文

缓存时间: 2026/04/21 10:32

分享我的本地大模型个人配置：

设备：Mac Studio M2 Ultra 64 GB
已加载模型

SuperQwen3.6 35B MLX 4bit（90 tok/s）
Ernie Image Turbo（文生图模型）

Hermes Agent + MLX-LM + GPT Codex（编程）
Gemini（对话、图像）

相似文章

2台配备 512GB 内存的 M3 Ultra Mac Studio

Reddit r/LocalLLaMA

硬件投入约 2.5 万美元。告诉我你们希望我在这两台设备上部署什么模型，我会协助测试。目前我已通过 Exo 后端跑通了 DeepSeek v3.2 Q8 版本；当前每台设备均在运行 GLM 5.1 Q4（正在排查为何 Exo 无法加载 Q8 版本）。静候社区完成 Kimi 2.6 针对 MLX/mmap 的优化适配。

@jun_song: 最佳中端本地LLM硬件：DGX Spark 对比 Mac Studio M5 Max 128GB（即将推出）价格：4700美元（二手或OEM更便宜）…

X AI KOLs Following

DGX Spark与Mac Studio M5 Max在本地运行LLM的对比，重点比较了解码速度、预填充性能、内存、功耗和成本。Mac在解码带宽上胜出，但DGX在预填充方面更快并支持批处理。

我在 MacBook Air M5 上对 21 款本地大模型进行了代码质量与速度的性能评测

Reddit r/LocalLLaMA

一位开发者在 MacBook Air M5 上使用 HumanEval+ 对 21 款本地大模型进行了基准测试，发现 Qwen 3.6 35B-A3B (MoE) 以 89.6% 的得分和 16.9 tok/s 的速度位居榜首，而 Qwen 2.5 Coder 7B 仅需 4.5 GB 内存即可达到 84.2% 的性能，拥有最佳的内存性价比。值得注意的是，Gemma 4 系列的表现远低于预期（31B 版本仅得 31.1%），这可能是受 Q4_K_M 量化策略的影响。

@Michaelzsguo: 两天前，我询问是否应该购买 Mac Studio 用于本地运行 LLM。我由衷地感叹收到的反馈如此优质且丰…

X AI KOLs Timeline

作者分享了一份针对本地运行大语言模型（LLM）的硬件购买指南，综合了社区反馈，对比了 Mac Studio、NVIDIA 和 AMD 的选项。

@AlexFinn：我简直不敢相信这是真的，我的 Mac Studio 上 100% 本地运行 GLM 5.2（2比特量化），得到的结果……