@songjunkr:分享我的个人本地LLM配置:设备:MacStudio M2 Ultra 64GB,加载模型:SuperQwen3.6 35b mlx 4bit…

X AI KOLs Timeline 工具

摘要

一位用户展示了在MacStudio M2 Ultra 64GB上运行的个人本地LLM栈,组合了SuperQwen3.6-35b-mlx-4bit、Ernie Image Turbo及多款辅助模型,用于编程与聊天。

分享我的个人本地LLM配置: 设备:MacStudio M2 Ultra 64GB 加载模型: - SuperQwen3.6 35b mlx 4bit(90 tok/s) - Ernie Image Turbo(图像生成模型) Hermes Agent + MLX-LM + GPT Codex(编程) Gemini(对话、图像)
查看原文
查看缓存全文

缓存时间: 2026/04/21 10:32

分享我的本地大模型个人配置:

设备:Mac Studio M2 Ultra 64 GB
已加载模型

  • SuperQwen3.6 35B MLX 4bit(90 tok/s)
  • Ernie Image Turbo(文生图模型)

Hermes Agent + MLX-LM + GPT Codex(编程)
Gemini(对话、图像)

相似文章

2台配备 512GB 内存的 M3 Ultra Mac Studio

Reddit r/LocalLLaMA

硬件投入约 2.5 万美元。告诉我你们希望我在这两台设备上部署什么模型,我会协助测试。目前我已通过 Exo 后端跑通了 DeepSeek v3.2 Q8 版本;当前每台设备均在运行 GLM 5.1 Q4(正在排查为何 Exo 无法加载 Q8 版本)。静候社区完成 Kimi 2.6 针对 MLX/mmap 的优化适配。

我在 MacBook Air M5 上对 21 款本地大模型进行了代码质量与速度的性能评测

Reddit r/LocalLLaMA

一位开发者在 MacBook Air M5 上使用 HumanEval+ 对 21 款本地大模型进行了基准测试,发现 Qwen 3.6 35B-A3B (MoE) 以 89.6% 的得分和 16.9 tok/s 的速度位居榜首,而 Qwen 2.5 Coder 7B 仅需 4.5 GB 内存即可达到 84.2% 的性能,拥有最佳的内存性价比。值得注意的是,Gemma 4 系列的表现远低于预期(31B 版本仅得 31.1%),这可能是受 Q4_K_M 量化策略的影响。