@0xSero:本地部署(一)—— Apple Silicon Mac 拥有大内存池可跑大模型,但 token 生成速度会……

X AI KOLs Following 工具

摘要

Apple Silicon Mac 提供大内存池运行大模型,但 token 生成较慢,最适合活跃参数量低的大型 MoE 模型。

本地部署(一)—— Apple Silicon Mac 拥有大内存池可跑大模型,但 token 生成速度会低于多数人习惯的水平。Mac 最适合那些活跃参数量低的大型 MoE。简单说,当你看到类似 Qwen3.5-397B-A17B 这样的模型时
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/22 15:00

本地篇 1 —— Apple Silicon Mac 提供了大容量内存,可以跑超大模型,但 token 生成速度会比大多数人习惯的慢。Mac 最适合那些“总参数量巨大、活跃参数量低”的 MoE 模型。简单来说,当你看到类似 Qwen3.5-397B-A17B 这样的模型时

相似文章

@MemoryReboot_: 为什么 Mac Studio 是本地 AI 的陷阱——大统一内存看似美好,但适合聊天机器人,不适合 24/7 的工具调用工作流——没有 CUDA 意味着没有 vLLM、SGLang 和张量并行——花 1 万多美元买一台无法升级的“死胡同”设备,就像拥有一辆最高时速只有 100 公里的保时捷

X AI KOLs Timeline

文章认为,尽管 Mac Studio 拥有大容量统一内存,但由于缺乏 CUDA 支持且硬件不可升级,它并不适合 24/7 的本地 AI 工作流。

2台配备 512GB 内存的 M3 Ultra Mac Studio

Reddit r/LocalLLaMA

硬件投入约 2.5 万美元。告诉我你们希望我在这两台设备上部署什么模型,我会协助测试。目前我已通过 Exo 后端跑通了 DeepSeek v3.2 Q8 版本;当前每台设备均在运行 GLM 5.1 Q4(正在排查为何 Exo 无法加载 Q8 版本)。静候社区完成 Kimi 2.6 针对 MLX/mmap 的优化适配。