@0xSero：本地部署（一）—— Apple Silicon Mac 拥有大内存池可跑大模型，但 token 生成速度会……

X AI KOLs Following 2026/04/22 12:18 工具

摘要

Apple Silicon Mac 提供大内存池运行大模型，但 token 生成较慢，最适合活跃参数量低的大型 MoE 模型。

本地部署（一）—— Apple Silicon Mac 拥有大内存池可跑大模型，但 token 生成速度会低于多数人习惯的水平。Mac 最适合那些活跃参数量低的大型 MoE。简单说，当你看到类似 Qwen3.5-397B-A17B 这样的模型时

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/22 15:00

本地篇 1 —— Apple Silicon Mac 提供了大容量内存，可以跑超大模型，但 token 生成速度会比大多数人习惯的慢。Mac 最适合那些“总参数量巨大、活跃参数量低”的 MoE 模型。简单来说，当你看到类似 Qwen3.5-397B-A17B 这样的模型时

相似文章

@QingQ77: 纯 Swift 写的 Apple Silicon LLM 推理服务器，不用 Python，低内存 Mac 也能跑大模型。 https://github.com/SharpAI/SwiftLM SwiftLM 是个 Swift 原生的推理服…

X AI KOLs Timeline

SwiftLM is a Swift-native LLM inference server for Apple Silicon that runs large models without Python, using SSD streaming to load MoE weights and enabling 122B models on 64 GB Macs.

@MemoryReboot_: 为什么 Mac Studio 是本地 AI 的陷阱——大统一内存看似美好，但适合聊天机器人，不适合 24/7 的工具调用工作流——没有 CUDA 意味着没有 vLLM、SGLang 和张量并行——花 1 万多美元买一台无法升级的“死胡同”设备，就像拥有一辆最高时速只有 100 公里的保时捷

X AI KOLs Timeline

文章认为，尽管 Mac Studio 拥有大容量统一内存，但由于缺乏 CUDA 支持且硬件不可升级，它并不适合 24/7 的本地 AI 工作流。

@0xSero：本地部署（一）—— Apple Silicon Mac 拥有大内存池可跑大模型，但 token 生成速度会……

相似文章

@QingQ77: 纯 Swift 写的 Apple Silicon LLM 推理服务器，不用 Python，低内存 Mac 也能跑大模型。 https://github.com/SharpAI/SwiftLM SwiftLM 是个 Swift 原生的推理服…

我为Apple Silicon打造了最快的本地AI引擎。专为代理式使用优化。

@remilouf: 在 @julien_c 的推文之后，我买了一台配备 128B 统一内存的 MacBook Pro，并开始将 Qwen3.6 作为我的日常驱…

2台配备 512GB 内存的 M3 Ultra Mac Studio

提交意见反馈