@0xSero:本地部署(一)—— Apple Silicon Mac 拥有大内存池可跑大模型,但 token 生成速度会……
摘要
Apple Silicon Mac 提供大内存池运行大模型,但 token 生成较慢,最适合活跃参数量低的大型 MoE 模型。
查看缓存全文
缓存时间: 2026/04/22 15:00
本地篇 1 —— Apple Silicon Mac 提供了大容量内存,可以跑超大模型,但 token 生成速度会比大多数人习惯的慢。Mac 最适合那些“总参数量巨大、活跃参数量低”的 MoE 模型。简单来说,当你看到类似 Qwen3.5-397B-A17B 这样的模型时
相似文章
@QingQ77: 纯 Swift 写的 Apple Silicon LLM 推理服务器,不用 Python,低内存 Mac 也能跑大模型。 https://github.com/SharpAI/SwiftLM SwiftLM 是个 Swift 原生的推理服…
SwiftLM is a Swift-native LLM inference server for Apple Silicon that runs large models without Python, using SSD streaming to load MoE weights and enabling 122B models on 64 GB Macs.
@MemoryReboot_: 为什么 Mac Studio 是本地 AI 的陷阱——大统一内存看似美好,但适合聊天机器人,不适合 24/7 的工具调用工作流——没有 CUDA 意味着没有 vLLM、SGLang 和张量并行——花 1 万多美元买一台无法升级的“死胡同”设备,就像拥有一辆最高时速只有 100 公里的保时捷
文章认为,尽管 Mac Studio 拥有大容量统一内存,但由于缺乏 CUDA 支持且硬件不可升级,它并不适合 24/7 的本地 AI 工作流。
我为Apple Silicon打造了最快的本地AI引擎。专为代理式使用优化。
作者宣布发布'lightning-mlx',这是一个针对Apple Silicon优化的本地AI引擎,可为编码代理和工具调用工作流实现高令牌速度。
@remilouf: 在 @julien_c 的推文之后,我买了一台配备 128B 统一内存的 MacBook Pro,并开始将 Qwen3.6 作为我的日常驱…
作者分享了在配备 128GB 统一内存的 MacBook Pro 上运行 Qwen3.6 模型的经验,称赞了苹果硬件在本地 AI 推理方面的效率。
2台配备 512GB 内存的 M3 Ultra Mac Studio
硬件投入约 2.5 万美元。告诉我你们希望我在这两台设备上部署什么模型,我会协助测试。目前我已通过 Exo 后端跑通了 DeepSeek v3.2 Q8 版本;当前每台设备均在运行 GLM 5.1 Q4(正在排查为何 Exo 无法加载 Q8 版本)。静候社区完成 Kimi 2.6 针对 MLX/mmap 的优化适配。