@Michaelzsguo：所以你买了128GB MacBook Pro。现在的问题不是“哪个本地模型的TPS最高？”而是：哪个设…

X AI KOLs Timeline 2026/05/17 12:43 工具

local-ai macbook-pro coding-assistant qwen mlx deterministic-decoding prompt-cache

摘要

这条推文推荐了适用于128GB MacBook Pro的本地AI编程方案，使用Qwen 3.6模型搭配MLX服务器及特定配置，以实现可靠的编程辅助。

所以你买了128GB MacBook Pro。现在的问题不是“哪个本地模型的TPS最高？” 而是：哪个设置是我真正可以信赖来完成工作的？这是我推荐的本地编程方案：Qwen 3.6，dense 27B，Q6量化，MLX服务器，8192输出token，20GB提示缓存，以及确定性解码。如果Anthropic的成功故事告诉我们什么，那就是一旦你搞定了编程，就能拓展到几乎所有其他领域。当本地模型能完成补丁时，它们就不再只是业余爱好了。

查看原文

查看缓存全文

缓存时间: 2026/05/17 20:24

所以你买了128GB内存的MacBook Pro。

现在的问题不是：“哪个本地模型能达到最高的TPS？”

而是：哪种配置我真的能信赖，确保完成任务？

这是我首先会采用的本地编码方案：Qwen 3.6，稠密27B，Q6量化，MLX服务器，8192个输出token，20GB提示缓存，以及确定性解码。

如果说Anthropic的成功故事给了我们什么启示，那就是一旦你搞定了编码，就可以扩展到几乎任何其他领域。

当本地模型能够完成补丁任务时，它们就不再只是个爱好了。

说得太对了！这其实非常主观。连我自己都能做这样的基准测试（我在A100上做过，也许我也应该在Mac上跑一遍）。

完全同意。我的codex-qwen运行良好，只是稍微慢一点。我真的相信从今往后只会越来越好。

试试同样的配置，但把提示缓存稍微调小一点，比如8GB。请告诉我们效果如何。

相似文章

购买128GB MacBook Pro值得吗？它在编程方面能否与当今的前沿模型媲美？

Reddit r/LocalLLaMA

一位开发者质疑，为了本地AI模型而配备大内存的MacBook Pro，考虑到长期成本，能否在编程方面与Claude等云前沿模型匹敌。

@remilouf: 在 @julien_c 的推文之后，我买了一台配备 128B 统一内存的 MacBook Pro，并开始将 Qwen3.6 作为我的日常驱…

X AI KOLs Following

作者分享了在配备 128GB 统一内存的 MacBook Pro 上运行 Qwen3.6 模型的经验，称赞了苹果硬件在本地 AI 推理方面的效率。

本地模型优化（3 分钟阅读）

TLDR AI

本文分析了在 MacBook Pro 上本地运行 AI 推理的可行性，对比了本地 Qwen 35B 模型与云端 Claude Opus 4.5。结论是，对于常规任务，本地模型速度快 2 倍，尽管在能力上略有差距，但仍是日常工作量中一半任务的实用选择。

@julien_c：Apple Silicon 是本地AI之王吗？

X AI KOLs Following

关于Apple Silicon是否是运行本地AI模型的最佳硬件的讨论，引用了一篇相关文章或讨论串。

@Xudong07452910: Hacker News 上有一篇评论区火了的文章：Qwen 3.6 27B 是本地开发的理想选择。核心发现是：密集参数模型、原生支持 256k 上下文，在 MacBook Max M5 上跑 Q8_0 量化版能达到 30 tokens/…

X AI KOLs Timeline

Qwen 3.6 27B is a dense 27B model that achieves impressive performance on local hardware with 256k context, running at 30 tokens/s on MacBook Max M5 and 50 tokens/s on RTX 5090, and is considered by some as the first local model with true general intelligence.