@nicekate8888: 最近二十天我都在折腾一件事——怎么让 Qwen3.6-27B 在我的 Mac 上跑得又快又好。 一开始我用 Unsloth Q5,18 tok/s,风扇呼啦呼啦响。 后来换成 MLX 6bit + DFlash,提到 22 tok/s,还…
摘要
用户分享在Mac上通过不同量化方法(Unsloth Q5、MLX 6bit + DFlash、MTPLX 4bit)优化Qwen3.6-27B推理速度的经验,最终达到43 tok/s。
最近二十天我都在折腾一件事——怎么让 Qwen3.6-27B 在我的 Mac 上跑得又快又好。 一开始我用 Unsloth Q5,18 tok/s,风扇呼啦呼啦响。 后来换成 MLX 6bit + DFlash,提到 22 tok/s,还是不够快。 直到我遇到了 MTPLX 4bit,43 tok/s,质量不错。 完整视频: 视频里有完整对比、编码任务实测、写作推理测试,还分享了我和 Grok 一步步搞配置的全过程
相似文章
@linexjlin: K2.6 花了 12 个小时, 在 Mac 上用 zig 语言 从 0 写了一个 LLM 推理引擎并,并将 qwen 3.5 0.8B 推理速度由 15 tok/s 优化到了 193.1 tok/s
Developer built a Zig-based LLM inference engine from scratch on Mac in 12h, boosting Qwen 3.5 0.8B speed from 15 to 193 tok/s.
@nash_su: Mac 推理速度翻倍 这个 MTPLX 是 MLX + MTP 的整合解决方案,专门针对 Apple Silicon 进行了模型推理优化,使用加入了定制 MTP head 的模型,可以提供翻倍的推理速度。 我测试过了,Qwen3.6-27…
MTPLX 是 MLX 与 MTP 的整合解决方案,专门针对 Apple Silicon 优化模型推理速度,测试显示 Qwen3.6-27B 推理速度比 LM Studio 翻倍,并集成了风扇管理。
Qwen-3.6-27B + llamacpp 投机解码效果惊艳
Reddit 用户展示了 llamacpp 的投机解码功能将 Qwen-3.6-27B 的生成速度从 13.6 提升至 136.75 t/s,并分享了完整的命令参数和硬件配置。
@sanbuphy: K2.6 成功在 Mac 本地下载并部署了 Qwen3.5-0.8B 模型,通过使用小众 Zig 语言实现并优化模型推理,证明了新模型的泛化能力。经过 4,000 多次工具调用,超过 12 小时的不间断运行,K2.6 模型共迭代了 14 …
K2.6在Mac本地成功部署Qwen3.5-0.8B模型,使用Zig语言实现推理优化,经过14轮迭代将吞吐量从约15 tokens/s提升至约193 tokens/s,比LM Studio快20%。
@Youssofal_: 感谢 Kate 对 MTPLX 的全面评测。她测试了多种不同的 MLX 运行时,并得出结论 MTP…
nicekate 在 Mac 上测试了多种 MLX 运行时以运行 Qwen3.6-27B,并得出结论 MTPLX 是最快的,在 4bit 量化下达到 43 tok/s。