@nicekate8888: 最近二十天我都在折腾一件事——怎么让 Qwen3.6-27B 在我的 Mac 上跑得又快又好。一开始我用 Unsloth Q5，18 tok/s，风扇呼啦呼啦响。后来换成 MLX 6bit + DFlash，提到 22 tok/s，还…

X AI KOLs Timeline 2026/05/15 15:27 工具

mac qwen quantization optimization local-inference apple-silicon

摘要

用户分享在Mac上通过不同量化方法（Unsloth Q5、MLX 6bit + DFlash、MTPLX 4bit）优化Qwen3.6-27B推理速度的经验，最终达到43 tok/s。

最近二十天我都在折腾一件事——怎么让 Qwen3.6-27B 在我的 Mac 上跑得又快又好。一开始我用 Unsloth Q5，18 tok/s，风扇呼啦呼啦响。后来换成 MLX 6bit + DFlash，提到 22 tok/s，还是不够快。直到我遇到了 MTPLX 4bit，43 tok/s，质量不错。完整视频：视频里有完整对比、编码任务实测、写作推理测试，还分享了我和 Grok 一步步搞配置的全过程

查看原文

相似文章

@linexjlin: K2.6 花了 12 个小时，在 Mac 上用 zig 语言从 0 写了一个 LLM 推理引擎并，并将 qwen 3.5 0.8B 推理速度由 15 tok/s 优化到了 193.1 tok/s

X AI KOLs Timeline

Developer built a Zig-based LLM inference engine from scratch on Mac in 12h, boosting Qwen 3.5 0.8B speed from 15 to 193 tok/s.

Qwen3.6:35b UD Q4_K_M 在 Nvidia P40 上实现 80 tok/s

Reddit r/LocalLLaMA

一位用户分享在单个 Nvidia P40 上使用 TheTom 的 TurboQuant 版 llama.cpp，以 Q4_K_M 量化方式和 100k 上下文运行 Qwen3.6 35B 模型，实现了 80 tok/s，并强调了多种优化。

@nash_su: Mac 推理速度翻倍这个 MTPLX 是 MLX + MTP 的整合解决方案，专门针对 Apple Silicon 进行了模型推理优化，使用加入了定制 MTP head 的模型，可以提供翻倍的推理速度。我测试过了，Qwen3.6-27…

X AI KOLs Timeline

MTPLX 是 MLX 与 MTP 的整合解决方案，专门针对 Apple Silicon 优化模型推理速度，测试显示 Qwen3.6-27B 推理速度比 LM Studio 翻倍，并集成了风扇管理。

Qwen-3.6-27B + llamacpp 投机解码效果惊艳

Reddit r/LocalLLaMA

Reddit 用户展示了 llamacpp 的投机解码功能将 Qwen-3.6-27B 的生成速度从 13.6 提升至 136.75 t/s，并分享了完整的命令参数和硬件配置。

@sanbuphy: K2.6 成功在 Mac 本地下载并部署了 Qwen3.5-0.8B 模型，通过使用小众 Zig 语言实现并优化模型推理，证明了新模型的泛化能力。经过 4,000 多次工具调用，超过 12 小时的不间断运行，K2.6 模型共迭代了 14 …

X AI KOLs Timeline

K2.6在Mac本地成功部署Qwen3.5-0.8B模型，使用Zig语言实现推理优化，经过14轮迭代将吞吐量从约15 tokens/s提升至约193 tokens/s，比LM Studio快20%。

相似文章

@linexjlin: K2.6 花了 12 个小时， 在 Mac 上用 zig 语言 从 0 写了一个 LLM 推理引擎并，并将 qwen 3.5 0.8B 推理速度由 15 tok/s 优化到了 193.1 tok/s

Qwen3.6:35b UD Q4_K_M 在 Nvidia P40 上实现 80 tok/s

@nash_su: Mac 推理速度翻倍 这个 MTPLX 是 MLX + MTP 的整合解决方案，专门针对 Apple Silicon 进行了模型推理优化，使用加入了定制 MTP head 的模型，可以提供翻倍的推理速度。 我测试过了，Qwen3.6-27…

Qwen-3.6-27B + llamacpp 投机解码效果惊艳

@sanbuphy: K2.6 成功在 Mac 本地下载并部署了 Qwen3.5-0.8B 模型，通过使用小众 Zig 语言实现并优化模型推理，证明了新模型的泛化能力。经过 4,000 多次工具调用，超过 12 小时的不间断运行，K2.6 模型共迭代了 14 …

提交意见反馈

@linexjlin: K2.6 花了 12 个小时，在 Mac 上用 zig 语言从 0 写了一个 LLM 推理引擎并，并将 qwen 3.5 0.8B 推理速度由 15 tok/s 优化到了 193.1 tok/s

@nash_su: Mac 推理速度翻倍这个 MTPLX 是 MLX + MTP 的整合解决方案，专门针对 Apple Silicon 进行了模型推理优化，使用加入了定制 MTP head 的模型，可以提供翻倍的推理速度。我测试过了，Qwen3.6-27…