@rohanpaul_ai: Qwen 3.6 27B 在 MacBook Pro M5 Max 64GB 上达到每秒34个token，本地使用 atomic[.]chat，接受率达90%，即……

X AI KOLs Following 2026/05/14 05:34 新闻

local-inference qwen macbook-pro apple-silicon llama-cpp quantization inference-speed

摘要

Qwen 3.6 27B 在 MacBook Pro M5 Max 64GB 上本地运行，实现每秒34个token，草稿接受率达90%，通过 TurboQuant、GGUF 和 llama.cpp 实现，展示了笔记本AI推理的重大进步。

Qwen 3.6 27B 在 MacBook Pro M5 Max 64GB 上本地运行，达到每秒34个token，使用 atomic[.]chat，接受率达90%，即大多数草稿token与主模型本应生成的token匹配，因此速度提升并非来自跳过质量检查，而是避免了重复的全量解码工作。TurboQuant 和 GGUF 处理存储和运行时方面：模型被压缩到足以本地运行，而 llama.cpp 可以高效地向 Apple Silicon 提供数据，无需等待巨大的权重移动。这是一个相当厉害的本地推理结果，改变了人们对“笔记本AI”的体验感受。

查看原文

@rohanpaul_ai: Qwen 3.6 27B 在 MacBook Pro M5 Max 64GB 上达到每秒34个token，本地使用 atomic[.]chat，接受率达90%，即……

相似文章

在 8GB 显存和 32GB 内存上运行 Qwen3.6 35b a3b，~190k 上下文

在 12GB 显存下，使用 Qwen3.6 35B A3B 与 llama.cpp MTP 实现 80 tok/sec 的速度和 128K 上下文

Qwen3.6 35B-A3B在笔记本上的运行：我的从零到一时刻

@rohanpaul_ai: atomic[.]chat 让 Gemma 4 26B 在 LLaMA.cpp 中的运行速度更快，在 MacBook Pr… 上的 token 生成速度提升约 40%

@iotcoi：Qwen3.6-27B-FP8 + Dflash + DDTree，256k 上下文，10 个智能体，单颗 49W GB10 上峰值 200 tokens/s，平均解码 136 tokens/s

提交意见反馈